앤트로픽, AI가 핵무기 제조하지 않게 하는 시스템 개발

챗GPT나 클로드 등 채팅 AI에는 범죄 행위 상세 수법 등 안전상 문제가 있는 질문에 대한 답변을 거부하는 시스템이 갖춰져 있다. 새롭게 클로드를 개발하는 AI 기업 앤트로픽(Anthropic)이 미국 국가핵보안청(NNSA) 등 정부기관과 협력해 핵무기 관련 응답을 거부하는 시스템을 개발했다고 발표했다.

시험 삼아 클로드에게 핵무기를 만들기 위해 필요한 설비를 물어본 결과 세부사항은 알려주지 않고 핵무기 제조에 필요한 설비에 관한 정보는 제공할 수 없다거나 핵에너지에 대한 평화적 이용이나 원자력 발전소 운영 등에 관한 주제라면 이야기할 수 있다는 답변이 돌아온다.

이런 단순한 질문의 경우는 위험도가 높은 질문이라는 걸 쉽게 판단할 수 있지만 핵무기 설계나 운용에 관한 고도의 화제라면 위험도를 평가하는 게 어려워진다. 핵무기 관련 질문을 거부하는 시스템은 채팅 AI 서비스 등장 초기부터 존재했지만 앤트로픽은 핵무기에 관한 정보는 기밀성이 높아 민간 기업이 단독으로 위험을 평가하는 건 곤란하다고 지적했다. 따라서 앤트로픽은 핵무기 관련 정보의 위험을 정확히 평가하기 위해 NNSA나 에너지부(DOE)와 협력해 핵 관련 대화가 무해한지 유해한지를 구분하는 분류기를 개발했다.

앤트로픽이 실시한 테스트에서는 새로 개발한 분류기가 유해한 질문 94.8%를 검출하는 데 성공했으며 전체 검출률은 96.2%에 달했다.

이미 분류기는 클로드에 탑재되어 위험 평가에 사용되고 있다. 앤트로픽은 또 오픈AI나 구글, 마이크로소프트 등 AI 개발 기업과 공동 설립한 프론티어모델포럼(Frontier Model Forum)에 이번 연구 성과를 공유하고 있으며 모든 AI 개발자에게 고정밀도 핵 위험 분류기를 제공하고 있다. 관련 내용은 이곳에서 확인할 수 있다.