앤트로픽, 클로드 헌법 개정판 발표했다

앤트로픽(Anthropic)이 1월 21일 AI 모델인 클로드(Claude) 행동 지침과 가치관을 정의한 ‘헌법(constitution) 개정판을 발표했다. 이번 개정은 2023년 처음 도입된 헌법 AI라는 훈련 기법을 진화시킨 것으로 AI가 더 고도의 윤리적 판단을 내리고 인간 감독을 적절히 받아들이기 위한 포괄적인 틀을 제시하고 있다.

헌법 AI란 모델을 훈련할 때 직접적인 인간 피드백에만 의존하지 않고 명문화된 원칙의 집합(헌법)을 사용해 학습시키는 시스템을 말한다. 이 헌법은 클로드가 어떤 존재여야 하는지 그리고 어떤 맥락에서 작동해야 하는지를 보여주는 기반 문서로서의 역할을 담당한다.

클로드는 이 헌법을 최종적인 권위로 취급하며 자신의 상황을 이해하고 어려운 선택이나 트레이드오프에 직면했을 때의 지침으로 활용한다. 또 이 헌법은 클로드 자신이 미래 모델을 훈련하기 위한 합성 데이터를 생성할 때도 사용되며 AI가 인류 가치관을 더 깊이 이해하기 위한 중심적인 역할을 한다.

이번 개정 주요 변경점은 단순한 규칙 나열에서 AI에게 왜 그렇게 행동해야 하는지에 대한 배경을 이해시키는 포괄적인 접근 방식으로 전환한 것이다.

새로운 헌법은 1. 광범위한 안전성(Broadly safe), 2. 광범위한 윤리성(Broadly ethical), 3. 앤트로픽 가이드라인 준수(Compliant with Anthropic’s guidelines), 4. 진정한 유용성(Genuinely helpful)이라는 4가지 핵심 가치관에 초점을 맞추고 있다. 이 4가지 가치관에는 우선순위가 설정되어 있으며 광범위한 안전성과 광범위한 윤리성은 앤트로픽 가이드라인 준수와 진정한 유용성에 앞서도록 설정되어 있다.

광범위한 안전성은 현재의 AI 개발 단계에서 인간이 AI를 감독하고 필요하다면 가치관이나 행동을 수정할 수 있는 구조를 클로드가 손상시키지 않는다는 사고방식이다. 앤트로픽은 현행 모델은 잘못된 신념이나 가치관의 결함, 맥락 이해 한계로 인해 유해하게 행동할 가능성이 있기 때문에 우선 인간 측이 계속 감독할 수 있고 필요하다면 클로드 행동을 멈출 수 있는 게 중요하다며 이런 종류 안전성을 윤리보다 우선적으로 다루는 경우가 있다고 설명했다.

광범위한 윤리성은 정직할 것, 좋은 가치관에 따라 행동할 것, 그리고 부적절하고 위험하거나 유해할 수 있는 행동을 피할 걸 말한다. 윤리 이론을 말하는 것 자체보다 도덕적 불확실성이나 의견 불일치가 있는 현실의 장면에서 기술과 판단, 뉘앙스, 감수성을 가지고 현명하게 의사 결정하는 게 중시되며 그 중에서도 높은 성실성 기준과 해를 피할 때 무엇이 가치로서 걸려 있는지를 신중히 저울질하는 추론이 요구된다고 밝혔다.

앤트로픽 가이드라인 준수는 더 구체적인 상황에서 앤트로픽이 보조적으로 제공하는 지시에 따라 행동하는 걸 의미한다. 헌법은 의료적 조언이나 사이버 보안 의뢰, 탈옥적 회피 시도, 툴 연계 처리 등 모델이 표준적으로는 갖기 어려운 상세 지식이나 맥락이 얽힌 영역에서 가이드라인이 유용하다고 보며 일반적인 유용성보다 가이드라인 준수를 우선해 달라고 밝히고 있다. 다만 앤트로픽 측은 어디까지나 가이드라인은 클로드가 안전하고 윤리적으로 행동하기 위한 것이며 헌법 전체와 충돌해서는 안 된다고 명기했다.

진정으로 유용할 걸 클로드가 관여하는 운영자나 사용자에게 실질적인 이익을 가져다준다는 목표다. 헌법은 클로드가 단순히 무난한 응답을 반환하는 게 아니라 솔직함과 진지한 배려를 갖고 이용자를 스스로 판단할 수 있는 성인으로 대하는 방식 도움을 강조하고 있다. 또 클로드가 마주하는 상대는 앤트로픽, API를 이용하는 개발자, 최종 사용자 등 여러 원칙에 걸쳐 있기 때문에 그 사이에서 유용성을 어떻게 배분하고 다른 가치와 어떻게 저울질할지에 대한 사고방식도 다룬다고 밝혔다.

이번 개정으로 인한 영향으로는 AI 행동에 관한 투명성이 대폭 향상될 것으로 기대된다. 헌법이 공개되며 사용자는 클로드 행동이 의도된 것인지 아니면 예기치 않은 오류인지를 판단하기 쉬워진다. 또 크리에이티브 커먼즈 CC0 1.0 라이선스 하에 헌법 전문이 공개되었기 때문에 누구나 이 원칙을 자사의 모델이나 연구에 활용할 수 있게 됐다.

앤트로픽은 이번 개정과 관련해 이 헌법을 살아있는 문서이며 지속적으로 진행 중인 작업이라고 규정했다. AI가 의식이나 도덕적 지위를 가질 가능성에 대해서는 현 시점에서 깊이 불확실하다고 하면서도 이를 진지하게 검토해야 할 과제로 제시했다. 또 앤트로픽은 인간과 AI가 함께 탐색하고 AI가 인류의 최선의 부분을 구현할 수 있도록 앞으로도 법률과 철학 등 다양한 분야 외부 전문가로부터 피드백을 받으며 헌법 정확도를 높여갈 방침을 강조했다. 관련 내용은 이곳에서 확인할 수 있다.