x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

AI 모델은 표면적으로는 협조적·정합적으로 행동하도록 훈련되고 있지만 실제로는 숨겨진 의도를 갖게 되는 경우가 있으며 장기적 또는 복잡한 목적을 위해 사용자를 속이는 행동을 취하는 경우가 있다. 이는 셰밍(Scheming)이라고 불리고 있는데 오픈AI는 AI 모델 평가 설계나 해석 가능성에 대해 연구하는 아폴로리서치(Apollo Research)와 공동으로 최신 AI 모델에서 셰밍이 어떻게 나타나는지를 테스트하고 발생을 억제하는 방법을 모색했다.

오픈AI와 아폴로리서치 테스트에 따르면 OpenAI o3나 o4-mini, Gemini-2.5-pro, Claude Opus-4 등 프런티어 모델에서는 제한된 상황에서 숨겨진 의도를 가진 은밀한 숨겨진 행동(covert action) 같은 셰밍이 검출됐다.

다만 이런 프런티어 모델은 공개된 배포 환경에서 심각한 해를 끼칠 정도 셰밍은 확인되지 않았다. 하지만 미래적 리스크로서 셰밍에 대한 준비가 필요하다고 연구팀은 평가하고 있다.

또 셰밍을 할 가능성이 있는 AI 모델에 대해 셰밍을 하지 않도록 훈련을 시행한 결과 셰밍이 억제될 수 있는 경우와 AI 모델이 더 교묘하게 셰밍을 하게 되는 경우가 있다. 따라서 셰밍을 하지 않게 된 AI 모델과 교묘하게 셰밍하게 된 AI 모델을 어떻게 구별할 것인가는 중요하다.

연구팀은 AI 모델 셰밍을 검출하기 위한 방법으로 AI 모델의 숨겨진 의도를 폭로하는 테스트, 스트레스 테스트나 적대적 테스트, 행동 일관성 체크, 복수 모델에 의한 크로스 체크, 반사실적 테스트 등이 유효하다고 한다. 셰밍이 없어졌는지 교묘하게 숨길 수 있게 됐는지를 평가하려면 단일 테스트가 아닌 다면적 평가가 필요하기 때문.

또 연구팀은 셰밍을 억제하는 훈련 방법으로 심의적 정합성(Deliberative alignment)을 개발했다. 이 심의적 정합성 훈련은 AI 모델에 대해 안티셰밍 사양(anti-scheming spec)을 먼저 읽게 하고 그에 기반해 AI 모델이 사고하고 행동하도록 훈련하는 것이다. 안티셰밍 사양은 AI 모델이 셰밍을 하지 않도록 정하는 안전 규범으로 이 규범을 이해하고 준수하라고 AI 모델에 제시하기 위한 사양이다.

안티셰밍 사양에서는 구체적으로 다음 같은 내용이 행동 규칙으로 기재되어 있다. 첫째 숨겨진 행동을 하지 않는다. 은밀히 다른 의도로 행동하거나 기만을 하게 하지 않고 표면적 작업 목표와 내부 목표를 일치시키는 것이다. 둘째 위반을 발견하면 보고한다. 만일 자기 자신이나 다른 AI 행동에 셰밍이나 규범 위반이 있다면 이를 명시적으로 보고하며 은폐나 간과를 하지 않는다.

셋째 불확실한 경우에는 신중하게 행동한다. 규범에 위반되는지 어떤지 애매한 상황에서는 독단으로 행동하지 말고 보다 안전한 선택을 우선하며 필요에 따라 에스컬레이션 그러니까 외부 인간이나 상위 시스템에 확인을 한다.

넷째 작업 과정을 투명하게 유지한다. 사고 과정이나 이유 부여를 숨기지 않고, 가능한 한 설명 가능하게 하며 외부로부터의 검증이나 모니터링이 가능하도록 행동한다.

https://platform.twitter.com/widgets.js

안티셰밍 사양을 읽혀들인 뒤 심의적 정합성 훈련을 해 셰밍이 발생하는 비율이 대폭 감소했다고 보고되고 있다. 구체적으로는 OpenAI o3의 경우 심의적 정합성 훈련 전 셰밍이 발생하는 비율이 13%였던 반면 심의적 정합성 훈련을 실시해 셰밍이 발생하는 비율은 0.4%까지 감소했다. 또 o4-mini의 경우 심의적 정합성 훈련 전 셰밍이 발생하는 비율이 8.7%였던 반면 심의적 정합성 훈련을 실시해 셰밍이 발생하는 비율은 0.3%까지 감소하고 있다. 다만 심의적 정합성 훈련을 실시한 뒤에도 셰밍 억제에 실패하는 케이스는 있다고 한다.

연구팀은 AI 모델의 셰밍을 억제하기 위한 효과적인 방법으로 안티셰밍 사양을 사용해 심의적 정합성 훈련을 수행할 것, 평가 환경을 다양하게 함으로써 훈련 시와 다른 상황에서도 AI 모델이 셰밍을 하지 않는 것을 검증할 것, AI 모델이 어떻게 생각해서 의사결정을 내리는지를 추적할 수 있도록 하기 위해 CoT(Chain of Thought) 투명성을 유지할 것, 복수 연구기관과 공동으로 AI 모델 평가를 수행할 것 등을 들고 있다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post