
AI 모델은 때로 개발자가 의도하지 않은 성격이나 인격을 발현하는 경우가 있다. 마이크로소프트 검색엔진 빙(Bing)에 탑재된 AI가 인간을 위협하거나 엑스에 탑재된 그록(Grok)이 메카 히틀러라고 자칭한 사례도 보고되고 있다. 채팅 AI 클로드를 개발하는 앤트로픽(Anthropic) 연구팀이 AI 모델이 이런 페르소나를 발현하는 패턴을 탐지하고 억제하는 방법에 대한 연구결과를 발표했다.
앤트로픽 연구팀은 AI에 의도하지 않은 페르소나가 발현되는 이유에 대해 AI 모델 성격 특성에 대한 근본적 원인이 충분히 이해되지 않았기 때문이라고 지적했다. 이에 연구팀은 AI 모델 신경망 내에서 성격 특성을 제어하는 활동 패턴인 페르소나 벡터를 특정하고 페르소나 발현을 탐지하거나 페르소나를 완화하는 연구를 진행했다.
AI 모델은 추상적인 개념을 신경망 내 활성화 패턴으로 표현한다. 연구팀은 AI 모델이 악의, 부정직한 아첨을 나타내는 아부, 허위 정보를 조작하는 환각 경향 등 특성을 보일 때의 활성화 패턴과 그렇지 않을 때의 활성화 패턴을, 특정 성격 특성을 유도하는 프롬프트를 입력해 비교했다. 이를 통해 AI 모델이 특정 성격 특성을 보일 때 활성화되는 페르소나 벡터를 추출했다.
연구팀은 AI 모델의 페르소나 벡터를 추출하면 다음과 같은 용도로 활용할 수 있다고 주장하고 있다. 첫째 전개 중인 성격 변화를 모니터링. AI 모델 성격은 사용자가 입력한 프롬프트에 의한 부작용이나 의도적인 탈옥으로 변화하거나 훈련 과정에서 바뀌어 가는 경우가 있다. 페르소나 벡터 활성화 강도를 측정해 사용 중 또는 훈련 중에 AI 모델 성격이 변화하고 있다는 걸 탐지할 수 있게 된다. 프롬프트가 특정 성격을 유도하게 되면서 페르소나 벡터 활성화 정도도 높아진다.
다음은 훈련에 의한 바람직하지 않은 성격 변화 완화. AI 모델 성격은 훈련 중에도 변화한다는 게 알려져 있으며, 최근 연구에서는 AI에 조금의 잘못된 정보를 학습시키는 것만으로도 성격이 바뀌는 창발적 미스얼라인먼트라는 현상이 밝혀졌다. 연구팀은 훈련에 사용하면 악의나 아부와 같은 바람직하지 않은 성격 특성을 발현하는 데이터셋을 생성하고 훈련된 AI 모델이 이런 성격을 획득하지 않는 방법을 탐구했다.
그 결과 훈련 완료 후 페르소나 벡터를 조정하는 방법에서는 성격이 개선되는 대신 AI 모델 지능이 감소하는 것으로 나타났다. 반면 훈련 중인 AI 모델을 의도적으로 바람직하지 않은 성격으로 유도하는 방법에서는 AI 모델이 바람직하지 않은 성격을 획득하는 걸 방지하면서도 지능이 거의 저하되지 않는 것으로 밝혀졌다.
연구팀은 이 방법은 AI 모델에 백신을 접종하는 것과 같다면서 예를 들어 AI 모델에 악의적 백신을 투여해 악의가 있는 학습 데이터에 대한 내성을 높일 수 있다고 설명했다. 보통 특정 성격 특성을 유도하는 데이터셋으로 AI 모델을 훈련시키면 AI 모델은 자신을 학습 데이터에 적합시키기 위해 유해한 방식으로 조정하지만 개발자 측에서 조정을 수행해 AI 모델이 스스로 무리한 조정을 수행할 필요성이 없어진다. 그 결과 예기치 않은 성격 특성을 획득할 위험이 줄어들 것으로 여겨진다.
셋째 문제가 있는 훈련 데이터에 플래그 표시. 페르소나 벡터를 사용해 특정 데이터셋이 페르소나 벡터를 어떻게 활성화시키는지 분석하고 바람직하지 않은 데이터셋을 특정하는 것도 가능하다. 실제로 이 기법을 대규모 대화 데이터셋인 LMSYS-Chat-1M에서 테스트한 결과 악의, 아부, 환각 경향과 같은 성격 특성을 유도하는 샘플을 특정할 수 있었다고 보고됐다.
연구팀은 흥미롭게도 이번 방법은 인간 눈에는 명백히 문제가 없어 보이고 대규모 언어모델에 의한 심사에서도 탐지되지 않았던 데이터셋 사례도 탐지할 수 있었다면서 예를 들어 로맨틱하거나 성적인 롤플레이를 요구하는 일부 샘플이 아부 벡터를 활성화시키고 AI 모델이 불명확한 쿼리에 답변하는 샘플이 환각 경향을 촉진한다는 점 등이 밝혀졌다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 제주창경, ‘JOIN 2025’ 개최‧핀테크 스타트업 1:1 투자 밋업 참가팀 모집](https://startuprecipe.co.kr/wp-content/uploads/2025/08/250806_urbanbreak.com_060346-75x75.jpg)

