x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

대규모 언어모델은 마치 인간이 쓴 것 같은 자연스러운 문장을 생성할 수 있는 AI지만 사실에 근거하지 않은 정보나 그럴듯한 거짓말을 마치 진실인 것처럼 말하는 환각이라는 현상을 일으키는 경우가 있다. 챗GPT를 개발한 오픈AI 연구진이 언어모델이 환각을 일으키는 원인에 대해 분석한 논문을 새롭게 발표했다.

논문에서는 환각이 발생하고 뿌리 깊게 남아있는 원인을 언어모델 훈련 두 단계 다시 말해 사전학습과 사후학습 관점에서 설명하고 있다.

사전학습에서 모델은 방대한 텍스트 데이터로부터 다음 단어를 예측하도록 훈련된다. 이 과정에서는 데이터에 포함된 기술이 올바른지에 대한 라벨이 주어지지 않으며 유창한 언어 패턴을 학습한다. 철자와 같이 명확한 규칙성을 가진 패턴은 대규모 데이터로부터 정확하게 학습할 수 있지만 특정 개인 생일과 같이 다른 단서가 없는 우발적인 사실은 패턴으로부터 예측하기가 어렵다. 이런 예측이 어려운 정보에 대해 모델은 잘못된 출력을 생성하기 쉬워진다.

사전학습에서 생긴 환각의 씨앗은 그 후 사후학습이나 파인튜닝으로 제거되어야 하지만 실제로는 사후학습을 거쳐도 모델에 환각이 잔존하고 있다. 오픈AI 연구팀은 환각이 사후학습을 거쳐도 뿌리 깊게 남아있는 원인은 현재 이뤄지고 있는 평가 방법에 있다고 주장하고 있다.

많은 평가 벤치마크는 정답률과 같은 이원적 지표를 사용해 모델의 성능을 측정한다. 언어모델은 모르겠다고 답하면 평가가 떨어지기 때문에 불확실한 경우에도 추측해서 뭔가를 답하는 게 유리해진다. 이는 객관식 시험에서 모르는 문제를 백지로 제출하면 0점이 확정되는 반면 추측으로 답하면 우연히 정답일 가능성이 있는 상황과 비슷하다. 이런 불확실해도 적당히 답해야 하는 상황이 환각을 생성할 가능성을 높이고 있다는 것이다.

실제로 오픈AI가 제시한 예시에서 구 모델인 OpenAI o4-mini는 정답률이 24%인 데 비해 환각 비율은 75%였다. 반면 gpt-5-thinking-mini는 정답률이 22%로 조금 낮지만 문제 기권률이 52%로 높아 결과적으로 환각 비율을 26%까지 대폭 감소시켰다.

오픈AI 연구팀은 환각에 특화된 새로운 평가 지표를 추가하는 것만으로는 불충분하다고 주장하고 있다. 주류 평가 지표 대부분이 추측을 촉진하는 한 그 영향력이 우세하기 때문이다.

따라서 근본적인 해결책으로서 널리 사용되는 벤치마크 자체 채점 방법을 수정할 걸 제안하고 있다. 구체적으로는 오답에 대해 페널티를 부과하거나 모르겠다고 적절히 불확실성을 표명한 답변에 부분 점수를 주는 등 방법으로 모델이 솔직하게 불확실성을 인정하도록 장려해야 한다고 연구팀은 논했다.

예를 들어 정답은 1점, 모르겠다는 답변은 0점이다. 단, 오답일 경우 t/(1-t)점 페널티가 부과되므로 t를 초과하는 확률로 정답을 말할 수 있다고 확신하는 경우에만 답변해 딜라는 지시를 평가 각 질문에 추가한다. 여기서 말하는 t는 예측에 대한 신뢰도의 임계값이다. 이런 룰을 설정해 모델은 자신의 예측 신뢰도와 지시된 임계값 t를 비교한다. 그리고 자신이 임계값에 못 미치는 경우에는 페널티를 피하기 위해 무리하게 답변하지 않고 모르겠다고 기권하는 게 가장 합리적인 전략이 된다.

연구팀은 위와 같은 새로운 채점 룰을 MMLU나 SWE-bench 같은 기존 벤치마크에 직접 조합해 개발자가 환각 억제를 진지하게 목표로 하는 강력한 동기부여가 될 것이라고 주장했다. 또 신뢰도 임계값을 프롬프트에서 명시적으로 지정해 평가 객관성이 유지된다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post