
스위스 EPFL과 유럽 AI 연구 조직인 ELLIS 연구팀이 AI 사실 오인인 환각을 측정하기 위한 새로운 벤치마크 할루하드(HalluHard)를 개발했다. 이 조사 결과 웹 검색 기능을 활성화한 최신 플래그십 모델조차도 30% 확률로 잘못된 정보를 생성하는 것으로 밝혀졌다.
할루하드는 기존 단발성 질문 형식과 달리 현실적인 3턴 멀티턴 대화 형식으로 평가를 진행하는 게 특징이다. 법적 사례(250문), 연구 질문(250문), 의학 가이드라인(250문), 프로그래밍(200문)이라는 4개 민감도가 높은 전문 도메인에 걸친 950건 질문을 기반으로 검증이 이뤄진다. 각 응답에 대해서는 PDF 문서를 포함한 인용 문헌 분석과 웹 검색을 활용한 엄격한 검증 프로세스가 적용된다.
할루하드를 다양한 AI에 실시한 결과 환각률이 가장 낮았던 건 웹 검색을 병용한 Claude-Opus-4.5로 평균 환각률이 30.2%였다. 이어서 웹 검색을 병용한 GPT-5.2-thinking이 38.2%를 기록했다. 웹 검색을 사용하지 않을 경우 Claude-Opus-4.5 환각률은 60.0%에 달하기 때문에 검색 기능은 정확도를 향상시키지만 완전한 해결책은 되지 못한다고 한다.
또 연구팀은 환각을 인용 출처가 존재하는지를 확인하는 참조 그라운딩(Reference Grounding)과 그 인용 출처가 실제로 주장을 뒷받침하는지를 검증하는 콘텐츠 그라운딩(Content Grounding) 2단계로 평가했다.
그 결과 웹 검색은 실재하는 출처를 인용하는 능력은 높이지만 생성된 내용이 실제로 출처에 근거하고 있는지를 담보하는 능력은 부족한 것으로 밝혀졌다. 예를 들어 Claude-Opus-4.5에서는 웹 검색으로 인용 오류가 38.6%에서 7.0%로 대폭 감소했지만 내용 자체 오류는 83.9%에서 29.5%로의 개선에 그쳤다. 마찬가지로 GPT-5.2-thinking도 검색으로 인용 오류는 6.4%까지 낮아졌지만 내용 오류는 51.6%라는 높은 수준으로 남았다.
또 대화가 길어질수록 환각이 악화되는 경향도 확인됐다. 모델이 자신의 이전 오류를 맥락으로 참조해 그 실수를 전제로 답변을 구축하는 자기 조건화 효과로 인해 첫 번째 턴 내 잘못된 참조 중 3~20%가 이후 턴에서 재등장하는 것으로 나타났다. 다만 프로그래밍 관련에서는 대화가 진행될수록 작업이 구체적이고 좁은 범위로 한정되기 때문에 예외적으로 환각률이 감소하는 경향이 관찰됐다.
또 모델 규모가 클수록 환각은 감소한다. GPT-5 패밀리에서는 nano(85.1%)에서 mini(75.9%), 표준 GPT-5(71.8%), thinking(64.8%), 최신 5.2-thinking(53.8%)으로 개선이 보인다. Claude도 마찬가지로 Haiku(79.5%), Sonnet(65.6%), Opus(60.0%)로 성능에 비례한다. 사고 프로세스를 강화하는 추론 능력은 환각 억제에 도움이 되지만 답변이 길고 상세해지는 만큼 오히려 오류를 포함할 위험이 높아진다는 역설적인 현상도 보고됐다. 그 중에서도 DeepSeek-Reasoner는 DeepSeek-Chat과 비교해 환각 행동에 유의미한 차이가 보이지 않았다.
AI가 정보를 오인하는 원인에는 지식 인지도가 깊이 관여하고 있다. 완전한 허구에 대해서는 답변을 거부하는 경향이 있지만 실재하지만 정보가 적은 틈새 지식에 대해서는 학습 데이터의 미미한 기억을 바탕으로 추측으로 답변해버린다. 이게 위험한 중간 지대라 불리는 상태로 어중간하게 알고 있는 것이 화근이 되어 부족한 세부사항을 임의로 만들어내 사실 오인이 발생한다.
이런 AI 한계를 측정하는 할루하드는 10건 답변을 검증하는 검색 비용이 0.11달러로 저비용이면서도 높은 정확도 검증이 가능하다고 한다. 기존 평가 방법이 포화 상태에 있는 지금 복잡한 대화에서의 AI 신뢰성을 담보하고 불확실성을 올바르게 인식시키기 위한 중요한 기준이 된다.
연구팀은 기존 벤치마크가 포화되어 모델 간 차별화가 어려워지는 가운데 할루하드 같은 난이도가 높은 검증 환경이 AI 신뢰성 향상에 불가결하다고 결론지었다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 중기부, 중동 정세 악화에 따른 중기 피해 대응 TF 가동‧렛츠, 립스 민간운영사 선정](https://startuprecipe.co.kr/wp-content/uploads/2026/03/260303_effie.kr_50032053-75x75.jpg)

