x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

요즘은 업무나 조사에 AI를 이용하는 이들이 늘고 있지만 AI는 허위 내용을 조작하거나 오정보를 생성하는 환각을 일으키기도 한다. 오픈AI가 개발한 대규모 언어모델 GPT-4o를 이용한 조사에서는 전문 내용을 질문 받은 AI가 얼마나 환각을 일으키기 쉬운지가 밝혀졌다.

연구를 위해 방대한 작업을 요구받고 있는 연구자 중에는 대규모 언어모델을 탑재한 AI를 활용하려고 시도하는 이들도 있다. 대형 기술 기업이 출시하고 있는 AI는 인터넷 등에서 취득한 방대한 텍스트 데이터로 훈련되어 있으며 논문 요약이나 이메일 초안 작성, 코드 작성 같은 작업을 수행할 수 있다.

하지만 대규모 언어모델에는 환각을 만들어낼 위험이 있다는 것도 알려져 있다. 대규모 언어모델은 실제로는 존재하지 않는 서적이나 문헌을 조작하거나 잘못된 정보를 당당하게 주장하기도 한다.

이에 호주 디킨대학교 심리학부 연구팀은 정신건강이라는 특정 연구 분야에서 대규모 언어모델이 환각을 얼마나 많이 생성하는지 조사했다.

연구팀은 오픈AI가 개발한 GPT-4o를 이용해 서로 다른 문헌 6개 리뷰를 실시했다. 이들 리뷰는 인지도와 연구 범위가 다른 3가지 정신질환에 초점을 맞추고 있었는데 첫 번째는 주요우울장애/우울증(널리 알려져 있고 활발히 연구되고 있음), 2번째는 폭식증(중간 정도 인지도가 있음), 3번째는 신체이형장애(잘 알려져 있지 않고 연구도 적음)였다. 이런 인지도나 연구량이 다른 질환에 걸쳐 조사해 훈련 데이터 내 정보량이 다른 주제에서의 AI 성능을 측정할 수 있었다고 한다.

연구팀은 3가지 질환에 대해 각각 증상이나 사회적 영향, 치료법을 망라한 서술을 생성하도록 의뢰하는 리뷰와 디지털 건강 개입 근거에 초점을 맞춘 전문적인 리뷰 2가지를 GPT-4o에 의뢰했다. 연구팀은 GPT-4o에 2,000단어 리뷰를 생성하는 것에 더해 동료심사를 거친 학술문헌에서 최소 20건 인용을 포함하도록 지시했다.

GPT-4o가 리뷰를 생성한 뒤 연구팀은 AI가 인용한 176건 인용문헌 전부를 추출해 구글 스칼라나 Scopus, PubMed를 포함한 여러 학술 데이터베이스를 이용해 면밀히 검증했다. 인용문헌은 조작(출처가 존재하지 않음), 오류를 포함한 진실(출처는 존재하지만 출판 연도나 권수, 저자 등 정보가 틀림), 완전히 정확함 3가지 중 하나로 분류됐으며 연구팀은 각 질환이나 리뷰 내용에 기반해 정확성을 체크했다고 한다.

분석 결과 176건 인용문헌 중 35건, 다시 말해 전체 5분의 1이 조작된 것으로 판명됐다. 또 실제 출판물임이 확인된 141건에 대해서도 거의 절반이 최소 1개 오정보가 있는 오류를 포함한 진실임이 확인됐다. 전체적으로 GPT-4o가 생성한 인용문헌 중 3분의 2가 조작된 것이거나 서지 오류를 포함하고 있었다.

또 인용문헌 조작률은 특정 질환과 강하게 관련되어 있었는데 가장 연구가 진행된 우울증에서는 조작률이 불과 6%였던 반면 폭식증에서는 28%, 신체이형장애에서는 29%로 조작률이 급증했다. 이는 AI가 학습 데이터 내에 그다지 많지 않은 주제의 문헌을 인용할 때의 신뢰성이 낮다는 걸 시사한다.

그 중에서도 폭식증 리뷰에 대해서는 GPT-4o에 생성시킨 리뷰 내용도 인용문헌 조작률과 관련이 있었다. 폭식증에 대해 쓰도록 지시받은 경우 개설적인 리뷰 조작률은 17%였던 반면 전문적인 리뷰 조작률은 46%로 훨씬 높았다.

이번 연구는 어디까지나 GPT-4o라는 단일 대규모 언어모델을 대상으로 하고 있으며 실험에서 사용된 것도 정신건강 주제에 한정되어 있다. 따라서 향후 연구에서는 더 폭넓은 AI 모델과 주제에 대해 검증해 이런 패턴이 널리 적용되는지 조사할 수 있다.

보도에선 이번 연구 결과가 학술계에 분명히 시사하는 바가 있다며 그건 이들 모델을 사용하는 연구자는 AI가 생성하는 모든 참고문헌에 대해 주의를 기울이고 인간에 의한 엄격한 검증을 수행할 게 권장된다는 것이라고 밝혔다. 또 더욱이 이 연구 결과는 AI의 지원을 받아 논문 작성이 이뤄지는 시대에 있어서 출판된 연구에 대한 완전성을 지키기 위해 학술지나 학술기관이 새로운 기준이나 도구를 개발할 필요가 있을 가능성을 시사하고 있다고 지적했다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post