오픈AI, AI 현실 세계 능력 측정 벤치마크 개발한다

오픈AI가 인간 전문가라면 어떻게 처리할 것이냐는 가정을 바탕으로, 전문가의 업무를 모방시켜 AI 성능을 측정하는 벤치마크 GDPval 개발에 착수하고 있다고 밝혔다.

AI가 수학 문제나 코딩 과제에서 고득점을 기록하더라도 그 능력을 일상적인 인간 활동에 얼마나 활용할 수 있는지는 알 수 없다. 이런 능력을 검증하기 위해 실생활을 기준으로 한 벤치마크가 요구되고 있다.

오픈AI는 새롭게 인간이 실제로 수행하고 있는 업무에서 AI가 얼마나 성능을 발휘할 수 있는지를 측정하는 벤치마크인 GDPval을 발표했다.

오픈AI는 미국 GDP에 크게 기여하고 있는 상위 9개 산업에서 44개 직종을 선별하고 각 직종에서 실제로 수행되는 전문적인 과제 1,320개를 추출했다. 이런 과제를 GDPval 테스트로 구성했다.

직종 내역은 부동산 관리업자나 정부 컴플라이언스 담당자, 제조업의 기계 엔지니어나 바이어, 소프트웨어 개발자, 변호사, 간호사, 약사, 금융 애널리스트, 사립탐정, 영화감독 등이다.

과제는 법률 문서, 설계도, 고객지원 대화, 간호 케어 계획과 같은 실제 업무 성과물을 참고해 설계됐으며 해당 분야에서 평균 14년 이상 경험을 보유한 전문가에 의해 치밀하게 작성·검증됐다.

오픈AI는 기존 벤치마크와 달리 GDPval의 과제는 단순한 텍스트 프롬프트만으로 수행하는 게 아니라며 첨부파일이나 과제에 관한 맥락이 포함되어 있으며 AI에게 기대하는 성과물은 문서, 슬라이드, 도표, 스프레드시트 등 다양하다고 설명했다.

초기 테스트에서는 GPT-4o, o4-mini, OpenAI o3, GPT-5, Claude Opus 4.1, Gemini 2.5 Pro, Grok 4 성과물과 인간이 생성한 성과물을 비교하는 블라인드 평가가 실시됐다. 그 결과 대부분 모델이 인간에게 패했지만 Claude Opus 4.1 등 일부 최첨단 모델은 인간에 근접한 성과물을 생성했다. Claude Opus 4.1은 문서 형식이나 슬라이드 레이아웃 같은 미적 요소에서 뛰어났고 GPT-5는 정확성에서 우수하는 등 모델마다 특기 분야가 달랐다고 한다.

성능 면에서는 2024년 봄 출시된 GPT-4o와 2025년 여름 출시된 GPT-5를 비교해 2배 이상 차이가 나는 것으로 봐서 불과 몇 년 만에 기록이 갱신될 가능성도 기대할 수 있다고 평가됐다.

오픈AI는 최첨단 모델은 전문가와 비교해 100배 빠르고 100배 저렴한 비용으로 완료할 수 있다는 점을 강조했다. 다만 실제 환경에서 성과물을 활용할 때 필요한 인간 감시, 재현 등 처리는 AI의 속도 및 가격에 포함되지 않았다고도 덧붙였다. 오픈AI는 그럼에도 각 모델이 특기로 하는 과제에서는 인간이 시도하기 전에 AI에게 맡겨 시간과 비용을 절약할 수 있을 것으로 예상된다고 밝혔다.

GDPval은 초기 단계 시도로 직종이나 과제의 확대와 결과의 의의 향상을 위해 개선을 진행해 나갈 예정이라고 한다. 관련 내용은 이곳에서 확인할 수 있다.