오픈AI, AI 과학 능력 측정 벤치마크 테스트 발표했다

오픈AI가 데이터를 확인한 AI가 해당 데이터가 노이즈인지 유의미한 것인지를 판단한 뒤 분석을 수행할 수 있는지를 측정하는 계산생물학 벤치마크 진벤치-프로(GeneBench-Pro)가 발표했다. 이 벤치마크로 측정한 뒤 AI를 개선해 나가면, 과학적 발견을 대폭 가속할 수 있을 가능성이 있다고 기대되고 있다.

오픈AI는 과학 데이터에는 절차서가 부속되어 있는 경우가 거의 없다며 연구자는 어떤 패턴이 생물학적 현상을 반영하고 있는 것인지 아니면 노이즈인지, 데이터가 물음을 뒷받침하는 것인지, 각각의 결과에 기반해 다음에 무엇을 해야 하는지를 판단해야 한다고 밝혔다. 이어 AI 에이전트는 복잡한 분석을 실행하는 능력을 점점 높이고 있지만 실제 과학 연구에서는 사실을 상기하거나 사전에 정의된 워크플로를 따르는 것만이 아니라 이런 고도한 판단을 내리는 것도 불가결하다고 지적했다. 이런 고도한 판단을 내리는 능력이 AI에 있는지를 측정할 수 있는 벤치마크 테스트가 진벤치-프로다.

진벤치-프로는 실제 과학 연구에서 이뤄지는 것과 같은 전제 조건 수정, 모호함 처리, 적절한 분석 경로 선택 등 고차원적 능력을 정확히 측정하기 위해 설계됐다. 진벤치-프로의 각 문제에는 현실적이지만 정리되지 않은 데이터셋이나 실험 배경 등이 포함되어 있으며 AI가 올바른 답을 도출하려면 데이터를 탐색하여 적절한 분석 수법을 선택하고 반복적인 실험 프로세스를 실시하여 최종적인 답을 제시해야 한다.

진벤치-프로를 실제 모델로 테스트한 결과 오픈AI 고성능인 모델 GPT-5.6 솔(GPT-5.6 Sol)은 최고 레벨 추론 설정에서 28.7%, 최상위 프로(Pro)에서 31.5% 합격률을 달성한 것으로 전해졌다. 진벤치 개발이 시작됐을 무렵 당시 최신 모델이었던 GPT-5 점수는 5% 미만이었다고 하며 오픈AI는 현재의 진보 속도가 계속된다면 이 벤치마크는 연말까지 포화될 가능성이 있다고 밝혔다.

We’re introducing GeneBench-Pro, a research-level benchmark for a harder kind of AI progress: how well agents can navigate messy biological data, choose the right analysis path, and make judgment calls that real computational research depends on.https://t.co/AsilnnSxnE

— OpenAI (@OpenAI) June 30, 2026

결과는 테스트 시 계산량을 늘리는 것에 대한 효과도 보여주고 있다. 가장 낮은 추론 레벨에서는 GPT-5.6 솔 합격률이 한 자릿수에 그치지만 최고 추론 레벨에서는 6배로 늘어났다고 한다.

오픈AI는 진벤치-프로 문제 난이도를 고려하면 GPT-5.6 솔(프로)이 31.5%라는 결과를 달성한 건 주목할 만한 것이라며 인간 리뷰어는 진벤치-프로 한 문제를 인간 전문가가 풀려면 20~40시간이 걸릴 것으로 추산했다. 현재의 AI 에이전트는 아직 인간 전문가를 대체할 만큼 신뢰성이 높지는 않지만 추론 비용은 인건비를 크게 밑돈다며 현 시점 능력만으로도 부분적인 자동화를 통해 경제적·과학적으로 큰 가치를 창출할 수 있는 가능성이 있다는 설명이다.

오픈AI는 그럼에도 최첨단 모델이 여전히 3분의 1 미만 문제밖에 풀지 못하고 있다는 사실에서 개선의 여지가 크다고 지적했다. 어려운 문제에 대해 부분적인 진전은 보일 수 있지만 추론을 끝까지 완결시키지 못한다는 과제가 있다고 한다.

모델이 어디서 실패하고 있는지를 밝혀 추가적인 개선이 기대되기 때문에 오픈AI는 만일 에이전트가 이런 종류 분석을 확실히 자동화할 수 있게 된다면 과학적 발견을 대폭 가속할 수 있는 가능성이 있다고 기대를 보였다. 관련 내용은 이곳에서 확인할 수 있다.