앤트로픽, 생명정보학 벤치마크 발표했다

앤트로픽(Anthropic)이 생명정보학(Bioinformatics) 분야에서 AI 능력을 측정하는 벤치마크인 바이오미스터리벤치(BioMysteryBench)를 발표했다. 과학 분야에서 AI 성능을 기존보다 효과적으로 측정할 수 있는 도구다.

앤트로픽은 의사나 변호사가 되려면 시험이 있지만 과학자가 되기 위한 시험은 존재하지 않는다며 같은 문제가 AI에도 적용되며 과학 분야 벤치마크에는 소프트웨어 분야의 SWE-bench처럼 표준화된 게 아직 존재하지 않는다면서 이는 과학 연구, 그 중에서도 생물학이 벤치마크 평가를 어렵게 만드는 몇 가지 특성을 지니고 있기 때문이라고 지적했다.

생물학은 수학 등과 달리 정해진 정답이 여러 개 존재하는 경우가 많고 개별 연구 판단이 주관적이며 노이즈가 많은 데이터셋에서는 전혀 다른 결론으로 이어질 수 있고 인간이 아직 답을 내지 못한 생물학적 질문도 다수 존재한다는 과제가 있어 AI 성능을 효과적으로 평가할 수 있는 벤치마크에 대한 필요성이 제기되어 왔다.

바이오미스터리벤치는 현실 세계에서의 복잡한 생명정보학 데이터를 활용하면서도 데이터에 내재된 복잡성과 과제가 평가 품질을 저해하지 않도록 설계된 벤치마크다. 연구 자유도와 창의성이 허용되어 AI는 다양한 전략을 선택해 문제를 풀 수 있다. 또 평가는 모델이 거친 경로가 아닌 최종 답변을 기준으로 이뤄지며 올바른 생물학적 결론에 도달하면 높은 평가를 받는다. 이에 따라 모델 결론이 과학자 결론과 일치하는지를 판단하면서도 모델이 창의적인 해결책을 고안할 수 있는지 등 여러 항목을 횡단 검증할 수 있다.

바이오미스터리벤치는 다양한 생명정보학 분야에서 출제된 99개 문제로 구성되며 그 중에는 객관적인 정답이 존재함에도 인간이 스스로 해결하기 어렵거나 불가능한 문제도 일부 포함되어 있다.

앤트로픽은 각 문제에 대해 전문가 최대 5명에게 답변을 요청했다. 적어도 인간 1명이 정답을 맞힌 경우 해당 문제는 인간이 풀 수 있는 문제로 분류했다. 99문항 중 인간이 풀 수 있었던 문제는 76문항이었다. 이 문제를 여러 AI 모델에 풀게 한 결과 클로드 미토스 프리뷰(Claude Mythos Preview)는 5회 시도에서 평균 82.6% 정답률을 기록했다. 클로드 소넷 4.6, 클로드 오퍼스 4.6, 클로드 오퍼스 4.7도 70%를 넘는 정답률을 기록했다.

클로드는 인간 전략을 모방하는 경우도 있었지만 전혀 다른 접근 방식을 취하는 경우도 있었다. 한 사례에서는 인간 전문가가 알고리즘과 데이터베이스를 활용해 데이터셋 특성을 식별·주석 처리한 반면 클로드는 특정 패턴이나 서열을 직관적으로 인식하는 방식을 취했다. 이런 추상화가 AI만의 고유한 특성은 아니며 인간이 이뤄낸 과거 발견에서도 유사한 사례가 존재한다. 앤트로픽은 직관은 기존 생물학 머신러닝 모델에서는 구축하기 어려웠지만 대규모 언어 모델은 이런 패턴을 전례 없는 규모로 발견할 가능성이 있다고 분석했다.

나머지 23문항은 인간이 풀지 못한 문제였다. 이는 문제 자체가 부적절하거나 손상된 경우, 문제가 본질적으로 해결 불가능한 경우, 이론적으로는 풀 수 있지만 인간이 필요한 지식을 갖추지 못한 경우 중 하나를 의미한다.

앤트로픽이 부적절하거나 손상된 문제를 제외한 19문항을 각 모델에 풀게 한 결과 평균 5회 시도에서 각 모델 정답률이 제시됐다. 가장 높은 정답률을 기록한 모델은 역시 미토스 프리뷰로 최대 30%에 달했다.

모델 중 클로드 오퍼스 4.6 전략을 분석한 결과 2가지 주요 방법을 사용하고 있었다는 게 밝혀졌다. 첫 번째는 AI 고유 방식으로 AI가 보유한 방대한 지식을 활용해 분석을 수행하는 것이었다. 인간이라면 메타분석을 실행하거나 여러 데이터베이스를 연결해야 하지만 오퍼스 4.6은 데이터 구조를 구사해 실시간으로 분석을 수행했다.

2번째는 여러 기법을 중첩하고 서로 다른 증거 계통을 결합해 결론에 도달하는 방식으로 인간 연구자가 종종 사용하는 방법이기도 하다.

사전 지식이 클로드에게 압도적으로 유리하게 작용하는 것처럼 보이는 한편 인간이 풀 수 있는 문제군에서는 오히려 약점으로 작용하는 경우도 관찰됐다. 오퍼스 4.6은 답에 확신이 없을 경우 쉬운 문제에서도 여러 가지 다른 방법으로 문제를 풀려는 경향을 보였으며 여러 접근법이 수렴하는 답을 선택했다가 오답을 내는 경우도 있었다.

또 바이오미스터리벤치에는 다른 많은 벤치마크와 마찬가지로 인간도 AI도 풀지 못한 문제에 대해 그게 불가능한 것인지 단순히 어려운 것인지 확신할 수 없다는 한계가 존재한다.

앤트로픽은 바이오미스터리벤치는 과학적 능력을 측정하는 유망한 벤치마크라며 최신 세대 클로드는 인간이 풀 수 있는 문제 대부분을 안정적으로 해결하고 인간에게 해결이 어려운 문제에서는 전문가를 능가하고 있다고 밝혔다. 이어 모델은 세대를 거듭할수록 개선되고 있으며 인간 과학자를 뒤쫓는 데 그치지 않고 일부 과제에서는 앞서 나가고 있다면서 모델 연구 역량을 더 확장할 수 있는 장기적이고 현실 세계에 밀착한 과제를 구축하려 한다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.