
서로 다른 대규모 언어모델(LLM) 성능을 게임을 통해 측정하기 위한 플랫폼인 게임 아레나(Game Arena)가 공개됐다. 게임 해법을 추론하게 해 AI 사고 프로세스 일단을 엿볼 수 있을 것으로 기대된다고 밝혔다.
AI 성능은 매일 지속적으로 향상되고 있기 때문에 성능을 정량적으로 측정하기 위한 벤치마크 테스트도 항상 진화가 요구되고 있다. 진화한 AI가 만점을 받는 벤치마크 테스트는 테스트로서의 의미를 잃게 되기 때문.
이에 구글은 새롭게 게임 아레나라는 벤치마크 플랫폼을 개발했다. 다양한 게임을 벤치마크 테스트로 활용하기 위한 플랫폼으로 각종 LLM이 이 플랫폼을 통해 게임을 플레이해 능력을 측정할 수 있다고 전해진다.
초기 시연으로 8월 6일 오전 2시 30분부터 체스 전시 경기가 유튜브에서 라이브 스트리밍될 예정이다. 이는 게임 아레나를 통해 LLM끼리 체스 대전을 시키는 것으로 DeepSeek-R1, o4-mini, Gemini 2.5 Pro, Claude Opus 4 등 여러 추론 모델이 참가할 예정이다.
게임을 플레이하게 해 전략과 해법 등을 정량적으로 측정해 성능을 가시화하고 나아가 추론 내용을 출력하게 해 AI가 어떤 프로세스로 처리하고 있는지를 엿볼 수 있지 않을까 기대되고 있다.
게임 아레나는 투명성을 확보하기 위해 게임 허브라고 불리는 프레임워크 및 게임 환경이 모두 오픈소스화됐다.
구글은 모델을 경쟁적 환경에서 테스트해 추론에 대한 명확한 기준을 확립하고 추적할 수 있다며 모델이 치열한 경쟁에 직면할수록 난이도도 상승하는 확장 가능한 벤치마크를 구축하는 것이 목표라고 밝혔다. 또 시간이 지나면서 이는 알파고 Move 37처럼 인간을 당황시키는 새로운 전략을 만들어낼 가능성이 있다며 게임 중에서 계획하고 적응하며 압박 상황에서 추론하는 능력은 과학과 비즈니스에서의 복잡한 과제 해결에 필요한 사고 프로세스와 유사하며 앞으로 정기적으로 추가 토너먼트를 개최할 계획이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 서울AI허브, 시민 AI 교육 강화‧카자, 美 뷰티 양대 채널 동시 입점](https://startuprecipe.co.kr/wp-content/uploads/2025/08/250807_Seoul-AI-Hub_003064-75x75.jpg)

