뉴스레터로 만나는 스타트업 투자 리포트 ‘스타트업레시피’

No Result

View All Result

뉴스레터로 만나는 스타트업 투자 리포트 ‘스타트업레시피’

No Result

View All Result

뉴스레터로 만나는 스타트업 투자 리포트 ‘스타트업레시피’

No Result

View All Result

AI 게임 성능 측정 벤치마크 플랫폼 공개한 구글

by 이석원 기자

2025년 8월 7일

in 뉴스

Reading Time: 1 mins read

서로 다른 대규모 언어모델(LLM) 성능을 게임을 통해 측정하기 위한 플랫폼인 게임 아레나(Game Arena)가 공개됐다. 게임 해법을 추론하게 해 AI 사고 프로세스 일단을 엿볼 수 있을 것으로 기대된다고 밝혔다.

AI 성능은 매일 지속적으로 향상되고 있기 때문에 성능을 정량적으로 측정하기 위한 벤치마크 테스트도 항상 진화가 요구되고 있다. 진화한 AI가 만점을 받는 벤치마크 테스트는 테스트로서의 의미를 잃게 되기 때문.

이에 구글은 새롭게 게임 아레나라는 벤치마크 플랫폼을 개발했다. 다양한 게임을 벤치마크 테스트로 활용하기 위한 플랫폼으로 각종 LLM이 이 플랫폼을 통해 게임을 플레이해 능력을 측정할 수 있다고 전해진다.

초기 시연으로 8월 6일 오전 2시 30분부터 체스 전시 경기가 유튜브에서 라이브 스트리밍될 예정이다. 이는 게임 아레나를 통해 LLM끼리 체스 대전을 시키는 것으로 DeepSeek-R1, o4-mini, Gemini 2.5 Pro, Claude Opus 4 등 여러 추론 모델이 참가할 예정이다.

게임을 플레이하게 해 전략과 해법 등을 정량적으로 측정해 성능을 가시화하고 나아가 추론 내용을 출력하게 해 AI가 어떤 프로세스로 처리하고 있는지를 엿볼 수 있지 않을까 기대되고 있다.

게임 아레나는 투명성을 확보하기 위해 게임 허브라고 불리는 프레임워크 및 게임 환경이 모두 오픈소스화됐다.

구글은 모델을 경쟁적 환경에서 테스트해 추론에 대한 명확한 기준을 확립하고 추적할 수 있다며 모델이 치열한 경쟁에 직면할수록 난이도도 상승하는 확장 가능한 벤치마크를 구축하는 것이 목표라고 밝혔다. 또 시간이 지나면서 이는 알파고 Move 37처럼 인간을 당황시키는 새로운 전략을 만들어낼 가능성이 있다며 게임 중에서 계획하고 적응하며 압박 상황에서 추론하는 능력은 과학과 비즈니스에서의 복잡한 과제 해결에 필요한 사고 프로세스와 유사하며 앞으로 정기적으로 추가 토너먼트를 개최할 계획이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available

Next Post

[AI서머리] 서울AI허브, 시민 AI 교육 강화‧카자, 美 뷰티 양대 채널 동시 입점

[AI서머리] 서울AI허브, 시민 AI 교육 강화‧카자, 美 뷰티 양대 채널 동시 입점

회사소개 | 개인정보 처리방침 | 서비스 이용약관 | 청소년 보호 정책 | 윤리강령

법인명 : 주식회사 미디어레시피 | 제호 : 스타트업레시피 | 등록번호 : 서울, 아55704 | 등록일자 : 2024년 11월 14일
발행인 : 이석원 | 편집인 : 이석원

주소 : 서울시 강서구 마곡동 757-5 마곡나루역 프라이빗타워1 6층 604호 | 전화 : 070-4048-4013 | 청소년보호책임자 : 정용환

보도자료 및 제휴 문의 : news@startuprecipe.co.kr
Copyright 2020 © Media Recipe. All Rights Reserved.

No Result

View All Result

© 2025 JNews - Premium WordPress news & magazine theme by Jegtheme.