
구글이 AI 성능 비교 서비스인 안드로이드 벤치(Android Bench)를 공개하고 AI의 안드로이드 개발 기여도를 순위로 매겼다. 첫 번째 순위에서는 제미나이 3.1 프로 프리뷰가 1위를 차지했다.
안드로이드 벤치는 각종 AI의 안드로이드 개발에서 실제 문제를 해결하는 능력을 측정해 순위를 매기는 서비스다. 벤치마크 테스트에는 오픈소스 안드로이드 앱에서 실제로 보고된 이슈와 해당 이슈를 해결하기 위해 제출된 풀 리퀘스트가 활용되며 AI에게 실제 이슈를 제시해 문제 해결에 성공하는지 여부를 확인한다. 테스트에 사용하는 풀 리퀘스트는 깃허브에서 500개 이상 스타를 획득한 프로젝트에서 선정되며 2023년 이후 머지(merge)된 풀 리퀘스트를 사람이 직접 선별하고 있다.
지금은 지난 3월 4일 실시된 테스트 결과가 등록되어 있다. 1위는 제미나이 3.1 프로 프리뷰다. 2위는 클로드 오퍼스 4.6, 3위는 GPT-5.2-코덱스다. 제미나이 3.1 프로 프리뷰는 72.4% 이슈를 정확히 해결하는 데 성공했다.
안드로이드 벤치 리더보드는 수시로 업데이트될 예정이다. 또 테스트 툴은 깃허브 리포지터리에 공개되어 있다. 관련 내용은 이곳에서 확인할 수 있다.

