AI 지능을 규칙 불면 게임으로 측정해준다?

ARC-AGI는 구글 전 연구원이자 AI 연구를 선도해온 프랑수아 숄레(François Chollet)가 개발한 AI 벤치마크로 범용인공지능(AGI) 실현에 필수적인 지능 수준을 측정할 수 있다고 알려져 있다. 기존 지식을 조합해 문제를 푸는 능력을 측정하는 ARC-AGI-1, 유동적 지능 수준을 측정하는 ARC-AGI-2에 이어 인간은 100% 스코어를 달성할 수 있지만 AI는 1% 미만밖에 달성하지 못한다는 ARC-AGI-3이 지난 3월 26일 발표됐다.

ARC-AGI-3은 AI 에이전트가 미지의 데이터에서 적절한 분류와 예측을 수행하는 일반화 능력을 측정하기 위해 설계된 대화형 추론 벤치마크다. 기존 AI 평가 지표에는 정적 벤치마크가 기준으로 사용되어 왔는데 정적 벤치마크는 LLM이나 AI 추론 시스템 평가에는 유효한 반면 최첨단 AI 에이전트 시스템을 평가하려면 탐색, 지각→계획→행동, 기억, 목표 달성, 얼라인먼트(Alignment)를 측정할 수 있는 새로운 도구가 필요하다.

ARC-AGI-3은 인간이 즉시 습득하기 쉽다, 사전 지식이나 숨겨진 프롬프트 없음, 명확한 목표 설정과 유의미한 피드백, 무작위 암기 방지라는 설계 철학을 바탕으로 구축됐다. 따라서 100% 스코어를 달성하려면 AI 에이전트가 환경 별로 경험을 통해 학습하고 무엇이 중요한지 인식하며 행동을 선택하고 자연어 지시에 의존하지 않고 전략을 적용해 인간과 동등한 효율로 모든 게임을 클리어할 수 있어야 한다.

Announcing ARC-AGI-3

The only unsaturated agentic intelligence benchmark in the world

Humans score 100%, AI <1%

This human-AI gap demonstrates we do not yet have AGI

Most benchmarks test what models already know, ARC-AGI-3 tests how they learn pic.twitter.com/BC2QaNZuvH

— ARC Prize (@arcprize) March 25, 2026

공식 페이지에서는 실제로 ARC-AGI-3에서 사용되는 게임을 플레이할 수 있다. ARC-AGI-3 데모로 플레이할 수 있는 게임은 여러 종류가 있으며 어느 것이든 즉시 게임 내용을 이해할 수 있는 수준이다. 하지만 AI 에이전트는 이처럼 지시 없이 규칙을 이해하고 태스크를 클리어하는 걸 어려워하며 모든 게임을 인간은 100% 클리어한 반면 AI는 대부분 0%, 많아도 2.78%라는 현저히 낮은 스코어를 기록하고 있다.

숄레가 공동 주최하는 AGI를 목표로 한 프로젝트인 ARC 프라이즈(ARC Prize)에 따르면 ARC-AGI-3에서의 인간과 AI 격차는 AI가 아직 AGI와는 거리가 멀다는 것을 보여준다고 한다. 숄레는 지성이란 지금까지 본 적 없는 새로운 사물이나 태스크를 얼마나 효율적으로 이해할 수 있는가 하는 것이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.