
구글 딥마인드가 제미나이의 고도 추론 기능인 딥씽크(Deep Think)를 활용한 수학 연구 에이전트 알레시아(Aletheia)를 개발해 전문적인 수학 연구에서 자율적인 성과를 거뒀다고 발표했다. 이 에이전트는 자연어를 사용해 해답 생성, 검증, 수정을 엔드투엔드로 반복하는 능력을 갖추고 있으며 국제수학올림피아드(IMO) 수준 난제부터 박사과정 수준 연습문제, 나아가 실제 학술 연구 미해결 문제 해결까지 다양한 이정표를 달성했다.
알레시아는 매우 어려운 추론 과제를 해결하기 위해 개발된 제미나이 3 딥씽크(Gemini 3 Deep Think)를 기반으로 한다. 이 시스템은 해답을 생성하는 Generator, 정오를 판정하는 Verifier, 그리고 미세 수정을 수행하는 Reviser라는 서브 에이전트 3개가 상호 작용하며 동작한다.
기존 대형 언어 모델은 전문적인 주제에서 환각을 일으키기 쉬워 부정확한 정보를 출력하는 과제가 있었지만 알레시아는 구글 검색 같은 도구를 활용해 문헌을 탐색해 근거 없는 인용이나 계산 오류를 크게 줄였다. 또 추론 시간에 할당하는 계산량을 늘려 정확도가 향상된다는 스케일링 법칙이 경시 수학뿐만 아니라 박사 수준 수학 연습에서도 유효하다는 게 입증됐다.
벤치마크 평가에서 알레시아는 IMO-Proof Bench Advanced에서 95.1%라는 최고 정확도를 기록했으며 박사 수준 연습문제를 모은 FutureMath Basic에서도 우수한 성능을 보였다고 한다.
알레시아는 인간 개입 없이 산술기하학 구조 상수인 eigenweights를 계산하고 그 결과를 바탕으로 한 연구 논문을 완전히 자율적으로 생성하는 획기적인 성과를 거뒀다. 구글 딥마인드 측은 이 과정에서 에이전트는 대수적 조합론 기법을 사용하는 등 독창적인 해결책을 제시했다고 보고했다.
또 독립집합 경계를 증명하는 연구에서는 알레시아가 큰 그림이 되는 전략을 제안하고 인간이 이를 상세히 기술하는 역전된 형식 공동 연구가 이뤄졌다. 더 나아가 에르되시 추측 데이터베이스에 있는 700개 미해결 문제에 대한 대규모 평가에서는 미해결 문제 4개를 자율적으로 해결했으며 그중 하나는 추가 일반화를 거쳐 독립된 논문으로 이어졌다.
구글 딥마인드는 AI가 생성한 수학적 성과를 적절히 평가하기 위해 자동차 자율주행 레벨에 빗댄 수학 연구 자율 레벨이라는 분류법을 제안했다. 이 틀에서는 AI 기여도를 주로 인간(Human with secondary AI input), 인간과 AI의 협업(Human-AI Collaboration), 본질적으로 자율(Essentially Autonomous) 3단계로 수학적 중요성을 레벨 0인 무시할 수 있는 신규성(Negligible Novelty)부터 레벨 4인 획기적인 돌파구(Landmark Breakthrough)까지 5단계로 구분하며 투명성 높은 정보 공유를 목표로 한다. 구글 딥마인드는 앞서 언급한 연구 성과를 최고 레벨 2 출판 가능한 연구(Publishable Research)로 분류했으며 이미 심사에 제출했다.
구글 딥마인드에 따르면 제미나이 딥씽크 응용 범위는 수학에 그치지 않고 물리학이나 컴퓨터과학 난제 해결에도 미친다. 이런 결과는 AI가 방대한 지식을 통합해 서로 다른 학문 분야 가교 역할을 해 인간 과학자에게 강력한 동반자가 될 수 있다는 걸 시사한다는 설명이다.
한편 알레시아로 각 논문을 생성하기 위해 입력된 프롬프트와 출력은 깃허브에 공개되어 있다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 2025년 벤처투자 두 번째 규모‧혜움, AI 컨설팅 부문 최우수상](https://startuprecipe.co.kr/wp-content/uploads/2026/02/260213_heum.ai_5002305-1-75x75.jpg)
![[AI서머리] 베이스벤처스, 2025년 31곳에 281억 투자‧위레이저, AI 회의록 서비스 출시](https://startuprecipe.co.kr/wp-content/uploads/2026/02/260213_IBM_502305-350x250.jpg)
