
구글 딥마인드는 2024년 3월 인간 지시를 이해하고 게임을 플레이하는 확장 가능하고 지시 가능한 멀티월드 에이전트(SIMA)를 발표했다. 이어 지난 11월 13일 구글 딥마인드는 SIMA 발전 버전으로서 제미나이와 결합해 3D게임에서의 복잡한 지시 이해도를 대폭 높인 SIMA 2를 공개했다.
SIMA는 인간에게는 불가능한 하이스코어를 달성하거나 인간과 대결해서 이기는 게 아니라 인간 지시에 따라 플레이하는 걸 목표로 만들어진 AI다. 구글 엔지니어인 팀 할리(Tim Harley)는 SIMA는 게임에서 이기기 위해 훈련된 게 아니라 지시받은 걸 실행하도록 훈련됐다며 게임 하나를 플레이하는 걸 학습하는 것만으로도 AI 시스템에게는 기술적인 위업이지만 다양한 게임에서 지시를 따르는 걸 학습하면 모든 환경에서 더 유용한 AI 에이전트의 잠재력을 해제할 수 있을 것”라고 말했다. 구글 딥마인드는 2024년 3월 발표된 SIMA에서는 9개 게임 플레이 방법을 학습시켜 단순한 태스크 600종류를 수행할 수 있게 됐다고 보고했다.
SIMA가 갖춘 큰 특징으로 특정 게임만을 전문적으로 트레이닝한 에이전트보다 트레이닝 데이터에 다른 게임이 포함되어 있는 경우 성능이 67%나 태스크 성공률이 높았다. 이를 바탕으로 더 광범위한 트레이닝을 거듭해 더 범용적이고 다용도인 AI를 목표로 하며 더 복잡한 태스크를 수행할 수 있도록 진화한 것이 SIMA 2다.
SIMA 2는 제미나이 모델 기능을 통합해 단순한 명령을 실행하는 AI 에이전트에서 사용자의 고수준 목표를 이해하고 환경을 고찰해 움직인다는 능력을 갖춘 게임 파트너로 진화했다. 트레이닝하지 않은 게임 환경에서도 태스크를 수행할 수 있으며 초대 SIMA와 비교해 격단으로 미지에 대한 대응력이 개선됐다.
태스크 성공률을 보면 SIMA는 31%였던 것에 비해 SIMA 2는 65%로 2배 이상 개선됐다. 인간 성공률이 75% 정도이므로 인간이 게임할 때의 판단력에 상당히 근접했다고 할 수 있다.
처음 보는 환경에서 어느 정도 태스크를 성공시켰는지를 보면 서바이벌 게임인 ASKA에서는 SIMA가 3%였던 것이 SIMA 2에서는 15%까지 향상됐고 마인크래프트 인공지능 프레임워크인 마인도조(MineDojo)에서는 1% 정도였던 것이 13%까지 향상되는 등 대폭으로 태스크 성공률이 올랐다.
SIMA 2는 언어 라벨이 붙은 인간 시연 영상과 제미나이가 생성한 라벨을 조합해 학습했다. 그 결과 SIMA 2는 사용자에게 자신이 무엇을 하려고 하는지, 그리고 목표를 달성하기 위해 어떤 절차를 밟고 있는지를 상세히 설명할 수 있게 됐다. 테스트 결과 SIMA는 지시를 그대로 따르는 것만 가능했지만 SIMA 2는 단순히 명령을 내리는 것이라기보다는 눈앞의 태스크에 대해 추론할 수 있는 동료와 협력한다는 느낌이라는 게 판명됐다.
https://platform.twitter.com/widgets.jsSIMA 2 is our most capable AI agent for virtual 3D worlds. 👾🌐
— Google DeepMind (@GoogleDeepMind) November 13, 2025
Powered by Gemini, it goes beyond following basic instructions to think, understand, and take actions in interactive environments – meaning you can talk to it through text, voice, or even images. Here’s how 🧵 pic.twitter.com/DuVWGJXW7W
또 SIMA 2는 다양한 언어의 지시를 이해할 수 있는 것에 더해 이모지만으로 된 지시도 올바르게 해석해 태스크를 실행할 수 있었다고 한다.
더 나아가 구글 딥마인드는 SIMA 2의 범용적 능력의 한계를 테스트하기 위해 인터랙티브한 가상 세계를 생성할 수 있는 세계 모델(Genie 3)과 결합해 새로 생성된 지 얼마 안 된 세계를 SIMA 2에게 플레이시켰다.
결과적으로 SIMA 2는 그때까지 전혀 경험한 적이 없는 3D 세계에서도 사용자 지시를 이해하고 목표를 향해 의미 있는 행동을 취할 수 있었다고 한다.
SIMA 2가 갖춘 뛰어난 기능 중 하나로 자기 개선 능력이 있다. 예를 들어 처음에는 인간 시연으로부터 학습한 뒤 새로운 게임에서는 자기 주도적인 플레이만으로 학습하며 인간이 생성한 추가 데이터 없이 지금까지 본 적 없는 세계에서 스킬을 습득해 나간다. 그 후 트레이닝에서는 SIMA 2 자신의 경험 데이터를 사용해 더 능력이 높은 에이전트의 다음 버전을 트레이닝할 수 있다.
구글 딥마인드는 다양한 생성 세계에서 범용 에이전트를 트레이닝하기 위한 큰 이정표이며 AI 에이전트가 최소한의 인간 개입으로 학습하고 성장해 나가는 미래로의 길이 열린다며 이는 범용 인공지능(AGI)을 향한 중요한 한 걸음이며 로봇공학이나 AI의 구현화 전반의 미래에 중요한 의미를 갖는다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 스타트업 트렌드리포트 2025 발표‧더핑크퐁컴퍼니, 코스닥 상장](https://startuprecipe.co.kr/wp-content/uploads/2025/11/251118_kised.or_.kr_05032052352523-75x75.jpg)

