x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

지난 11월 출시된 제미나이 3 프로(Gemini 3 Pro)에 대해 구글 딥마인드가 문서·공간·화면·영상 이해에서 최첨단 성능을 구현한다는 자료를 공개했다.

구글 딥마인드 프로덕트 매니저를 맡고 있는 로한 도시(Rohan Doshi)는 제미나이 3 프로에 대해 자사 역사상 가장 고성능 멀티모달 모델로 문서 이해·공간 이해·화면 이해·동영상 이해 전 영역에서 최첨단 성능을 발휘한다고 표현했다.

먼저 문서 이해 분야에서는 제미나이 3 프로가 읽기 어려운 손글씨 문장이나 중첩된 테이블 구조, 복잡한 수학적 표기, 비선형 레이아웃을 HTML이나 LaTeX, 마크다운의 구조화된 코드로 재구축할 수 있다는 걸 보여주고 있다.

화면 이해 분야에 대해서는 데모 영상이 공개되어 있으며 제미나이 3 프로가 PC 화면상 UI를 이해하고 있다는 걸 알 수 있다.

동영상 이해에서는 제미나이 3 프로가 비약적 발전을 이뤘다는 설명이다. 10FPS로 동영상을 처리해 골프나 테니스 스윙 메커니즘 분석 등이 가능하다. 또 사고 모드 내 동영상 추론을 통해 일어나고 있는 일을 특정할 뿐 아니라 왜 일어나고 있는지를 이해할 수 있다.

 

한편 제미나이 3 프로는 AI 모델의 추상적 추론 능력을 측정하는 벤치마크 테스트인 ARC-AGI-2에서 54%라는 점수를 기록한 것으로 보고됐다. 태스크당 비용은 31달러로 다른 AI 모델보다 고비용이지만 압도적으로 높은 성능을 보여줄 수 있다. 참고로 AI로서 점유율이 큰 오픈AI GPT-5는 점수가 10%에 그친 반면 비용은 1달러 미만으로 저비용이다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post