
구글이 제미나이 딥리서치(Gemini Deep Research) 웹 검색 능력을 대폭 강화한 제미나이 리서치 에이전트를 Interaction API를 통해 이용 가능하게 만든다고 발표했다. 또 딥서치 에이전트 평가용 벤치마크인 딥서치QA(DeepSearchQA) 오픈소스화도 진행됐다.
제미나이 딥리서치는 장기간에 걸친 맥락 수집·통합 작업에 최적화된 AI 검색 기능으로 2024년 12월 등장했다.
구글 딥마인드 프로덕트 매니저 루카스 하스에 따르면 완전히 새로운 제미나이 딥리서치 에이전트는 추론 코어로 구글 최고 수준 팩츄얼 모델 그러니까 사실에 기반한 정확한 정보를 제공하는 모델인 제미나이3 프로를 채택했으며 복잡한 작업에서의 환각’ 감소와 보고서 품질을 최대한 높이는 데 특화된 훈련을 받았다고 한다. 또 검색을 위한 다단계 강화학습을 확장해 복잡한 정보 환경에서도 높은 정확도로 자율적인 탐색을 수행한다.
제미나이 딥리서치 에이전트는 최고 난이도 AI 테스트인 HLE(Humanity’s Last Exam)와 웹 검색 작업 벤치마크인 딥리서치QA에서 최첨단 결과를 달성했으며 오픈AI 고난도 벤치마크인 브라우즈컴프(BrowseComp)에서도 구글 제품으론 최고 성능을 실현했다고 한다.
제미나이 딥리서치는 벤치마크에서 제미나이3 프로를 상회하며 GPT-5 프로와 대등하거나 그 이상 점수를 기록했다고 한다.
제미나이 딥리서치 에이전트는 Interactions API를 통해 출시되며 개발자는 자사 앱에 제미나이 딥리서치 에이전트를 직접 통합할 수 있게 됐다. 또 곧 구글 검색이나 노트북LM, 구글 파이낸스에서 이용 가능해지며 제미나이 앱에도 탑재된다고 한다.
그 밖에 벤치마크에 활용된 딥서치QA 오픈소스화도 결정됐다. 딥서치QA는 에이전트의 복잡한 다단계 정보 탐색 작업 능력을 평가하기 위한 벤치마크로 17개 분야에 걸친 900개 인과 연쇄(causal chain) 작업을 구현하고 있으며 각 단계는 선행 분석에 의존한다. 기존 벤치마크는 실증 기반이었지만 딥서치QA는 에이전트에게 망라적 답변 세트를 생성하게 해 포괄성을 측정하고 조사 정확도와 검색 재현성을 모두 평가한다. 또 사고 시간(thinking time) 효과 진단 기능도 수행한다.
구글 딥마인드는 더 뛰어난 에이전트 개발을 위한 연구 촉진을 목적으로 데이터셋, 리더보드, 기술 보고서 등 리소스를 공개하고 있다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 제주창경-앤틀러 아이벡스, 글로벌 스타트업 육성 맞손‧대구 AX 전략 컨퍼런스 개최](https://startuprecipe.co.kr/wp-content/uploads/2025/12/251215_gangwon_500230535235-75x75.jpg)

