제미나이 3.5 플래시, 화면 인식‧클릭‧문자 입력 가능해졌다

구글이 AI 모델 제미나이 3.5 플래시(Gemini 3.5 Flash)에 화면을 보면서 클릭이나 문자 입력 등을 수행하는 기능인 컴퓨터 유즈(computer use)를 내장했다고 발표했다.

컴퓨터 유즈는 AI 에이전트가 스크린샷을 바탕으로 화면 상태를 파악하고 자율적으로 컴퓨터를 조작하는 기능. 컴퓨터 유즈는 이전에 제미나이 2.5 컴퓨터 유즈 모델(Gemini 2.5 computer use model)이라는 단독 모델로 제공됐지만 이번에는 제미나이 3.5 플래시에 내장된 형태다.

복수 절차를 수반하는 업무 자동화, 기업용 앱을 넘나드는 정보 수집, 웹 앱 동작 확인, 접근성 테스트 같은 용도가 상정되고 있다. 제미나이 3.5 플래시에서는 조작 의도도 출력되기 때문에 개발자는 AI가 왜 특정 버튼을 누르려 하는지 파악하기 쉬워진다.

OS상 조작을 AI가 얼마나 정확하게 수행할 수 있는지를 측정하는 벤치마크인 OS월드-베리파이드(OSWorld-Verified) 결과를 보면 제미나이 3.5 플래시는 78.4를 기록했다. 제미나이 3 플래시 65.1에서 크게 향상됐고 제미나이 3.1 프로 76.2도 넘어섰다. 그 밖에 소넷 4.6(Sonnet 4.6)이 78.4로 제미나이 3.5 플래시와 동점, 오퍼스 4.8(Opus 4.8)이 83.4로 가장 높은 점수를 차지했다. GPT-5.4 미니(GPT-5.4 mini)는 72.1, GPT-5.5는 78.7을 기록해 제미나이 3.5 플래시는 경량·고속 플래시 계열 모델이면서도 PC 조작을 수반하는 에이전트 용도에서 상위 모델이나 경쟁 모델에 버금가는 성능을 보여주고 있다.

한편 AI가 화면을 보고 조작하는 구조에서는 악의적인 페이지 위의 문장에 AI가 속을 위험이 있다. 구글은 기업용 선택적 보호 기능으로 취소하기 어려운 조작이나 기밀성이 높은 조작 시 사용자 확인을 요청하는 구조, 간접 프롬프트 인젝션(prompt injection)을 감지할 경우 작업을 중단하는 구조 등을 마련했다고 한다.

구글은 데모 환경과 참조 구현, 문서도 공개하고 있다. 제미나이 3.5 플래시에 컴퓨터 유즈가 추가되어 AI는 답변을 반환하는 데 그치지 않고 화면을 보고 조작하는 에이전트로 활용하기 쉬워진다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.