구글, 브라우저 조작 특화 AI 모델 프리뷰‧바이브코딩 앱 확대

구글이 텍스트 프롬프트로 웹 앱을 제작할 수 있는 바이브코딩 앱인 Opal 제공 지역을 15개국으로 확대했다고 발표했다.

최근 생성형 AI를 활용한 프로그래밍인 바이브코딩이 주목받고 있으며 프로그래밍 지식이나 경험이 부족한 이들도 애플리케이션 개발이 가능해지고 있다. 구글은 이 바이브코딩을 가능하게 하는 앱인 Opal을 지난 7월 발표했지만, 당초에는 미국 한정으로 퍼블릭 베타 버전만 공개되어 있었다.

구글은 10월 6일자로 Opal이 미국 뿐 아니라 우리나라를 비롯해 일본, 캐나다, 인도, 베트남, 인도네시아, 브라질, 싱가포르, 콜롬비아, 엘살바도르, 코스타리카, 파나마, 온두라스, 아르헨티나, 파키스탄에서 전개를 시작한다고 발표했다.

구글랩스 시니어 프로덕트 매니저인 미건 리(Megan Lee)는 Opal을 미국 사용자에게 공개했을 때 심플하고 재미있는 툴이 개발될 것이라고 예상했지만 실제로는 세련되고 실용적이며 크리에이티브한 Opal 앱이 급증할 것이라고는 예상하지 못했다며 예상 외의 반향이 있었다는 걸 명확히 했다.

Opal은 구글 AI 툴을 체험할 수 있는 플랫폼인 구글랩스(Google Labs)에서 공개되어 있다. 현재 이용은 무료지만 구글 계정 등록이 필요하다.

Opal에서는 임의 스텝을 클릭해 프롬프트를 확인하거나 편집하고 툴바를 사용해 새로운 스텝을 수동으로 추가할 수 있다. 또 제작한 앱을 웹에 공개하고 링크를 공유해 다른 사용자가 자신의 구글 계정으로 테스트할 수 있도록 하는 것도 가능하다.

또 이번 제공국 확대에 맞춰 Opal 코어 퍼포먼스에도 대폭적인 개선이 더해졌다. 이전에는 새로운 Opal 제작에 최대 5초 이상 걸리는 경우가 있었다고 하는데 이를 극적으로 고속화해 더 빠르게 시작할 수 있도록 개량했다고 한다. 구글 측은 병렬 실행도 가능해져 여러 스텝을 포함하는 복잡한 워크플로를 동시에 실행할 수 있게 되어 전체적인 대기 시간을 단축할 수 있게 됐다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

한편 10월 7일 구글은 웹 브라우저 조작에 특화된 AI 에이전트인 제미나이 2.5 컴퓨터 유스(Gemini 2.5 Computer Use)를 발표했다. 제미나이 2.5 컴퓨터 유스는 폼 입력, 드롭다운 및 필터와 같은 인터랙티브 요소 조작, 로그인 이후 작업을 네이티브로 수행할 수 있다.

제미나이 2.5 컴퓨터 유스는 인간처럼 컴퓨터 화면을 조작하도록 특별히 설계된 AI 모델로 제미나이 2.5 프로가 보유한 고도의 시각 이해 능력과 논리적 사고력을 기반으로 하며 웹사이트 폼 입력이나 버튼 클릭 등 지금까지 API를 통해서는 어려웠던 작업을 자동화하는 에이전트를 구동할 수 있다.

실제로 제미나이 2.5 컴퓨터 유스에 작업을 지시한 사례가 공개됐다. 프롬프트는 지정한 URL에서 캘리포니아주 거주 반려동물에 관한 상세 정보를 모두 수집하고 당 스파 고객관리 시스템에 게스트로 등록하고 그런 다음 전문가 아니마 라바르의 후속 진찰을 10월 10일 오전 8시 이후 임의의 시간대에 설정하라. 진찰 이유는 요청된 치료 내용과 동일하다는 것이었다. 제미나이 2.5 컴퓨터 유스는 지시대로 추출한 정보를 호출한 폼에 자동으로 입력한다.

미술부에서 전시회를 위한 작업을 브레인스토밍했다. 보드가 어지러우니 자신이 만든 카테고리로 작업을 정리하는 걸 도와달라. 지정한 URL에 접속해 노트가 올바른 섹션에 명확히 분류되어 있는지 확인하라. 분류되지 않았다면 드래그해서 이동시키라는 프롬프트로 작업시킨 경우도 시연됐다.

보드에 있는 작업 카드는 마우스로 드래그해서 조작하지만 제미나이 2.5 컴퓨터 유스 에이전트는 문제없이 작업 카드를 움직여 정리한다.

제미나이 2.5 컴퓨터 유스 모델이 갖춘 가장 큰 특징은 루프라고 불리는 반복 구조 안에서 동작한다는 것. 이는 인간이 컴퓨터를 조작할 때의 화면을 본다→무엇을 해야 할지 생각한다→실제로 조작한다→결과를 확인한다는 일련의 흐름을 모방한 것이다. 구체적으로 다음 4가지 단계를 작업이 완료될 때까지 반복한다.

첫째 상황 전송. 먼저 사용자 지시와 스크린샷, 직전에 수행한 작업 이력을 모델에 전송한다. 이를 통해 모델은 인간이 화면을 보는 것과 마찬가지로 현재 상황을 정확히 파악한다.

둘째 모델 판단. 전송된 정보를 바탕으로 모델이 다음에 무엇을 해야 할지 판단하고 이 버튼을 클릭한다, 이 텍스트박스에 문자를 입력한다 같은 구체적인 조작을 결정한다. 다만 상품 구매 등 중요한 특정 액션에 대해서는 실행 전에 사용자에게 확인받는 게 필수로 되어 있다.

셋째 액션 실행. 모델이 결정한 조작을 클라이언트 측 프로그램이 컴퓨터상에서 실제로 실행한다.

넷째 결과 확인 및 반복. 조작이 실행된 후 새로운 화면의 스크린샷을 찍어 다시 모델에 전송해 루프가 재개된다. 이 사이클을 반복해 여러 단계에 걸친 복잡한 작업도 하나씩 착실히 처리해나갈 수 있다.

제미나이 2.5 컴퓨터 유스는 제미나이 2.5 프로를 기반으로 하며 여러 웹 및 모바일 제어 벤치마크에서 우수한 성능을 보이고 있다고 한다.

제미나이 2.5 컴퓨터 유스 모델은 퍼블릭 프리뷰로 공개되어 구글 AI 스튜디오와 버텍스 AI 내 제미나이 API를 통해 접근할 수 있다. 또 Browserbase가 제공하는 데모 환경에서 즉시 모델의 성능을 테스트해볼 수 있다. 관련 내용은 이곳에서 확인할 수 있다.