Ai2, 비주얼 웹 AI 에이전트 내놨다

미국 AI 기업 Ai2(Allen Institute for AI)가 브라우저를 조작·제어하도록 설계된 AI 에이전트인 몰모웹(MolmoWeb)을 발표했다.

몰모웹은 대규모 언어 모델의 멀티모달 능력을 응용한 툴로 이미지를 읽고 추론하며 태스크를 실행할 수 있다. Ai2는 인간이 보는 것과 동일한 인터페이스를 해석해 다음 단계를 예측하고 클릭·입력·스크롤 등 브라우저 조작을 실행한다고 소개했다.

처음 주어진 태스크는 위키피디아에서 Ai2를 검색하고 PRIOR 팀 경력을 정리해 달라는 것. 몰모웹은 실제로 위키피디아에 접속해 검색창에 단어를 입력하고 검색을 실행한다. PRIOR라고 표시된 섹션을 찾아 정보를 정리한다.

눈에 띄는 특징은 AI가 실행한 처리 과정이 하나하나 명확하게 기록된다는 것. 이번 태스크에서는 목표는 Ai2를 검색해 PRIOR 팀 정보를 얻는 것. 위키피디아에 접속해 x=564.5, y=596.2를 좌클릭했다는 내용이 기재된다.

몰모웹이 지원하는 조작은 URL 이동, 화면 좌표 클릭, 입력란 텍스트 입력, 페이지 스크롤, 브라우저 탭 전환, 사용자에게 메시지 전송 등이다. 다만 데모 버전에서는 화이트리스트에 등록된 웹사이트에만 접속할 수 있다.

몰모웹은 몰모 2(Molmo 2) 멀티모달 모델 패밀리(4B 및 8B 파라미터)를 기반으로 한 툴로 가중치·학습 데이터·코드가 오픈 형태로 제공되는 것이 특징이다. 모델과 함께 웹 에이전트 훈련용으로 활용 가능한 대규모 데이터셋인 몰모웹믹스(MolmoWebMix)도 공개됐다.

Ai2는 시각적 정보를 읽는 설계 덕분에 HTML이나 접근성 트리 등에 의존하지 않고 인간과 동일하게 웹사이트를 조작할 수 있다며 단일 스크린샷은 소스코드보다 훨씬 콤팩트하며 처리 시 토큰 소비량도 적을 가능성이 있다고 밝혔다. 또 기반이 되는 페이지 구조가 변화해도 시각 인터페이스는 안정적으로 유지되며 모델이 사용자와 동일한 인터페이스를 기반으로 추론하기 때문에 동작을 해석하기 쉽고 디버그도 용이하다는 설명이다.