구글, 나노바나나2 라이트‧제미나이 옴니 플래시 발표

구글 AI 부문인 구글 딥마인드(Google DeepMind)가 이미지 생성 모델 나노 바나나 2 라이트(Nano Banana 2 Lite)와 동영상 생성 모델 제미나이 옴니 플래시(Gemini Omni Flash)를 공개했다. 고속 이미지 생성과 대화형 동영상 편집을 조합해 생성 미디어 시제작부터 제작까지를 일련의 흐름으로 지원하려는 목적이다.

나노 바나나 2 라이트는 정식 명칭이 제미나이 3.1 플래시-라이트 이미지(Gemini 3.1 Flash-Lite Image)로 제미나이 3.1 플래시-라이트를 기반으로 하는 이미지 모델. 최대 100만 토큰 컨텍스트를 다루며 응답에서는 이미지에 더해 텍스트도 출력할 수 있고 이미지 출력은 최대 4,000토큰, 텍스트 출력은 최대 6만 4,000토큰이다.

속도와 비용이 중요한 대량 처리용으로 설계된 나노 바나나 2 라이트는 텍스트로부터 4초 만에 이미지를 생성할 수 있으며 나노 바나나 2 20초, 초대 나노 바나나 7초보다 고속이다. 따라서 짧은 시간에 안을 만들고 수정을 반복하는 디자인 검토나 프로토타이핑에 적합하다.

이미지 생성과 이미지 편집 성능은 인간이 출력 결과를 비교 평가하는 아레나.ai(Arena.ai)에서의 엘로(Elo) 점수로 평가됐다. 이미지 생성 점수는 나노 바나나 2 라이트가 1251로 나노 바나나 2 1270에는 19포인트 미치지 못하는 한편 초대 나노 바나나 1151을 100포인트 상회했다.

이미지 편집 점수는 나노 바나나 2 라이트가 1308, 나노 바나나 2가 1387, 초대 모델이 1295로 나노 바나나 2 라이트는 초대보다 13포인트 높은 수준이다. 다시 말해 나노 바나나 2 라이트는 최고 품질을 추구하는 모델이 아니라 품질과 속도, 가격의 균형을 중시한 모델이라 할 수 있다.

1K 해상도 이미지 1장을 출력하는 비용은 나노 바나나 2가 3.9센트, 초대 나노 바나나가 6.7센트인 데 비해 나노 바나나 2 라이트는 3센트 남짓이다. 나노 바나나 2 라이트는 저지연과 저가격을 양립시키는 위치에 있다고 할 수 있다.

나노 바나나 2 라이트에 의해 생성된 이미지에는 AI 생성물임을 식별할 수 있는 비가시 디지털 워터마크 신스ID(SynthID)가 삽입된다. 구글은 유해한 출력을 억제하기 위해 학습 데이터의 필터링과 라벨링, 레드팀 평가를 실시하고 있다고 밝혔으며 고속화와 저가격화에 따라 생성량이 증가하는 가운데 식별성을 확보하는 자세를 보였다.

나노 바나나 2 라이트는 구글 AI 스튜디오, 제미나이 API, 제미나이 엔터프라이즈 에이전트 플랫폼에서 제공되며 서치 AI 모드, 제미나이 앱, 노트북LM, 구글 포토, 스티치, 구글 플로, 구글 애즈 같은 구글 제품에서도 순차적으로 전개된다. 구글은 개발자용 뿐 아니라 소비자용 서비스에도 편입하는 방침을 보이고 있다. 나노 바나나 2 라이트 API 요금은 입력 100만 토큰당 25센트, 출력 100만 토큰당 1달러 50센트다.

동시에 릴리스된 제미나이 옴니 플래시는 구글 I/O 26에서 예고됐던 모델로 제미나이 멀티모달 추론과 동영상 생성·편집을 조합한 모델이다. 구글 AI 스튜디오, 제미나이 API, 제미나이 엔터프라이즈 에이전트 플랫폼에서 개발자용으로 제공하며 제미나이 앱과 구글 플로에서도 이용할 수 있다. 모델명은 gemini-omni-flash-preview로 현재는 퍼블릭 프리뷰다.

제미나이 옴니 플래시에서는 텍스트, 이미지, 동영상을 조합해 영상을 생성할 수 있다. 자연어에 의한 대화형 편집에 대응하며 지시문으로 영상을 수정하거나 이미지나 텍스트를 참조해 장면 일관성을 유지하는 사용법을 상정하고 있다. 화면 내 문자나 그래픽을 동영상 내 인물이나 물체 움직임과 연동시키는 기능도 특징이다.

또 구글은 나노 바나나 2 라이트로 생성한 이미지를 제미나이 옴니 플래시에 전달해 동영상으로 변환한 사례를 소개하고 있다.

제미나이 옴니 플래시에 의한 동영상 출력 요금은 1초당 10센트로 구글 동영상 생성 모델 중 속도 중시형인 베오 3.1 패스트(Veo 3.1 Fast)와 동일 수준이다. 구글은 향후 보다 긴 동영상 출력에도 대응할 예정이라고 밝혔다.

한편 제미나이 옴니 플래시는 제약으로서 제미나이 API에서는 음성 참조의 업로드와 장면 연장을 아직 이용할 수 없다. 구글은 3초까지의 동영상 참조는 API상에서 접수하지만 모델이 올바르게 처리하지 못하는 경우가 있다고 밝혔다. 또 장면 전환이나 카메라 이동을 수반하는 영상에서는 캐릭터 일관성에도 개선의 여지가 있다고 한다. 관련 내용은 이곳에서 확인할 수 있다.