음성도 생성 가능…알리바바, Qwen3.5-Omni 발표

중국 기업인 알리바바(Alibaba) 산하 AI 연구팀 Qwen(Tongyi Lab)이 Qwen3.5-Omni를 3월 30일 발표했다. Qwen3.5-Omni는 텍스트·이미지·음성·동영상 이해가 가능한 옴니모달(Omnimodal) 모델로 텍스트 뿐 아니라 음성도 생성할 수 있다. 음성과 영상 이해 능력은 제미나이 3.1 프로를 능가한다고 강조되고 있다.

Qwen3.5-Omni는 1억 시간 이상 시각·음성 데이터를 활용해 학습된 AI 모델. 내부에는 하이브리드 MoE 토커(Hybrid MoE Talker)와 하이브리드 MoE 씽커(Hybrid MoE Thinker)가 탑재되어 있으며 씽커 텍스트 출력을 토커에 전달해 문맥에 맞는 음성을 출력할 수 있다. 또 모델 전체가 실시간 응답을 염두에 두고 설계된 것도 특징이다.

2/10 Script-Level Captioning pic.twitter.com/q4bKesjJVo

— Tongyi Lab (@Ali_TongyiLab) March 30, 2026

Qwen3.5-Omni 최대 시퀀스 길이는 25만 6,000으로 10시간 분량 음성이나 400초(1FPS) 분량 시청각 데이터를 입력할 수 있다. 음성 인식 기능은 중국어 39개 방언을 비롯해 영어를 포함한 74개 언어를 지원한다. 또 음성 합성은 중국어 7개 방언 외에 영어를 포함한 29개 언어를 지원한다.