알리바바, 11개 언어 지원하는 자동 음성 인식 AI 모델 발표

알리바바 대규모 언어 모델인 Qwen을 개발한 팀이 새로운 음성 인식 AI인 Qwen3-ASR-Flash를 공개했다. Qwen-ASR-Flash는 11개 언어를 지원하며, 음악이 섞인 노래나 배경 소음이 포함된 음성도 높은 정밀도로 받아 적을 수 있는 게 특징이다.

Qwen3-ASR-Flash는 Qwen3-Omni를 기반으로 수천만 시간에 달하는 자동 음성 인식 데이터와 대규모 멀티모달 데이터를 활용해 구축된 고성능 음성 인식 서비스다. 복잡한 배경 소음이 포함된 음성이나 음악과 함께 울려 퍼지는 노랫소리 등에서도 우수한 성능을 발휘한다는 설명이다. 또 11개 언어와 다양한 억양을 지원하며 사용자가 입력한 프롬프트에 맞춰 맞춤형 인식 결과를 제공할 수 있다.

지원 언어는 중국어·영어·프랑스어·독일어·러시아어·이탈리아어·스페인어·포르투갈어·일본어·한국어·아랍어 등 11개다. 중국어의 경우 표준어인 북경어뿐 아니라 사천어, 민난어, 광둥어 같은 방언도 인식하며 영어 역시 영국식, 미국식 등 다양한 지역 억양을 지원한다.

공개된 비교 그래프에 따르면 Qwen-ASR-Flash는 Gemini 2.5 Pro, GPT-4 Transcribe, Paraformer-v2, Doubao-ASR 등과의 성능 평가에서 중국어, 중국어 방언, 영어, 다국어, 엔터티(중국어·영어 벤치마크), 가사(중국어 노래), 풀송(중국어·영어 전체 곡), AccentHard(강한 억양·노이즈 포함 음성), 다국어 혼합 음성 등 다양한 조건에서 낮은 오류율을 기록했다.

허깅페이스에는 Qwen-ASR-Flash의 데모 버전도 공개되어 있다. Qwen-ASR-Flash API는 알리바바 클라우드 모델 스튜디오(Model Studio)를 통해 제공된다. 관련 내용은 이곳에서 확인할 수 있다.