
메타가 음성 인식 AI인 옴니링궐 ASR(Omnilingual ASR)을 출시했다. 옴니링궐 ASR은 1,600개 이상 언어 음성 인식을 지원하며 지원 언어를 쉽게 추가할 수 있다는 점도 특징이다.
음성 인식 AI를 개발하려면 방대한 학습 데이터를 준비하는 게 일반적이다. 옴니링궐 ASR은 70억 파라미터 음성 인코더인 wav2vec 2.0을 채택해 필요한 학습 데이터 절감에 성공했다.
지원하는 1,600개 이상 언어 중 78%에서 문자 오류율(CER)이 10% 미만을 기록했다. CER이 10% 미만인 언어 중 50시간 이상 학습 데이터가 필요했던 언어는 236개이며 195개 언어는 10시간 미만 학습 데이터로 훈련됐다. 또 옴니링궐 ASR은 대규모 언어 모델 등에서 채택되고 있는 컨텍스트 내 학습(In-Context Learning)을 지원해 적은 조작으로 지원 언어를 늘릴 수 있다. 이를 통해 위스퍼(Whisper) 등 기존 모델과 비교해 압도적으로 많은 언어를 지원할 수 있다.
옴니링궐 ASR을 실행할 수 있는 데모 페이지가 여기, 소스 코드와 문서는 이곳에 공개되어 있다. 또 옴니링궐 ASR 개발을 할 때 수집된 음성 데이터셋(Omnilingual ASR Corpus)도 공개됐다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 벤처투자·펀드결성 반등세‧2025 충남벤처투자 컨퍼런스 개최](https://startuprecipe.co.kr/wp-content/uploads/2025/11/251113_goability.co_.kr_0000063464-75x75.jpg)

