메타, 1,600개 이상 언어 지원…음성 인식 AI 공개했다

메타가 음성 인식 AI인 옴니링궐 ASR(Omnilingual ASR)을 출시했다. 옴니링궐 ASR은 1,600개 이상 언어 음성 인식을 지원하며 지원 언어를 쉽게 추가할 수 있다는 점도 특징이다.

음성 인식 AI를 개발하려면 방대한 학습 데이터를 준비하는 게 일반적이다. 옴니링궐 ASR은 70억 파라미터 음성 인코더인 wav2vec 2.0을 채택해 필요한 학습 데이터 절감에 성공했다.

지원하는 1,600개 이상 언어 중 78%에서 문자 오류율(CER)이 10% 미만을 기록했다. CER이 10% 미만인 언어 중 50시간 이상 학습 데이터가 필요했던 언어는 236개이며 195개 언어는 10시간 미만 학습 데이터로 훈련됐다. 또 옴니링궐 ASR은 대규모 언어 모델 등에서 채택되고 있는 컨텍스트 내 학습(In-Context Learning)을 지원해 적은 조작으로 지원 언어를 늘릴 수 있다. 이를 통해 위스퍼(Whisper) 등 기존 모델과 비교해 압도적으로 많은 언어를 지원할 수 있다.

옴니링궐 ASR을 실행할 수 있는 데모 페이지가 여기, 소스 코드와 문서는 이곳에 공개되어 있다. 또 옴니링궐 ASR 개발을 할 때 수집된 음성 데이터셋(Omnilingual ASR Corpus)도 공개됐다. 관련 내용은 이곳에서 확인할 수 있다.