x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

프랑스를 거점으로 하는 AI 기업인 미스트랄AI(Mistral AI)가 음성 인식 AI Voxtral Mini Transcribe V2와 Voxtral Realtime를 발표했다. 두 모델 모두 고속·고정도의 음성 인식이 가능하다.

Voxtral Mini Transcribe V2는 화자를 식별하면서 음성을 문자로 변환할 수 있는 AI다. Voxtral Mini Transcribe V2는 Gemini 2.5 Flash와 GPT-4o mini transcribe보다 높은 정확도로 음성 인식이 가능하며 Scribe v2에 비해 압도적으로 저비용이다.

Voxtral Realtime는 실시간 음성 인식을 염두에 두고 설계된 AI로 지연 시간을 200밀리초 미만으로 억제할 수 있다. 지원 언어는 한국어를 비롯해 일본어, 영어, 중국어, 힌디어, 스페인어, 아랍어, 프랑스어, 포르투갈어, 러시아어, 독일어, 이탈리아어, 네덜란드어 등 13개 언어. 지연 시간 크기에 따라 성능이 변화하며 지연을 2400밀리초로 설정하면 Voxtral Mini Transcribe V2에 가까운 정확도로 음성 인식이 가능하다.

 

Voxtral Mini Transcribe V2와 Voxtral Realtime는 API를 통해 이용할 수 있다. 또 Voxtral Realtime는 모델 데이터가 공개되어 있어 로컬 환경에서도 실행할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post