음성 인식 AI 발표한 미스트랄AI

프랑스를 거점으로 하는 AI 기업인 미스트랄AI(Mistral AI)가 음성 인식 AI Voxtral Mini Transcribe V2와 Voxtral Realtime를 발표했다. 두 모델 모두 고속·고정도의 음성 인식이 가능하다.

Voxtral Mini Transcribe V2는 화자를 식별하면서 음성을 문자로 변환할 수 있는 AI다. Voxtral Mini Transcribe V2는 Gemini 2.5 Flash와 GPT-4o mini transcribe보다 높은 정확도로 음성 인식이 가능하며 Scribe v2에 비해 압도적으로 저비용이다.

Voxtral Realtime는 실시간 음성 인식을 염두에 두고 설계된 AI로 지연 시간을 200밀리초 미만으로 억제할 수 있다. 지원 언어는 한국어를 비롯해 일본어, 영어, 중국어, 힌디어, 스페인어, 아랍어, 프랑스어, 포르투갈어, 러시아어, 독일어, 이탈리아어, 네덜란드어 등 13개 언어. 지연 시간 크기에 따라 성능이 변화하며 지연을 2400밀리초로 설정하면 Voxtral Mini Transcribe V2에 가까운 정확도로 음성 인식이 가능하다.

Introducing Voxtral Transcribe 2, next-gen speech-to-text models by @MistralAI.
State-of-the-art transcription, speaker diarization, sub-200ms real-time latency.
Details in 🧵 pic.twitter.com/0IeiJOpiAZ

— Mistral AI (@MistralAI) February 4, 2026