
프랑스를 거점으로 하는 AI 기업인 미스트랄AI(Mistral AI)가 음성 인식 AI Voxtral Mini Transcribe V2와 Voxtral Realtime를 발표했다. 두 모델 모두 고속·고정도의 음성 인식이 가능하다.
Voxtral Mini Transcribe V2는 화자를 식별하면서 음성을 문자로 변환할 수 있는 AI다. Voxtral Mini Transcribe V2는 Gemini 2.5 Flash와 GPT-4o mini transcribe보다 높은 정확도로 음성 인식이 가능하며 Scribe v2에 비해 압도적으로 저비용이다.
Voxtral Realtime는 실시간 음성 인식을 염두에 두고 설계된 AI로 지연 시간을 200밀리초 미만으로 억제할 수 있다. 지원 언어는 한국어를 비롯해 일본어, 영어, 중국어, 힌디어, 스페인어, 아랍어, 프랑스어, 포르투갈어, 러시아어, 독일어, 이탈리아어, 네덜란드어 등 13개 언어. 지연 시간 크기에 따라 성능이 변화하며 지연을 2400밀리초로 설정하면 Voxtral Mini Transcribe V2에 가까운 정확도로 음성 인식이 가능하다.
Introducing Voxtral Transcribe 2, next-gen speech-to-text models by @MistralAI.
State-of-the-art transcription, speaker diarization, sub-200ms real-time latency.
Details in 🧵 pic.twitter.com/0IeiJOpiAZ— Mistral AI (@MistralAI) February 4, 2026
Voxtral Mini Transcribe V2와 Voxtral Realtime는 API를 통해 이용할 수 있다. 또 Voxtral Realtime는 모델 데이터가 공개되어 있어 로컬 환경에서도 실행할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 부산창경, 예창패 연합 교류 행사 성료‧카카오맵, 농수산물시장 실내지도 확대](https://startuprecipe.co.kr/wp-content/uploads/2026/02/260209_Busan-Center-for-Creative-Economy-Innovation_0500235-75x75.jpg)

