
프랑스 AI 기업 미스트랄AI(Mistral AI)가 음성 인식 오픈 모델 복스트랄(Voxtral)을 공개했다. 미스트랄AI는 이 모델을 현장에서 실제로 사용할 수 있는 음성 인텔리전스를 구현한 첫 오픈 모델이라고 강조했다.
미스트랄AI 측은 그동안 개발자눈 정확도가 낮고 문맥 이해도 부족한 값싼 오픈소스 시스템과 성능은 뛰어나지만 가격이 비싸고 확장성이 떨어지는 클로즈드 API 사이에서 어려운 선택을 강요받아왔다고 지적했다. 복스트랄은 이런 문제를 해결하기 위해 등장했으며 비슷한 수준 성능을 절반 이하 가격으로 제공해 실전 투입 가능한 음성 인텔리전스를 구현한다고 밝혔다.
복스트랄은 용도에 따라 2가지 모델로 제공된다. 하나는 240억 개 파라미터를 갖춘 복스트랄 스몰(Voxtral Small)로 대규모 본격 서비스 투입을 목표로 한 모델이다. 미스트랄AI에 따르면 이 모델은 일레븐랩스(ElevenLabs)의 스크라이브(Scribe), GPT-4o-mini, Gemini 2.5 Flash와 경쟁할 수 있는 성능을 지녔다.
다른 하나는 30억 개 파라미터를 지원하는 복스트랄 미니(Voxtral Mini)로 로컬 환경이나 엣지 디바이스에서의 활용에 적합하다. 이런 복스트랄 미니를 기반으로 문자 전사에 특화된 빠르고 저렴한 API(Voxtral Mini Transcribe)도 제공된다. 미스트랄AI 측은 복스트랄 미니는 오픈AI 위스퍼(Whisper)보다 가격이 절반 이하이면서도 성능은 더 뛰어나다고 강조했다.
영어 및 기타 언어를 대상으로 한 벤치마크 결과를 보면 복스트랄은 Whisper large-v3보다 전반적으로 오류율이 낮고 GPT-4o mini Transcribe나 Gemini 2.5 Flash보다 더 좋은 결과를 보였다.
복스트랄은 미스트랄AI LLM인 미슽랄 스몰 3.1(Mistral Small 3.1)을 기반으로 하며 최대 30분 길이 음성을 전사할 수 있고 최대 40분 분량 음성 내용을 인식할 수 있다. 이를 통해 사용자는 음성 콘텐츠에 대해 직접 질문하거나 요약을 생성하거나 음성 명령을 API 호출 등 실시간 행동으로 전환하는 것도 가능하다.
복스트랄이 지원하는 언어는 이탈리아어, 스페인어, 영어, 독일어, 포르투갈어, 프랑스어, 네덜란드어, 힌디어, 아랍어이다. 모델은 허깅페이스에 호스팅되어 있으며 아파치 2.0 라이선스 하에 공개되어 있다.
복스트랄 API는 허깅페이스에서 무료로 체험해볼 수 있으며 미스트랄 챗봇(Le Chat)에서도 테스트할 수 있다. 애플리케이션에 API를 통합하는 경우 1분당 0.001달러부터 시작하는 저렴한 가격으로 제공된다. 또 기업 고객을 위한 온프레미스 구축, 의료·법률 등 특정 도메인에 맞춘 파인튜닝, 화자 구분이나 감정 인식 등 고급 기능 지원, 기존 시스템 통합 지원 등도 제공된다고 한다.
미스트랄AI는 앞으로 화자 분리, 단어 단위 타임스탬프, 비음성 신호 인식 등의 기능도 추가할 예정이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 아이콘빌더, 지포인트 전략적 투자‧롯데벤처스-블루포인트파트너스, 부산 스타트업 투자 특강](https://startuprecipe.co.kr/wp-content/uploads/2025/07/250717_k-mga.or_.kr_07407-75x75.jpg)

