x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

프랑스 AI 기업 미스트랄 AI(Mistral AI)가 자연스럽고 감정이 풍부한 음성을 생성할 수 있는 텍스트 음성 변환 모델인 복스트랄 TTS(Voxtral TTS)를 발표했다. 주요 9개 언어를 지원하는 건 물론 사전 학습이 필요 없는 제로샷 클론 보이스 재생이 가능하며 문맥을 이해해 정교한 감정 표현을 담은 음성을 초고속으로 생성할 수 있다.

복스트랄 TTS는 영어, 프랑스어, 독일어, 스페인어, 네덜란드어, 포르투갈어, 이탈리아어, 힌디어, 아랍어 등 9개 언어를 지원하며 세부 방언을 포함한 음성 에이전트 구축도 할 수 있다. 미스트랄 AI에 따르면 5초 미만 음성 샘플로부터 미묘한 억양, 강세, 인토네이션, 말하기 흐름 불규칙성 같은 특성을 포착한 커스텀 음성을 생성할 수 있다.

복스트랄 TTS는 실시간 성능을 중시해 설계됐으며 입력을 받은 후 모델이 음성을 재생하기 시작할 때까지의 시간을 나타내는 TTFA(Time-to-First Audio)는 500자 10초 샘플 음성 기준 90밀리초로 상당히 빠르다. 또 실시간 계수(RTF)는 6배로, 10초짜리 클립을 1.6초 만에 렌더링할 수 있다고 밝혔다.

복스트랄 TTS는 캐스케이드형 음성 간 번역 기능도 갖추고 있다. 예를 들어 프랑스어 음성으로 만든 보이스 샘플에 영어 텍스트를 입력해 영어 음성을 생성하는 게 가능하다. 공식 페이지에서는 미국 영어·프랑스어·영국 영어 화자를 선택하고, 영어·프랑스어·스페인어·독일어 프롬프트를 선택해 음성을 생성하는 데모를 직접 실행해볼 수 있다.

제로샷 커스텀 보이스 테스트에서 원어민 화자를 대상으로 자연스러움·억양 정확성·원본 음성과의 유사성을 평가한 지표를 기준으로 복스트랄 TTS는 일레븐랩스(ElevenLabs)의 고속 음성 읽기 모델인 일레븐랩스 v2.5 Flash를 상회하고 레이턴시가 높은 고급 모델인 일레븐랩스 v3와 동등한 성능을 발휘한 것으로 보고됐다.

미스트랄 AI 측은 사용자로부터 음성 모델에 대한 요청이 이어지고 있었다며 스마트워치, 스마트폰, 노트북, 기타 엣지 디바이스에 탑재할 수 있는 소형 음성 모델을 개발했으며 로봇 같은 목소리가 아닌 인간다운 목소리를 목표로 하고 있다고 밝혔다. 이어 가격은 시중에 나온 다른 제품에 비해 상당히 저렴하지만 최첨단 성능을 제공한다고 밝혔다.

이번에 공개된 모델은 오픈 웨이트(open weight) 형태로 제공된다는 점도 큰 특징이다. 이를 통해 개발자는 모델을 자유롭게 다운로드해 자신의 환경에서 실행·개선할 수 있으며 외부 서비스에 자신의 음성 샘플을 전송하는 프라이버시 우려도 불식된다. 복스트랄 TTS는 허깅 페이스에서 다운로드할 수 있다.

회사 측은 복스트랄 TTS의 향후 방향성으로 2가지를 제시했다. 첫째는 지원 언어와 방언을 확대하는 것으로 문화적 뉘앙스를 모두 고려해 기능하는 걸 목표로 한다. 둘째는 텍스트에서 음성을 생성하는 것에 그치지 않고 구어 인토네이션과 리듬, 말하기 방식을 이해해 의도와 뉘앙스를 읽어내고 응답하는 AI를 비전으로 제시했다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post