실시간 음성 합성 가능한 오픈 AI 모델

AI 개발사 자이프라(Zyphra)가 6월 12일 음성 합성 AI인 조노스2(ZONOS2)를 발표했다. 조노스2는 특정 인물 목소리와 녹음 환경을 재현하면서 임의의 문장을 실시간으로 합성할 수 있는 모델로 다양한 언어를 지원하며 오픈 모델로 공개됐다.

조노스2는 음성을 복제해 원하는 텍스트를 읽게 만드는 보이스 클로닝이 가능한 모델. 전체 파라미터 80억 개, 활성 파라미터 9억 개 규모 MoE(Mixture of Experts) 구조로 설계됐으며 이전 모델인 조노스-v0.1(Zonos-v0.1)에 비해 모델 규모를 키우면서도 실시간 처리량은 4배 향상시켰다.

조노스-v0.1 베타는 60만 시간 분량 음성 데이터셋으로 학습됐지만 조노스2는 200만 시간 이상 데이터셋으로 학습돼 다양한 언어, 녹음 환경, 텍스트 영역에 대응할 수 있게 됐고 잡음이나 비정형적인 발화 패턴에 대한 내구성도 높아졌다. 또 텍스트 입력을 UTF-8 원시 데이터로 처리해 한국어, 일본어, 중국어 등 비유럽 언어에서의 성능이 크게 개선됐다.

조노스2가 지원하는 언어는 등급별로 구분된다. 1등급(티어1) 언어는 영어, 중국어, 일본어다. 2등급(티어2)에는 한국어, 러시아어, 이탈리아어, 포르투갈어, 프랑스어, 스페인어, 베트남어, 독일어, 히브리어, 네덜란드어가 포함되며 3등급(티어3)에는 스웨덴어, 힌디어, 타밀어, 텔루구어, 태국어, 노르웨이어, 벵골어, 타갈로그어, 아랍어, 덴마크어, 인도네시아어, 폴란드어, 우크라이나어, 루마니아어, 핀란드어, 헝가리어, 리투아니아어, 에스토니아어, 슬로바키아어, 크로아티아어, 라트비아어 등 21개 언어가 포함된다.

Today we’re releasing ZONOS2, our next-generation real-time TTS model with high-fidelity voice cloning.

ZONOS2 is the most expressive open-source TTS model, released under Apache 2.0 and available on Zyphra Cloud on @AMD. 🧵 pic.twitter.com/WvI7PXS80M

— Zyphra (@ZyphraAI) June 12, 2026

음성 합성 모델 성능 평가는 보통 음성 인식 모델이 인식하기 쉬운 깨끗한 음성에 높은 점수를 주는 경향이 있어 기계적 평가 점수와 사람이 듣기에 자연스러운 정도가 일치하지 않는 경우가 있다. 자이프라는 조노스2를 설계할 때 벤치마크 점수보다 사람이 듣기에 자연스러운 음성을 우선시했으며 참조 음성에 포함된 배경 잡음, 부자연스러운 음색, 기타 왜곡 요소까지 재현하는 데 중점을 뒀다고 밝혔다.

자이프라는 조노스2의 생성 예시로 도널드 트럼프(Donald Trump) 대통령 목소리로 에반게리온 캐릭터인 이카리 신지와 이카리 겐도에 대해 이야기하는 데모 음성을 공개했다. 또 버락 오바마(Barack Obama) 전 대통령 목소리로 미국판 건담 개발 계획에 대해 이야기하는 데모 음성도 함께 공개했다.

조노스2는 오픈 모델로 공개되며 라이선스는 아파치 라이선스 2.0이다. 또 AMD AI 칩을 활용한 클라우드 서비스인 자이프라 클라우드(Zyphra Cloud)에서도 이용할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.