다른 사람 목소리로 노래도 가능한 AI 음성 툴

보이스모드(Voicemod)는 디지털 신호 처리(DSP) 및 인공 지능(AI) 기술을 사용해 오디오 효과를 만드는 스타트업이다. 회사는 거의 10년 전에 설립됐으며 게이머가 음성 채팅에 재미를 더할 수 있는 사운드 이모티콘 효과와 리액션을 만드는 데 중점을 두고 시작됐습니다. 하지만 AI 기술 등장으로 기능이 확장돼 현재는 완전히 합성된 음성을 만들 수 있는 도구를 제공하고 다른 사람의 목소리로 실시간 음성 전환도 할 수 있다.

이는 음성 복제를 통해 이루어지며 특정 음성의 대규모 녹음 데이터 세트에 대해 심층 신경망을 훈련시켜 해당 음성의 고유한 특성을 학습하는 과정이 포함된다. 네트워크가 학습되면 원래 화자가 해당 단어를 말한 적이 없더라도 원래의 목소리로 말한 것처럼 들리는 새로운 오디오를 생성할 수 있는 것이다. 싱투싱 음성 변환도 가능해 사용자가 다른 사람의 목소리로 노래를 부를 수 있습니다. 또 로봇 목소리, 동물 소리, 유명인 성대모사 등 다양한 음성 효과를 제공해 사용자는 음성 채팅, 라이브 스트리밍 또는 녹음 중에 실시간으로 자신의 목소리에 적용할 수 있다.

보이스모드는 작년에 또 다른 오디오 효과 스타트업인 보트로 랩스를 인수했으며 보트로 랩스 기술과 보이스모드 기술을 결합해 하이브리드 플랫폼을 만들고자 한다. 회사는 타사가 자체 제품에 통합할 수 있도록 소프트웨어 개발 키트(SDK)와 애플리케이션 프로그래밍 인터페이스(API)를 통해 기술을 제공하며 데스크톱 앱과 iOS 및 Android용 모바일 앱으로 사용할 수 있다.