x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

이미지 생성 AI인 스테이블 디퓨전(Stable Diffusion) 개발사로 알려진 스태빌리티AI(Stability AI)가 음악 생성 AI인 스테이블 오디오 2.5(Stable Audio 2.5)를 9월 10일 출시했다. 스태빌리티AI는 기업 브랜드 이미지나 홍보 선전의 사운드 제작을 위해 설계된 첫 음악 생성 모델이라고 어필하고 있다.

스태빌리티AI는 오디오는 브랜드 인게이지먼트의 86%에 영향을 미치지만 오디오를 자사 브랜드 연장선으로 활용하는 기업은 적으며 커스터마이징된 사운드는 미활용 차별화 요인이 되고 있다며 커스터마이징 가능한 고품질 오디오의 중요성을 강조했다.

스태빌리티AI에 따르면 스테이블 오디오 2.5는 스테이블 오디오 시리즈 첫 엔터프라이즈급 사운드 제작을 위해 설계된 오디오 생성 모델로 브랜드 요구사항에 맞춰 조정 가능한 다이내믹한 구성에 대한 수요에 응답하는 품질과 제어력의 향상을 실현했다고 한다.

스테이블 오디오 2.5가 지닌 특징을 살펴보면 먼저 최대 3분간 트랙을 2초 미만으로 생성하는 것. 연구팀이 개발한 최첨단 ARC(Adversarial Relativistic-Contrastive) 방식을 사용해 사후 훈련된 덕분에 스테이블 오디오 2.5는 최대 3분간 트랙을 2초 미만으로 생성할 수 있는 고속 추론을 실현하고 있다. 스태빌리티AI는 ARC 방식에 대해 아는 한 가장 빠른 텍스트-오디오 모델이라고 설명했다.

https://platform.twitter.com/widgets.js

다음은 다이내믹하고 커스터마이징 가능한 악곡 생성. 스테이블 오디오 2.5는 음악에 최적화되어 있으며 음악 구조가 개선되어 인트로, 전개, 아웃트로의 여러 파트로 나뉜 악곡을 생성 가능하다. 또 프롬프트에 대한 대응도 향상되어 고양감 등 기분 묘사나 풍부한 신시사이저 등 장르를 넘나드는 음악 표현에 대한 반응이 개선됐다.

3번째는 오디오 인페인팅 지원으로 더 고도의 제어를 실현한 것. 텍스트에서 오디오, 오디오에서 오디오로의 워크플로에 더해 스테이블 오디오 2.5는 오디오 인페인팅을 지원한다. 오디오 인페인팅이란 사용자가 독자 오디오를 입력하고 시작 위치를 지정하기만 하면 모델이 맥락에 기반해 트랙 나머지 부분을 생성하는 것이다. 기존 악곡 일부를 입력해 이어지는 부분을 개조하는 일이 없도록 저작권으로 보호된 콘텐츠 입력을 이용약관으로 금지하고 있는 한편 고도의 콘텐츠 인식 기술을 사용하여 저작권 침해 여부를 체크하고 있다고 한다.

스테이블 오디오 2.5는 StableAudio.com에서 체험할 수 있다. 또 스태빌리티 AI API에서 API 키를 입수하는 것도 가능하다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post