“6분 이상 음악 자동 생성” 스테이블 오디오 3.0 공개

이미지 생성 AI 스테이블 디퓨전 개발사로 알려진 AI 기업 스태빌리티AI(Stability AI)가 음악 생성 AI 스테이블 오디오 3.0(Stable Audio 3.0)을 공개했다.

스테이블 오디오 3.0은 스테이블 오디오 3.0 스몰(Stable Audio 3.0 Small), 스테이블 오디오 3.0 스몰 SFX(Stable Audio 3.0 Small SFX), 스테이블 오디오 3.0 미디엄(Stable Audio 3.0 Medium), 스테이블 오디오 3.0 라지(Stable Audio 3.0 Large) 4종으로 나뉘어 출시됐으며 이 가운데 스테이블 오디오 3.0 스몰, 스테이블 오디오 3.0 스몰 SFX, 스테이블 오디오 3.0 미디엄 3종은 오픈 모델로 무료 공개됐다.

모델별 특징을 보면 스테이블 오디오 3.0 스몰은 최대 2분 분량 음악 생성이 가능하고 스마트폰이나 노트북에서도 동작하는 소형 모델이며 짧은 트랙 생성에 최적화되어 있다. 스테이블 오디오 3.0 스몰 SFX는 최대 2분 분량 음악 생성이 가능하며 스마트폰이나 노트북에서도 동작하는 소형 모델. 사운드 이펙트 등 생성에 최적화된다. 스테이블 오디오 3.0 미디엄은 최대 6분 20초 분량 음악 생성이 가능하며 고도의 음악 표현이 가능하다. 스테이블 오디오 3.0 라지는 최대 6분 20초 분량 음악 생성이 가능하며 시리즈 가운데 최고 성능 모델이다.

Stable Audio 3.0 is now Day-0 supported in ComfyUI.

Open-weight music models (fully licensed data)—from quick SFX and short tracks to longer, more musical pieces—inside the workflows you already use. pic.twitter.com/27qbFBzOKD

— ComfyUI (@ComfyUI) May 21, 2026