x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

마이크로소프트가 자체 개발한 AI 기초 모델로 음성 생성 모델인 마이-보이스-1(MAI-Voice-1), 음성 인식 모델인 마이-트랜스크라이브-1(MAI-Transcribe-1), 이미지 생성 모델인 마이-이미지-2(MAI-Image-2)를 발표했다.

마이크로소프트가 개발 중인 마이(MAI) 패밀리는 경쟁사 AI 모델보다 뛰어나며 빠르고 저렴한 AI 모델군. 예를 들어 마이-트랜스크라이브-1 요금은 시간당 0.36달러부터이며 마이-보이스-1 요금은 100만 문자당 22달러부터, 마이-이미지-2 요금은 텍스트 입력의 경우 100만 토큰당 5달러부터, 이미지 출력의 경우 100만 토큰당 33달러부터다.

마이-트랜스크라이브-1, 마이-보이스-1, 마이-이미지-2는 마이크로소프트 파운드리(Microsoft Foundry)와 마이 플레이그라운드(MAI Playground)에서 이용할 수 있지만 마이 플레이그라운드는 아직은 미국에서만 이용 가능하다.

하나씩 살펴보면 먼저 음성 인식 모델인 마이-트랜스크라이브-1은 업계 표준 음성 작업 벤치마크인 플라이어스(FLEURS)에서 전 세계에서 가장 빈번하게 사용되는 상위 25개 언어가 음성에서 텍스트로 어떻게 변환되는지의 성능을 비교했다. 경쟁사 모델과 단어 오류율(WER)을 비교해보면 마이-트랜스크라이브-1은 가장 낮은 3.9%를 기록했다.

또 마이-트랜스크라이브-1은 뛰어난 성능을 발휘할 뿐만 아니라 놀라울 정도로 빠르게 작동한다. 더불어 마이-트랜스크라이브-1은 마이크로소프트 파운드리에서 이용할 수 있으며 대형 클라우드 제공업체 중에서 높은 가격 성능비도 실현하고 있다.

 

다음으로 마이-보이스-1은 마이크로소프트가 개발한 최고 수준 음성 생성 AI 모델. 자연스럽고 현실적인 음성을 생성하도록 설계됐으며 뉘앙스, 감정 표현의 폭, 장편 콘텐츠에서도 화자 개성을 손상시키지 않으면서 풍부한 표현력을 실현할 수 있다는 점에서 뛰어나다.

마이-보이스-1은 마이크로소프트 파운드리에서 이용 가능해지며 단 몇 초 가량 음성 데이터로부터 안전하고 확실하게 독자적인 사용자 정의 음성을 만들 수 있다. 마이크로소프트는 마이-보이스-1에 대해 개발자가 고품질 고속 음성 경험과 음성 에이전트를 구축하는 방식을 근본적으로 혁신할 것이라고 설명했다.

마이-보이스-1은 단 1초 만에 60초분 음성을 생성할 수 있으며 효율적인 GPU 활용으로 품질과 비용 균형도 뛰어나다. 또 코파일럿 오디오 익스프레션(Copilot Audio Expressions)에서도 마이-보이스-1을 이용할 수 있다.

마지막으로 마이-이미지-2는 AI 모델 이미지 생성 성능을 비교하는 벤치마크인 아레나-에이아이(Arena.ai) 리더보드에서 상위 3위 내 성능을 보여주는 이미지 생성 모델이다. 3월 19일 발표됐으며 이미 코파일럿의 이미지 생성 성능 향상에 기여하고 있다. 실제 운영 트래픽 데이터에 기반하면 마이크로소프트 파운드리와 코파일럿에서 동등한 품질을 유지하면서 최소 2배 빠른 생성 시간을 실현하고 있다.

마이-이미지-2는 자연스러운 조명, 정확한 피부 색조와 질감, 도표, 레이아웃, 선명한 이미지 내 텍스트 등을 생성할 수 있다. 또 마이-이미지-2도 경쟁력 있는 가격 성능비로 제공된다. 이미 세계 최대급 광고 대행사인 더블유피피 그룹(WPP Group)이 엔터프라이즈 파트너로 마이-이미지-2를 대규모로 활용하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post