x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

중국 기업 샤오미는 스마트폰 뿐 아니라 PC나 전기자동차 등 광범위한 제품을 개발하고 있으며 AI 관련 연구에도 힘을 쏟고 있다. 샤오미가 음성 인식 AI 모델인 MiDashengLM-7B를 8월 4일 출시했다.

샤오미는 2024년 음성 인식 AI 기반 모델인 Dasheng을 발표했으며 지금까지 전기자동차나 스마트홈 디바이스 등 제품에 활용해왔다. 이번에 출시된 MiDashengLM-7B는 Dasheng과 Qwen2.5-Omni를 기반으로 개발된 음성 인식 AI 모델. 음성 발생원, 음성을 녹음한 환경, 음성에 포함된 언어 등 정보를 고정밀도로 인식할 수 있다.

MiDashengLM-7B는 응답 속도가 빠른 것도 특징 중 하나다. MiDashengLM-7B는 Qwen2.5-Omni-7B와 비교해 고속 응답이 가능하며 입력 음성이 길어져도 응답 속도를 유지할 수 있다. 배치 수를 늘려 처리 속도를 고속화할 수도 있다.

음성 인식 AI는 음성 데이터와 음성 내용을 텍스트로 받아쓴 데이터로 훈련되는 경우가 많지만 MiDashengLM-7B는 음성 데이터와 음성이 어떤 내용인지 설명하는 텍스트 데이터로 훈련됐다. 이를 통해 기존 음성 인식 AI로는 어려운 음악의 이해나 화자 감정 이해가 가능해졌다.

MiDashengLM-7B 모델 데이터는 허깅페이스를 통해 배포되고 있다. 또 MiDashengLM-7B를 개발하기 위해 작성된 데이터셋 ACAVCaps도 감사 완료 후 출시될 예정이다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post