
엔비디아가 100만 시간 음성을 포함하는 데이터셋 그레이너리(Granary)를 공개했다. 그레이너리에는 크로아티아어나 에스토니아어 등 유럽 25개 언어가 포함되어 있어 음성 AI 다국어화에 기여한다.
음성 인식이나 자동 번역에 도움이 되는 음성 AI 모델은 다수 등장하고 있지만 영어 등 주요 언어를 대상으로 한 게 많아 사용자가 적은 언어에 대한 대응은 뒤처지는 경향이 있다. 사용자가 적은 언어는 AI 학습에 필수불가결한 데이터셋 자체가 적다는 사정이 있어 음성 AI의 다국어화 과제가 되고 있었다.
엔비디아가 공개한 그레이너리는 크로아티아어, 에스토니아어, 몰타어 같은 유럽 25개 언어 음성을 포함하는 데이터셋이다. 그레이너리에는 총 100만 시간분 음성 데이터가 수록되어 있으며 그 중 65만 시간이 음성 인식, 35만 시간이 음성 번역에 최적화되어 있다.
음성 데이터셋을 생성하려면 녹음 데이터에 정확한 음성 인식 텍스트 등 라벨을 부여하는 막대한 노력이 수반되는 작업이 필요하다. 엔비디아는 이 문제를 해결하기 위해 인간 작업 없이도 음성 데이터에 라벨을 부여할 수 있는 파이프라인도 개발하고 있다.
엔비디아는 또 그레이너리를 사용해 훈련한 고품질 음성 인식 모델(NVIDIA Canary-1b-v2)과 실시간 음성 인식 모델(NVIDIA Parakeet-tdt-0.6b-v3)도 공개했다. NVIDIA Canary-1b-v2는 음성 인식 모델 성능을 측정하는 테스트(Open ASR Leaderboard) 다국어 성능 부문에서 최고 점수를 획득했다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 캠프 네트워크, 3천만 달러 유치‧라이드플럭스, 삼다수와 자율주행 화물운송 MOU](https://startuprecipe.co.kr/wp-content/uploads/2025/08/250821_rideplux_00203523532-75x75.jpg)

