
유럽 연구기관과 기업 컨소시엄이 영어 중심의 AI 개발에 대응하고 유럽의 언어적 다양성을 반영한 AI 실현을 목적으로 EU의 공식 전체 24개 언어에 더해 기타 11개 언어를 지원하는 대규모 언어모델(LLM)인 EuroLLM을 개발해 오픈소스로 공개했다.
EuroLLM이 지원하는 EU 공식 언어는 24개(불가리아어, 크로아티아어, 체코어, 덴마크어, 네덜란드어, 영어, 에스토니아어, 핀란드어, 프랑스어, 독일어, 그리스어, 헝가리어, 아일랜드어, 이탈리아어, 라트비아어, 리투아니아어, 몰타어, 폴란드어, 포르투갈어, 루마니아어, 슬로바키아어, 슬로베니아어, 스페인어, 스웨덴어)다. 마찬가지로 EuroLLM가 지원하는 기타 언어는 한국어를 포함해 11개(아랍어, 카탈루냐어, 중국어, 갈리시아어, 힌디어, 일본어, 노르웨이어, 러시아어, 터키어, 우크라이나어)다.
이 프로젝트에는 Unbabel, 리스본 공과대학, 에든버러 대학, 파리 사클레 대학 등 유럽 각지의 저명한 연구기관과 기업이 참여하고 있다. 개발팀은 LLM 대부분은 영어 중심이며 영어권 문화를 반영하는 경향이 있다며 유럽 모든 언어에서 공평하게 고성능을 발휘하는 모델을 목표로 했다고 밝혔다.
개발의 큰 과제로, 그리스어 텍스트는 영어에 비해 5~6배 토큰을 소비하는 경우가 있어 이용 비용 불평등으로 이어지고 있었다. 이 문제에 대해 학습 데이터에서 영어 비율을 50%로 억제하고 다른 언어에도 충분한 데이터를 할당해 해결을 도모하고 있다. 이 학습 시스템에는 EuroHPC 슈퍼컴퓨터(MareNostrum 5)가 활용됐다고 한다.
EuroLLM은 현재 1.7B와 9B 파라미터를 가진 모델이 공개되어 있으며 향후 더 고성능인 22B 모델이나 이미지·음성을 다루는 멀티모달 모델 출시도 계획되어 있다.
개발팀은 자신들의 목표는 유럽 혁신을 가속화하는 것이라며 누구나 이 유럽산 LLM을 사용하고 그 위에서 새로운 걸 구축할 기회를 제공하고 싶다고 밝혔다. 이어 미래에는 텍스트 뿐 아니라 이미지나 음성에도 대응한, 더욱 포괄적인 모델 개발을 진행해 나갈 것이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] CJ 오벤터스 8기 데모데이 성료‧비앤비엘-한동대, 바이오소재 기반 기술 협력](https://startuprecipe.co.kr/wp-content/uploads/2025/11/251104_cj.net_5003025-75x75.jpg)

