
구글이 온디바이스에서 동작하는 임베딩 모델인 EmbeddingGemma를 공개했다. EmbeddingGemma 파라미터 수는 3억 개이며 메모리 사용량은 단 200MB다.
EmbeddingGemma는 모델 파라미터 1억 개와 임베딩 파라미터 2억 개로 구성된 임베딩 모델. 고효율 파라미터 설계를 통해 하드웨어상에서 직접 실행되는 검색 증강 생성이나 시맨틱 검색 등 기술을 활용한 애플리케이션을 구축할 수 있다. 소형, 고속, 효율적이며 커스터마이징 가능한 출력 차원과 2K 토큰 컨텍스트 윈도를 갖추고 있어 휴대폰이나 노트북, 데스크톱PC 등 일상적으로 사용하는 디바이스에서 오프라인으로 동작할 것으로 예상된다.
EmbeddingGemma는 100개 이상 언어로 사전 훈련됐으며 데이터 정확도를 떨어뜨려 크기를 줄이는 양자화 기술을 활용해 200MB 미만 RAM으로 실행할 수 있을 정도로 소형화된 모델이다. 구글 순다르 피차이 CEO는 텍스트 임베딩 모델 성능을 평가하는 벤치마크인 MTEB에서 5억 파라미터 미만 오픈 다국어 텍스트 임베딩 모델로서 최고 평가를 획득했다고 밝혔다.
https://platform.twitter.com/widgets.jsEmbeddingGemma is our new best-in-class open embedding model designed for on-device AI. 📱
— Google DeepMind (@GoogleDeepMind) September 4, 2025
At just 308M parameters, it delivers state-of-the-art performance while being small and efficient enough to run anywhere – even without an internet connection. pic.twitter.com/QGDmTkOb1I
또 EmbeddingGemma는 RAG(검색 증강 생성) 파이프라인 구축에 특징이 있다. RAG 파이프라인에는 사용자 입력에 기반해 관련 컨텍스트를 검색하고 해당 컨텍스트에 기반한 답변을 생성하는 2가지 중요한 단계가 있다. EmbeddingGemma에서는 첫 번째 검색 단계 품질을 높은 성능으로 보장해 정확하고 신뢰성 높은 온디바이스 애플리케이션에 필요한 고품질 표현을 제공한다.
EmbeddingGemma는 허깅페이스와 버텍스AI 등에서 다운로드할 수 있다. EmbeddingGemma를 프로젝트에 통합하는 방법 등은 구글 문서에서 확인할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] ‘에이블리 메이커스’ 출시‧‘리얼월드 AI’ 베타 공개](https://startuprecipe.co.kr/wp-content/uploads/2025/09/250908_forparents.co_.kr_05023-75x75.jpg)

