젬마4보다 4배 빠르다…구글, 디퓨전젬마 오픈 모델로 공개

구글이 6월 10일 오픈 모델 디퓨전젬마(DiffusionGemma)를 공개했다. 디퓨전젬마는 주류인 자기회귀 모델이 아닌 확산 언어 모델로 빠른 응답이 요구되는 분야에서의 활약이 기대된다.

주류 언어 모델은 토큰을 하나씩 계산해 순서대로 출력하는 자기회귀 모델이라는 방식을 채택하고 있다. 자기회귀 모델은 정밀도 높은 추론이 가능한 반면 처리 속도가 느려진다는 단점도 안고 있다.

확산 언어 모델은 이미지 생성 AI에서 주류인 노이즈 전체를 여러 차례 반복 처리해 완성형에 가깝게 만든다는 처리 방식을 언어 모델에 응용한 구조로 자기회귀 모델에 비해 빠른 처리가 가능하다. 확산 언어 모델은 여러 AI 연구기관에 의해 개발이 진행되고 있으며 구글도 2025년 5월 제미나이 디퓨전(Gemini Diffusion)을 발표한 바 있다. 이번에 발표된 디퓨전젬마는 제미나이 디퓨전 성과를 토대로 구축된 오픈 모델.

디퓨전젬마는 전체 파라미터 수 252억 개, 활성 파라미터 수 38억 개인 MoE 모델이다. 모델 규모가 동일한 디퓨전젬마와 젬마 4 26B A4B 성능을 비교해보면 디퓨전젬마는 젬마 4 26B A4B에 비해 4배 빠르게 동작하면서도 성능 저하는 억제되어 있다.

디퓨전젬마와 같은 확산 언어 모델은 같은 부분에 대해 반복 시도한다는 처리에 강하다. 아래는 디퓨전젬마 베이스 모델과 디퓨전젬마 파인튜닝 모델로 같은 스도쿠 문제를 푼 결과를 보면 디퓨전젬마에 파인튜닝을 적용해 같은 칸에 대해 몇 번이고 다시 생각하는 스도쿠 작업을 높은 정밀도로 수행할 수 있게 됐다.

디퓨전젬마는 오픈 모델로 공개되어 있다. 라이선스는 아파치 라이선스 2.0이다. 또 엔비디아와 협력해 NVFP4 양자화 버전도 개발하고 있다. NVFP4 버전은 단일 지포스 RTX 5090으로 동작한다. 관련 내용은 이곳에서 확인할 수 있다.