구글, 메모리 절감형 ‘젬마 4 QAT’ 공개

AI를 실행하려면 대용량 메모리가 필요하다. AI 모델 메모리 사용량을 줄이는 기술로 양자화(quantization)가 널리 활용되고 있다. 이번에 구글이 학습 단계에서 양자화를 시뮬레이션한다는 접근 방식을 채택한 메모리 절감형 젬마 4인 젬마 4 QAT(Gemma 4 QAT)를 공개했다.

일반 PC에서 AI 모델을 로컬 실행할 경우 우선 초고속 VRAM에 모델이 로드된다. VRAM에 다 들어가지 못한 부분은 상대적으로 느린 RAM에 로드되며 RAM에도 수용되지 않을 경우에는 SSD상 스왑 파일에 로드된다. 이 때문에 AI 시스템을 고속으로 실행하려면 VRAM에 들어갈 수 있는 크기 AI 모델을 선택해야 한다. 고성능 AI 모델은 메모리 사용량이 수십 GB에서 수백 GB에 달하는 경우가 많지만 AI 모델 연산 정밀도를 낮춰 메모리 사용량을 줄이는 양자화 기술을 활용하면 고성능 AI 모델을 가정용 PC에서도 실행할 수 있다.

공개된 양자화 모델의 대부분은 완성된 AI 모델에 사후적으로 양자화를 적용한 것으로 양자화가 연산 정밀도를 낮추는 방식인 만큼 응답 품질이 저하될 수밖에 없다. 젬마 4 QAT는 AI 모델 학습 단계에서 양자화를 시뮬레이션하는 QAT(Quantization-Aware Training) 기술을 채택한 모델로 양자화를 통한 메모리 절감을 실현하면서도 품질 저하를 최소화하는 데 성공했다.

젬마 4 QAT는 젬마 4의 E2B, E4B, 12B, 26B A4B, 31B 등 모든 변형 모델에 대응한다. E2B와 E4B는 모바일 용도에 최적화된 버전도 별도로 제공된다.

모델별 메모리 사용량을 정리한 자료에 따르면 기존 젬마 4 E2B는 11.4GB 메모리를 소비하지만 QAT 버전(Q4_0 4비트)은 2.9GB, 모바일 버전은 1.1GB로 줄었다. 아울러 젬마 4 E2B 이미지·음성 인식 기능을 뺀 텍스트 전용 모델은 0.84GB라는 적은 메모리로도 실행 가능하다. 그 외 모델도 품질 저하를 억제하면서 메모리 사용량을 대폭 절감하는 데 성공했다.

젬마 4 QAT 각 모델은 별도 링크를 통해 배포되고 있다. 무료로 다운로드할 수 있으며 라이선스는 아파치 라이선스 2.0이다. 또 llama.cpp, 올라마(Ollama), LM 스튜디오(LM Studio)에서 실행 가능하다고 명시되어 있다. 관련 내용은 이곳에서 확인할 수 있다.