中 Z.ai, 오픈소스 이미지 생성 AI 발표했다

중국 AI 기업 Z.ai가 오픈소스이면서도 산업 등급 성능을 발휘하는 이산 자기회귀 이미지 생성 모델인 GLM-Image를 발표했다. GLM-Image는 자기회귀 모델과 확산 모델 하이브리드 구조를 채택했다.

자기회귀 모델은 90억 개 파라미터를 가진 GLM-4-9B-041을 기반으로 초기화됐다. 확산 모델은 CogView4를 따르며 70억 개 파라미터를 가진 싱글스트림 DiT 구조를 채택한 것으로 알려졌다.

GLM-Image 하이브리드 모델은 텍스트 렌더링이나 지식 집약적 생성에서 큰 장점을 발휘한다. 그 중에서도 정확한 의미 이해와 복잡한 정보 표현이 필요한 작업에서 뛰어난 성능을 보이며 동시에 프롬프트에 충실한 생성을 가능하게 한다.

확산 모델은 학습 안정성과 강력한 일반화 능력 덕분에 이미지 생성 모델의 주류가 됐다. 확산 모델이나 변분 오토인코더(VAE)는 해마다 개선되고 있지만 확산 모델은 여전히 복잡한 지시사항이나 지식 집약적 시나리오를 처리하는 데 어려움을 겪고 있다.

한편 최근에는 프롬프트에 충실한 출력을 가능하게 하는 자기회귀 모델을 채택한 이미지 생성 AI도 증가하고 있지만 자기회귀 모델에는 실행 속도가 느리다는 단점이 있다. GLM-Image는 확산 모델과 자기회귀 모델이 지닌 장점을 결합한 하이브리드 모델로 개발됐다.

GLM-Image에서는 자기회귀 생성기가 저주파수 의미 신호를 담은 토큰을 생성하고 확산 디코더가 고주파수의 디테일을 정제해 최종 이미지를 제공한다. 이 하이브리드 아키텍처를 통해 일반 이미지 생성 작업이 안정적으로 작동할 뿐 아니라 복잡한 지식 표현이 필요한 창작 작업에서도 현저한 이점을 제공한다.

이미지 생성 모델의 텍스트 렌더링 정확도를 비교한 결과 GLM-Image는 오픈소스 모델임에도 압도적인 텍스트 렌더링 정확도를 실현한다. GLM-Image는 NED 점수 0.9557, CLIPScore 0.7877을 기록했으며 2개 영역 단어 정확도 91.03%, 3개 영역 92.09%, 4개 영역 91.69%, 5개 영역 89.75%로 평균 91.16%의 단어 정확도를 달성했다. 이는 비교 대상 모델 중 최고 수치다.

GLM-Image는 오픈소스 이미지 생성 모델로 깃허브와 허깅페이스에 코드와 모델 데이터가 공개되어 있다. 관련 내용은 이곳에서 확인할 수 있다.