“에이전트 능력 탁월” 무료 공개한 中 AI 모델 GLM-5.1

중국에 본사를 둔 AI 기업 Z.ai가 AI 모델인 GLM-5.1을 4월 7일 공개했다. GLM-5.1은 오픈 모델 중 세계 최고 수준 성능을 보유하고 있으며 일부 벤치마크 테스트에서는 GPT-5.4나 클로드 오퍼스 4.6과 같은 클로즈드 모델을 상회하는 점수를 기록했다.

복수 코딩 성능 벤치마크 테스트 평균값을 보면 GLM-5.1은 미니맥스 M2.7(MiniMax M2.7)이나 키미 K2.5(Kimi K2.5) 등 오픈 모델을 앞질렀을 뿐 아니라 클로즈드 모델인 제미나이 3.1 프로(Gemini 3.1 Pro)보다도 높은 점수를 기록했다.

각종 벤치마크 결과도 주목할 만하다. GLM-5.1은 복수 테스트에서 GPT-5.4와 클로드 오퍼스 4.6 등 최첨단 모델을 능가했다.

기존 AI 모델에는 작업에 오랜 시간을 들여도 처음 몇 차례 시도에서 결과가 정체되는 약점이 있었다. GLM-5.1은 장시간에 걸친 에이전트 작업에서 효과를 발휘하도록 설계됐으며 시도 횟수가 늘어날수록 결과물 품질도 향상시킬 수 있다. 실제로 고속 데이터베이스 관리 시스템을 설계하라는 작업을 GLM-5.1로 실행했을 때의 시도 횟수와 데이터베이스 처리 속도를 보면 GLM-5.1은 600회 이상 시도를 반복하면서 단계적으로 시스템 성능을 향상시키는 데 성공했다.

GPU 커널 최적화 작업 실행 성능을 측정하는 커널벤치(KernelBench) 결과도 공개됐다. GLM-5와 클로드 오퍼스 4.5는 200회 전후 시도에서 커널 성능이 정체됐지만 GLM-5.1은 1,200회 시도에 걸쳐 일관되게 성능을 계속 향상시켰다. 다만 이 테스트에서는 클로드 오퍼스 4.6이 더 뛰어난 결과를 냈다.

또 GLM-5.1에 50개 앱을 포함한 리눅스 데스크톱 웹앱’을 만들도록 지시한 결과 GLM-5.1은 처음 1시간 만에 UI 골격을 만드는 데 성공했다. 출력 시작 2시간 뒤에는 태스크바와 윈도 구현이 완료됐다.

4시간 후에는 브라우저, 5시간 뒤에는 인스턴트 메신저 구현에 성공했으며 50개 앱을 만들라는 작업을 8시간 만에 완료했다.

GLM-5.1은 공개되어 있으며 라이선스는 MIT 라이선스다. 관련 내용은 이곳에서 확인할 수 있다.