“클로드 오퍼스 4.7 능가” 中 GLM-5.2 공식 발표

중국 AI 기업 Z.ai가 AI 모델 GLM-5.2를 6월 17일 공식 발표했다. GLM-5.2는 각종 벤치마크에서 클로드 오퍼스 4.7을 상회하는 점수를 기록했으며 인간이 참여한 블라인드 테스트에서 클로드 페이블(Claude Fable) 5를 앞선 사례도 존재한다.

GLM-5.2 관련 정보는 6월 13일 클로드 페이블 5와 클로드 미토스(Claude Mythos) 5 서비스가 중단됐을 당시 일부가 공개된 바 있다. 첫 발표 시점에서는 강력한 코딩 기능을 탑재하고 100만 토큰 입력을 지원하며 장기적인 태스크에 대한 지속 실행이 가능하다는 사실만 밝혀졌지만 이번 공식 발표를 통해 성능 세부 사항이 공개됐다.

GLM-5.2는 파라미터 수 7,530억 개 대형 모델로 100만 토큰 입력을 지원한다. GLM-5.2, GLM-5.1, 클로드 오퍼스 4.8, GPT-5.5, 제미나이 3.1 프로를 비교한 벤치마크 결과를 보면 GLM-5.2는 복수 테스트에서 GPT-5.5를 상회하고 클로드 오퍼스 4.8에 근접하는 점수를 기록했다.

GLM-5.2는 장시간에 걸친 태스크 실행 성능이 높다는 점을 특징으로 한다. 장시간 태스크 실행 성능을 비교해보면 GLM-5.2가 클로드 오퍼스 4.7 및 GPT-5.5를 앞지른다. 코딩 에이전트 성능 역시 대규모 태스크에서 GLM-5.2는 높은 성능을 발휘한다.

GLM-5.2는 AI 이름을 숨긴 상태에서 인간이 성능을 평가하는 방식 테스트에서도 높은 평가를 받았다. 아레나(Arena) 코딩 성능 테스트에서는 클로드 오퍼스 4.7 및 클로드 오퍼스 4.8을 제치고 세계 2위 성능으로 평가받았다. 또 디자인 아레나(Design Arena) 코딩 성능 테스트에서는 클로드 페이블 5마저 꺾고 세계 1위를 차지했다.

GLM-5.2는 Z.ai 채팅 AI 서비스에서 이용 가능한 건 물론 지코드(ZCode), 클로드 코드, 오픈코드(OpenCode) 등 코딩 에이전트에서도 활용할 수 있다. 또 MIT 라이선스 기반 오픈 모델로도 배포되고 있다. 관련 내용은 이곳에서 확인할 수 있다.