x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

중국 상하이에 본사를 둔 AI 개발 기업 미니맥스가 3월 18일 AI 모델 미니맥스 M2.7(MiniMax M2.7)을 발표했다. 미니맥스 M2.7은 동사 첫 자기 진화를 활용해 개발한 AI 모델로 벤치마크 테스트에서 제미나이 3.1 프로를 웃도는 점수를 달성했다.

미니맥스는 미니맥스 M2.7 제품판 개발을 위해 미니맥스 M2.7 내부 버전에 연구용 에이전트 하네스(agent harness) 개발을 지시했다. 구축된 에이전트 하네스는 데이터 파이프라인, 학습 환경, 인프라스트럭처, 팀 간 협업, 영구 메모리를 관리할 수 있으며 인간 AI 연구자가 AI 모델과 대화하면서 실험 내용을 설계하고 로그 분석을 수행하는 개발 흐름을 실현해 문제 발견과 검증을 고속화하는 데 성공했다. 제품판 모델 개발 과정에서 미니맥스 M2.7은 워크플로 30~50%를 처리했다고 한다.

또 미니맥스 M2.7 내부 버전을 활용해 모델을 재귀적으로 진화시키는 데도 성공했다. 구체적으로는 문제 분석→수정 계획→코드 변경→테스트 실행→결과 비교→변경 적용 혹은 폐기라는 처리를 100회 이상 반복해 30% 성능 향상을 실현했다. AI 모델을 미니맥스 M2.7을 활용한 재귀 진화 시스템으로 훈련하고 수학 올림피아드 메달 획득 수 변화를 보면 초기 상태 AI 모델은 메달을 단 하나도 획득하지 못했지만 재귀 진화 시스템을 25시간 실행하자 평균 메달 획득률이 66.6%까지 높아졌다.

미니맥스 M2.7은 복수 에이전트를 동시에 실행하는 에이전트 팀을 네이티브로 지원한다는 점도 주요 특징이다. 미니맥스에 따르면 각 에이전트에 서로 다른 역할을 부여하는 에이전트 팀 구조는 시스템 프롬프트 조정만으로는 구현할 수 없으며 AI 모델 개발 단계에서 네이티브로 지원해야 한다고 밝혔다. 미니맥스 M2.7 에이전트 팀 기능은 미니맥스 내 제품 개발에도 활용되고 있다고 한다.

 

미니맥스 M2.7은 대부분 벤치마크 테스트에서 제미나이 3.1 프로를 웃도는 점수를 기록했다. AI 모델 성능 비교 사이트인 아티피셜 애널리시스(Artificial Analysis)에서도 에이전트 성능 측정 테스트에서 미니맥스 M2.7은 제미나이 3.1 프로 프리뷰를 웃돌며 클로드 소네트 4.6에 근접하는 점수를 기록했다. 반면 인텔리전스 성능에서는 그록 4.20 베타 0309를 웃돌았지만 제미나이 3.1 프로 프리뷰 및 GLM-5보다는 낮은 점수에 그쳤다. 코딩 성능에서는 제미나이 3.1 프로 프리뷰 및 제미나이 3 플래시보다 낮은 점수를 기록했다.

미니맥스 M2.7은 챗 AI인 미니맥스 에이전트(MiniMax Agent)에서 사용할 수 있으며 API를 통해서도 이용할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post