x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

중국 상하이에 거점을 둔 AI 기업 미니맥스(MiniMax)는 실세계 생산성을 비약적으로 높이기 위해 설계된 프론티어 모델인 미니맥스 M2.5를 발표했다. M2.5는 수십만 규모 복잡한 실세계 환경에서 강화학습을 거듭해 추론 효율화와 태스크 분해 최적화를 실현했다고 밝혔으며 극히 높은 처리 속도와 압도적인 비용 효율을 모두 달성한 게 특징이다.

미니맥스는 M2.5가 프로그래밍 분야에서 전세대인 M2.1로부터 비약적인 진화를 이뤘다고 어필하며 주요 벤치마크인 SWE-Bench Verified에서 80.2%를 기록했으며 Multi-SWE-Bench에서 51.3%, BrowseComp는 컨텍스트 관리를 병용한 조건에서 76.3%였다고 설명했다.

M2.5는 그 중에서도 소프트웨어 설계자처럼 사고하고 계획을 세우는 능력이 포인트로 코드를 작성하기 전에 프로젝트 기능이나 구조, UI 디자인을 능동적으로 정의하는 사양 작성 경향을 갖추고 있다.

또한 파이썬과 자바, Rust, Go를 포함한 10종 이상 언어에 대응하며 20만을 넘는 실세계 환경에서 학습했다고 밝힌 뒤 개발 환경 설정부터 시스템 설계, 기능의 반복, 최종적인 코드 리뷰와 테스트에 이르는 개발 라이프사이클 전 공정을 커버할 수 있다는 설명이다. 또 웹, 안드로이드, iOS, 윈도 같은 복수 플랫폼에 대응한 풀스택 프로젝트 수행도 가능하다.

더욱이 M2.5는 에이전트가 복잡한 태스크를 자율적으로 처리하기 위한 기반이 되는 검색 및 도구 호출 능력이 대폭 강화됐다. M2.5는 전세대인 M2.1에 비해 BrowseComp나 Wide Search, RISE와 같은 복수 에이전트 태스크에서 탐색 라운드 수를 20% 줄이면서도 더 좋은 결과를 냈다고 밝혔으며 정답 뿐 아니라 효율적인 경로로 결론에 도달하는 방향으로 추론이 개선됐다. 또 BrowseComp나 Wide Search 등 벤치마크에서 업계 최고 수준 성능을 달성했다고 밝힌 뒤 미지의 환경에서도 안정적으로 성능을 낼 수 있는 일반화 성능이 향상됐다는 설명이다.

M2.5는 실제 직장 환경에서 즉전력이 되는 성과물을 출력하는 걸 목표로 개발됐다. 금융, 법률, 사회과학 전문가와 긴밀히 연계하여 그들의 업계 지식을 학습 파이프라인에 도입해 워드나 파워포인트, 엑셀을 이용한 재무 모델링 등 고부가가치 업무 시나리오에서 현저한 개선을 실현했다고 한다. 사내 평가 프레임워크인 GDPval-MM에서는 다른 주요 모델에 대해 평균 59.0% 승률을 기록했다. 더욱이 엑셀 e스포츠 대회인 MEWC 문제를 이용한 평가에서도 복잡한 표 계산이나 도구 이용에서 우수한 능력을 발휘하는 게 증명됐다.

이런 기술적 진보를 뒷받침하는 중심적인 요소는 강화학습 확장. 자체 개발한 에이전트 네이티브 강화학습 프레임워크인 포지(Forge)를 도입해 에이전트와 엔진을 완전히 분리해 도구나 스캐폴딩 범용성을 최적화했다. 비동기 스케줄링과 트리 구조 샘플 통합 전략으로 학습 속도를 40배 높였다. 알고리즘 면에서는 CISPO를 계속 채택해 MoE 모델 안정성을 확보하는 동시에 프로세스 보상 메커니즘을 도입해 긴 태스크에서의 생성 품질과 응답 속도의 최적 균형을 실현했다.

미니맥스 M2.5는 미니맥스 에이전트라는 독자 플랫폼에 완전히 통합되어 있으며 사용자는 API를 통해 고도의 코딩이나 검색, 오피스 실무 등의 전용 스킬을 활용할 수 있다. 모델은 처리 속도와 비용이 다른 M2.5와 M2.5-Lightning 2종류가 제공되며, 용도에 따른 선택이 가능하다.

표준판 M2.5는 1초당 50토큰 출력이 가능하며 100만 입력 토큰당 0.150달러, 100만 출력 토큰당 1.20달러다. 고속판인 M2.5-Lightning은 1초당 100토큰 출력을 안정적으로 제공하며 요금은 100만 입력 토큰당 0.300달러, 100만 출력 토큰당 2.40달러로 설정되어 있다.

미니맥스는 M2.5가 출력 가격 기준으로 보면 다른 주요 프론티어 모델 10분의 1에서 20분의 1 수준으로 저렴하다고 밝힌 뒤 출력 100토큰 매초로 1시간 연속 가동시킬 경우의 비용은 1달러(약 156엔)이며, 출력 50토큰 매초라면 0.30달러(약 47엔)까지 내려간다고 어필했다. 또한 4개 인스턴스를 24시간 365일 쉬지 않고 가동시켜도 연간 1만 달러 예산에 수용된다는 예를 제시하며 M2.5라면 비용을 거의 신경 쓰지 않고 고도의 AI 에이전트를 비즈니스에 활용할 수 있다고 강조했다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available