“GPT-5.5급 코딩 성능을 저비용에” 커서, 컴포저 2.5 발표

AI 코드 에디터 커서(Cursor)를 개발하는 애니스피어(Anysphere)가 코딩 에이전트용 신모델 컴포저 2.5(Composer 2.5)를 발표했다. 컴포저 2.5는 커서 내에서 사용 가능하며 기존 모델 컴포저 2에 비해 장시간 태스크를 지속 처리하는 능력, 복잡한 지시에 대한 추종성, 사용자와의 협업 편의성이 크게 개선됐다.

컴포저 2.5에는 모델에 태스크를 실행시키고 성공·실패에 따른 보상을 부여해 바람직한 동작을 학습시키는 강화학습이 적용됐다. 커서는 학습 규모 확대, 더 복잡한 강화학습 환경 생성, 새로운 학습 기법 도입을 통해 성능을 끌어올렸다고 설명했다. 벤치마크 점수뿐 아니라 커뮤니케이션 방식, 태스크에 투입하는 노력의 적절성 등 실사용에서 중요한 동작도 개선됐다고 밝혔다.

공개된 벤치마크에서 컴포저 2.5는 터미널-벤치(Terminal-Bench) 2.0에서 69.3%, SWE-벤치 멀티링구얼(SWE-Bench Multilingual)에서 79.8%, 커서벤치(CursorBench) 3.1에서 63.2%를 기록했다. 비교 대상으로 제시된 컴포저 2는 각각 61.7%, 73.7%, 52.2%로, 특히 커서벤치 3.1에서 큰 폭으로 향상됐다. 또 클로드 오퍼스(Claude Opus) 4.7과 GPT-5.5에 필적하는 점수를 기록한 것도 확인됐다.

커서벤치 3.1 점수와 태스크당 평균 비용을 보면 컴포저 2.5가 저비용 영역에 위치하면서 63%대 점수를 기록하는 모습이 나타났다. 오퍼스 4.7과 GPT-5.5는 추론 설정을 높이면 점수도 오르는 반면 평균 비용도 증가하는 경향이 있으며 컴포저 2.5는 비용과 성능 간 균형을 중시한 모델로 자리매김했다.

컴포저 2.5는 컴포저 2와 마찬가지로 문샷 AI(Moonshot AI)의 오픈소스 키미 K2.5(Kimi K2.5)를 기반으로 한다. 커서는 컴포저 2.5에 투입된 컴퓨팅 자원 85%는 추가 학습과 강화학습에 의한 것이라며 기반 모델을 그대로 사용하는 게 아니라 코딩 에이전트용으로 대폭 손질했음을 강조했다.

강화학습에서는 긴 태스크 도중 어떤 판단이 성공이나 실패에 영향을 미쳤는지를 파악하기가 어려워진다. 커서는 구체적 사례로 수십만 토큰에 달하는 롤아웃(rollout)을 들었다. 롤아웃이란 모델이 태스크를 진행하는 과정에서 출력하는 문장, 코드 편집, 툴 호출 등을 묶은 일련의 행동을 말한다. 긴 롤아웃 마지막에 보상만 부여할 경우 잘못된 툴 호출이나 부적절한 설명 등 국소적인 실패를 정밀하게 수정하기가 어렵다.

이에 컴포저 2.5에는 텍스트 피드백을 활용한 타깃형 강화학습이 도입됐다. 이는 힌트가 있는 컨텍스트에서 얻은 모델 출력을 교사 신호로 삼아 힌트 없이 동작하는 모델도 동일하게 적절한 선택을 할 수 있도록 학습시키는 기법이다. 예를 들어 모델이 사용 불가능한 툴을 호출한 경우 모델에 전달하는 컨텍스트에 사용 가능한 툴은 Read, Write, Shell, StrReplace라는 짧은 힌트를 삽입한다. 힌트가 있는 컨텍스트에서 얻은 출력 확률 분포를 힌트 없이 동작하는 컴포저 2.5 학습 목표로 활용해 잘못된 툴 이름을 출력할 확률을 낮추고 유효한 툴을 선택할 확률을 높이는 구조다.

커서는 이 텍스트 피드백을 활용한 타깃형 강화학습 기법을 툴 호출뿐 아니라 코딩 스타일과 커뮤니케이션 개선에도 적용했다고 밝혔다. 단순히 태스크 성공 여부만 보는 게 아니라 모델이 어떤 장면에서 잘못된 선택을 했는지를 겨냥해 수정하는 학습 방식이라 할 수 있다.

컴포저 2.5에는 합성 데이터도 대규모로 활용됐다. 커서에 따르면 컴포저 2.5는 컴포저 2 25배에 달하는 합성 태스크로 학습됐다. 합성 태스크란 사람이 직접 만든 문제뿐 아니라 기존 코드베이스 등에서 자동 생성한 학습용 문제를 가리킨다.

합성 태스크의 예로 커서는 기능 삭제를 들었다. 기능 삭제는 테스트 군을 포함한 코드베이스에서 특정 기능과 관련된 코드 및 파일을 삭제한 뒤 모델에 삭제된 기능을 재구현하도록 하는 방식이다. 테스트가 통과되면 보상이 부여되므로 모델 입장에서는 실제 소프트웨어 개발에 가까운 형태로 능력을 기를 수 있다.

한편 합성 태스크에는 보상 해킹(reward hacking)이 발생할 수 있다는 문제도 있다. 보상 해킹이란 모델이 본래 기대된 방법으로 문제를 푸는 게 아니라 테스트를 통과하기 위한 편법을 찾아 보상을 획득하는 것을 말한다. 커서는 컴포저 2.5가 파이썬의 타입 체크용 캐시를 분석해 삭제된 함수 시그니처를 추정한 사례, 자바 바이트코드를 역컴파일해 서드파티 API를 재구축한 사례를 예로 들었다.

모델 학습 인프라와 관련해 커서는 대형 모델의 파라미터 업데이트를 효율화하는 최적화 기법 샤디드 뮤온(Sharded Muon)과 일반 가중치와 전문가 모델 부분 가중치에 각각 별도 분산 배치를 적용해 통신 비용을 절감하면서 대규모 학습을 진행하는 구조 듀얼 메시 HSDP(dual mesh HSDP) 2가지를 도입했다고 설명했다. 커서는 1조 파라미터 규모 모델에서 옵티마이저 스텝 시간이 0.2초였다고 밝혔다.

컴포저 2.5 가격은 일반 버전 기준 입력 100만 토큰당 0.50달러, 출력 100만 토큰당 2.50달러다. 동등한 지능 수준에서 더 빠르게 동작하는 고속 버전도 제공되며 입력 100만 토큰당 3.00달러, 출력 100만 토큰당 15.00달러로 책정됐다. 컴포저 2와 마찬가지로 고속 버전이 기본 선택지가 될 예정이다.

커서는 컴포저 2.5에 대해 벤치마크 성능 향상뿐 아니라 장시간 작업, 복잡한 지시 대응, 사용자와의 상호작용 개선을 중시한 모델이라고 밝혔다. 또 출시 첫 주에는 컴포저 2.5 사용 가능 용량이 2배로 늘어난다고 안내했다. 관련 내용은 이곳에서 확인할 수 있다.