코히어, 에이전트 작업 특화 MoE 멀티모달 AI 출시

코히어(Cohere)가 자사 언어 모델인 커맨드 시리즈 중 가장 빠르고 강력하다고 내세우는 커맨드 A+(Command A+)를 오픈소스로 공개했다. 커맨드 A+는 복잡한 추론, 멀티모달 처리, 다국어 지원, AI 에이전트 업무에 대응하는 기업용 모델로 최소 구성 기준 엔비디아 H100 2기 또는 블랙웰 세대 B200 1기로 구동된다.

커맨드 A+는 코히어가 기업용 AI 워크스페이스 노스(North)를 고객에게 제공해온 1년간 경험을 바탕으로 개발됐다. 코히어는 이 모델을 기업이 자체 환경 내에서 실행·관리·적용할 수 있는 소버린 AI를 실현하기 위한 기반으로 자리매김하고 있다.

커맨드 A+는 기존 커맨드 A 시리즈 기능을 하나로 통합한 모델이기도 하다. 커맨드 A 리즈닝(Command A Reasoning)이 추론에, 커맨드 A 비전(Command A Vision)이 멀티모달 처리에, 커맨드 A 트랜슬레이트(Command A Translate)가 다국어 처리에 특화되어 있었던 반면 커맨드 A+는 추론·멀티모달·툴 사용·48개 언어 지원을 단일 모델로 통합해 처리한다.

모델명은 command-a-plus-05-2026이며 아파치 2.0 라이선스 하에 개발됐다. 아키텍처는 대규모 AI 모델 연산 비용을 억제하면서 성능을 비약적으로 높이는 신경망 구조인 스파스 MoE(Sparse MoE)를 채택했으며 전체 파라미터 수는 2,180억 개다. 실제로 각 토큰에서 활성화되는 액티브 파라미터는 250억 개다. 입력 컨텍스트 길이는 128K, 최대 생성 길이는 64K이며 입력은 텍스트·이미지·툴 사용을 지원한다.

출력은 텍스트·추론·툴 사용을 지원하며 다국어 지원은 기존 23개 언어에서 48개 언어로 확대됐다. 커맨드 A+는 새로운 토크나이저가 적용돼 동일한 응답을 생성하는 데 필요한 토큰 수가 줄었으며 그 중에서도 아랍어에서 20%, 한국어에서 16%, 일본어에서 18% 토큰 효율 개선이 확인됐다.

커맨드 A+는 코히어(Cohere)와 코히어 랩스(Cohere Labs)가 개발한 모델로 에이전트 처리·다국어 처리·고강도 추론 작업·이미지 입력을 포함한 시각 정보 처리에 최적화됐다. 공개된 모델은 BF16·FP8·W4A4 각 양자화 버전을 포함하며 허깅 페이스 스페이스에서 시험 사용도 가능하다.

양자화별 최소 GPU 요건은 BF16이 B200 4기 또는 H100 8기, FP8이 B200 2기 또는 H100 4기, W4A4가 B200 1기 또는 H100 2기다. 코히어는 3가지 양자화 간 벤치마크 품질 차이는 극히 작다며 속도·레이턴시·필요 하드웨어 규모 면에서 대다수 용도에는 W4A4를 권장하고 있다.

성능 면에서는 커맨드 A 리즈닝 대비 큰 향상이 나타났다. τ2-벤치 텔레콤(τ2-Bench Telecom)은 37%에서 85%로, 터미널-벤치 하드(Terminal-Bench Hard)는 3%에서 25%로 올랐으며, IFBench는 36%에서 74%, AIME 25는 57%에서 90%, SciCode는 30%에서 38%로 개선됐다.

노스를 대상으로 한 내부 평가에서도 커맨드 A+는 기업 활용을 가정한 처리에서 개선을 보였다. 에이전트 질의응답(Agentic Question Answering)은 45%에서 65%로, 데이터 분석(Data Analysis)은 13%에서 45%로, 메모리를 활용한 에이전트 처리 성능(Memory Usage Quality)은 39%에서 54%로 향상됐으며 클라우드 파일 시스템·스프레드시트·과거 세션 메모리를 활용하는 에이전트 처리에서 성능이 높아졌다.

커맨드 A+와 커맨드 A 비전의 멀티모달 성능을 비교한 결과 커맨드 A+는 MMMU 프로(MMMU Pro)에서 63%, MMMU에서 75.1%를 기록했다. 매스비스타(MathVista)는 73.5%에서 80.6%로, 찰XivCharXiv 리즈닝(CharXiv reasoning)은 46.9%에서 52.7%로 향상됐으며 코히어는 커맨드 A+ 문서 이해 작업이 전반적으로 개선됐음을 강조하고 있다.

효율성도 커맨드 A+의 주요 특징이다. 코히어에 따르면 동일한 양자화 및 병렬 실행 조건에서 커맨드 A 리즈닝과 비교했을 때 출력 토큰 초당 처리 속도가 최대 63% 향상됐으며 첫 번째 토큰이 반환되기까지의 시간인 TTFT(Time To First Token)는 최대 17% 단축됐다.

W4A4 양자화에서는 추가로 47% 속도 향상과 13% 레이턴시 감소 효과를 얻을 수 있다. 또 MoE 아키텍처에 맞춰 최적화한 투기적 디코딩(Speculative Decoding)을 통해 텍스트 입력과 멀티모달 입력 모두에서 1.5배~1.6배 추론 가속을 실현했다.

코히어에 따르면 W4A4 양자화 버전은 MoE 전문가 부분에만 4비트 가중치와 활성화를 적용하는 NVFP4 W4A4 양자화를 사용하며 QKV·출력 프로젝션·KV 캐시·어텐션 연산은 풀 정밀도(Full Precision)로 유지된다. 아울러 양자화 후 품질 저하를 억제하기 위해 풀 정밀도 모델 출력 분포에 양자화 모델을 근접시키는 양자화 인식 증류(Quantization Aware Distillation) 기법을 활용했다.

커맨드 A+는 허깅 페이스에서 모델 파라미터를 내려받을 수 있으며 모델 볼트(Model Vault)를 통해 관리된 추론 환경에 배포하는 것도 가능하다. 무료 사용 시에는 허깅 페이스 스페이스 또는 코히어 API 키를 활용하는 방법도 제공되며 vLLM과 트랜스포머스(Transformers)가 지원된다. 다만 W4A4 버전을 vLLM으로 구동하려면 vLLM 0.21.0 이상이 필요하며 정확한 응답 파싱을 위해 코히어 멜로디(melody) 라이브러리도 필요하다. 관련 내용은 이곳에서 확인할 수 있다.