“복잡한 업무 처리 능력 향상” 앤트로픽, 클로드 오푸스 4.5 출시

앤트로픽(Anthropic)이 생성 AI 모델 최신 버전인 클로드 오푸스 4.5(Claude Opus 4.5) 제공을 11월 25일 시작했다. 오푸스 4.5는 지능적이고 효율적한 모델로 코딩과 PC 조작, 딥리서치(Deep Research), 스프레드시트 운영 등 일상적 작업에서 성능이 대폭 향상됐다고 한다.

오푸스 4.5는 실제 소프트웨어 엔지니어링 테스트에서 최첨단 성능을 보였다. 초기 테스트에서는 오푸스 4.5가 모호성을 처리하고 도움 없이 트레이드오프를 추론하며 복잡한 멀티시스템 버그를 수정할 수 있는 능력이 있다고 평가됐다. 사내 벤치마크로 사용된 퍼포먼스 엔지니어링 시험에서는 오푸스 4.5가 규정된 2시간 내 최고 점수를 기록한 것으로 보고됐다.

또 소프트웨어 엔지니어링 외 분야에서도 역량이 향상됐으며 비전·추론·수학 능력이 뛰어나다는 점이 강조됐다. 예를 들어 에이전트 기반 코딩 능력을 측정하는 Terminal-bench 2.0에서는 59.3%, 적절한 도구 사용 능력을 평가하는 MCP Atlas에서는 62.3%, PC 조작 능력을 평가하는 OSWorld에서는 66.3%, 추상적 추론 능력을 측정하는 ARC-AGI-2(Verified)에서는 37.6%, 비주얼 인식 포함 멀티모달 능력을 평가하는 MMMU(validation)에서는 80.7%를 달성했다.

소넷 4.5와 오푸스 4.5가 퍼즐 게임을 풀이하는 모습을 봐도 오푸스 4.5가 문제 해결 속도에서 앞선다는 점을 확인할 수 있다.

다국어 코딩 벤치마크인 SWE-bench Multilingual에서는 오푸스 4.5가 8개 프로그래밍 언어 중 7개에서 최고 성능을 기록했다. C 언어의 경우 오푸스 4.5는 83%, 소넷 4.5는 74%, 오푸스 4.1은 70%였다. Java에서는 오푸스 4.5가 90%, 소넷 4.5가 80%, 오푸스 4.1이 70%를 기록했다.

또 AI 에이전트에 점포 운영을 맡기는 Vending-Bench에서는 소넷 4.5보다 29% 높은 매출을 기록했다고 한다.

에이전트 능력 벤치마크인 τ2-bench에서는 오푸스 4.5에게 곤경에 처한 고객을 돕는 항공사 서비스 에이전트 역할을 부여하고 항공사가 베이식 이코노미 클래스 티켓 변경을 허용하지 않아 예약 변경을 거절해야 하는 상황을 가정했다. 이때 오푸스 4.5는 정책 제약을 회피하기 위해 먼저 베이식 이코노미 캐빈을 업그레이드한 뒤 항공편을 변경한다는 해결책을 도출했다. 앤트로픽 측은 이를 창의적 해결책을 도출한 것으로 모델이 보인 큰 진전이 드러난다고 평가했다.

안전성 면에서도 오푸스 4.5는 지금까지 공개된 모델 중 가장 견고하게 얼라인된 모델이라고 강조했다. 인간의 악용 요청 협조나 모델이 자발적으로 보일 수 있는 바람직하지 않은 행동 등 불일치 행동을 탐지하는 평가(Concerning behavior)에서는 오푸스 4.5 탐지율이 소넷 4.5나 하이쿠 4.5보다 낮아 더 높은 안전성을 보여줬다.

또 프롬프트 인젝션 공격에 대한 내성이 크게 향상됐으며 공격 성공률은 오푸스 4.5가 4.7%로 다른 모델 대비 가장 낮았다.

앤트로픽은 오푸스 4.5 성능을 최대한 활용하면서 더 효율적이고 유연한 개발을 위해 클로드 개발 플랫폼(Claude Developer Platform)을 개선했다고 밝혔다. 그 중에서도 오푸스 4.5와 같은 고성능 모델은 문제 해결 과정에서 필요한 절차가 줄어들어 불필요한 탐색과 추론이 감소하고 극적으로 적은 토큰으로 동등하거나 더 나은 결과를 낼 수 있다는 설명이다. 구체적으로 클로드 API에는 에포트(effort) 파라미터가 도입되어 개발자가 시간 비용 절감과 성능 극대화 사이의 트레이드오프를 자유롭게 선택할 수 있게 됐다. 또 컨텍스트 관리 및 메모리 기능이 크게 강화되어 에이전트적 작업에서의 성능이 비약적으로 향상됐다.

클로드 오푸스 4.5 도입과 함께 클로드 코드(Claude Code)에는 2가지 업그레이드가 추가됐다. 플랜 모드(Plan Mode)는 더 정확한 계획을 구성해 철저히 실행하도록 개선됐으며 실행 전 명확화를 위한 질문을 제기하고 사용자가 편집 가능한 plan.md 파일을 생성한다. 또 클로드 코드는 데스크톱 앱으로도 이용 가능해졌고 로컬 및 원격에서 여러 세션을 병렬 실행할 수 있게 됐다. 이를 통해 한 에이전트가 버그를 수정하는 동안 다른 에이전트가 깃허브를 조사하는 식 활용이 가능해진다.

아울러 클로드가 브라우저 탭 전체에서 작업을 처리할 수 있는 클로드 포 크롬(Claude for Chrome)이 모든 맥스 사용자에게 개방됐다. 지난 10월 공개된 클로드 포 엑셀(Claude for Excel)은 베타 접근 권한이 맥스, 팀, 엔터프라이즈 사용자 전체로 확대됐다.

오푸스 4.5는 앱, API, 주요 클라우드 플랫폼에서 이용 가능하며 API 가격은 입력 100만 토큰당 5달러, 출력 25달러로 설정됐다.

또 오푸스 4.5 접근 권한을 보유한 클로드 및 클로드 코드 사용자에게는 오푸스 고유의 이용 제한이 철폐됐다. 유료 플랜인 맥스 및 팀 프리미엄 사용자에 대해서는 전체 사용 제한이 상향되어 기존 소넷에서 사용하던 것과 거의 동일한 수준의 토큰량을 오푸스에서도 활용할 수 있게 됐다. 앤트로픽 측은 이런 제한 완화는 사용자가 오푸스 4.5를 일상 업무에서 원활하게 활용하기 위한 조치라고 설명했다. 관련 내용은 이곳에서 확인할 수 있다.