“코딩‧재무 처리‧문서 작성까지” 앤트로픽, 클로드 오푸스 4.6 발표

앤트로픽이 자사가 보유한 가장 고성능 AI 모델 직접 업그레이드 버전인 클로드 오푸스 4.6(Claude Opus 4.6)을 발표했다. 이 신모델 투입으로 클로드 오푸스 4.6을 단순한 차세대 모델로서가 아니라 개발자용 클로드 코드에 더해 비기술직을 포함한 업무 전체에 침투하기 위한 제품군과 함께 내세우는 움직임을 보이고 있다.

클로드 오푸스 4.6은 전세대 모델로부터 긴 작업을 중간에 무너뜨리지 않고 진행하는 방향으로 강화된 모델로 더 꼼꼼하게 계획을 세울 수 있게 됐으며 에이전트적인 장시간 태스크를 더 오래 유지할 수 있고 대규모 코드베이스에서도 안정적으로 작동하기 쉬워졌다고 한다. 더구나 코드 리뷰와 디버깅도 개선되어 자신의 실수를 발견하고 수정하는 능력이 향상됐다는 설명이다.

코딩 뿐 아니라 재무 분석과 조사, 문서, 스프레드시트, 프레젠테이션 작성과 같은 일상 업무에 관한 성능도 개선되어 첫 출력부터 더욱 정돈된 결과물이 나오기 쉬워졌다고 한다.

클로드 오푸스 4.6은 또 오푸스급 모델로서는 처음으로 100만 토큰 컨텍스트 윈도가 베타 버전으로 도입되어 대규모 코드베이스나 방대한 문서군을 다루는 능력이 비약적으로 향상됐다. 더 나아가 태스크 난이도에 맞춰 추론 깊이를 조정하는 어댑티브 씽킹 기능이 추가되어 복잡한 멀티스텝 과제에 대해서도 인간 수정을 거의 필요로 하지 않는 완성도 높은 결과물을 초회부터 출력할 수 있게 됐다.

앤트로픽 측은 성능 평가에서도 클로드 오푸스 4.6은 업계를 리드하는 수많은 기록을 세웠다고 어필했다. 경제적으로 가치 있는 지식 작업 능력을 측정하는 벤치마크 GDPval-AA에서는 전세대 모델 1416 Elo에서 190포인트나 상승한 1606 Elo라는 경이적인 점수를 달성했다.

또 에이전트 코딩 능력을 측정하는 Terminal-Bench 2.0에서 최고 득점을 기록했으며 학제적인 고도의 추론을 필요로 하는 Humanity’s Last Exam에서도 다른 프론티어 모델을 뛰어넘는 성적을 거뒀다. 이런 결과는 단순한 지식량 뿐 아니라 현실 세계의 복잡한 워크플로를 완수하는 실전적인 능력이 대폭 강화됐다는 설명이다.

금융 분야에 대한 특화도 큰 특징 가운데 하나다. 투자와 재무 분석의 50가지 유스케이스를 대상으로 한 자체 평가 지표(Real-World Finance)에서 전 모델 58.4%를 상회하는 64.1% 정답률을 기록했다. 이를 통해 재무 모델 구축과 슬라이드 자료 작성, 복잡한 계약서 검토와 같은 태스크를 더 정확하게 해낼 수 있게 됐다.

그 중에서도 엑셀과의 연계에서는 계산 모델이 복잡해져도 정확도를 떨어뜨리지 않고 장시간 태스크에 집중할 수 있는 능력이 갖춰져 있으며 새롭게 연구 프리뷰로서 공개된 파워포인트용 기능과 함께 활용하면 금융 애널리스트 업무 효율을 극적으로 개선할 것으로 기대되고 있다.

AI에 의한 자율적인 소프트웨어 개발 가능성을 실증하는 프로젝트로 에이전트 팀이라는 수법을 활용한 실험 결과가 공개됐다.

앤트로픽이 16개 클로드 오푸스 4.6 인스턴스를 병렬로 작동시켜 인간이 상세한 지시를 주지 않고 공동 작업을 하게 한 결과 Rust 언어를 사용해 10만 행 규모 C 컴파일러를 제로부터 구축하는 데 성공했다고 한다.

이 컴파일러는 실제로 x86, ARM, RISC-V상에서 리눅스 6.9을 빌드 가능한 성능을 보유하고 있으며 2,000회 세션을 통해 자율적으로 개발이 진행됐다. 이 일련의 프로세스에 투입된 API 비용은 2만 달러에 달하며 향후 AI가 대규모 코드베이스를 자율적으로 유지·관리할 수 있는 가능성을 시사하고 있다.

클로드 오푸스 4.6은 비즈니스 유저 및 개인 유저 대상으로 폭넓게 제공이 시작됐으며 유료 모델(Pro, Max, Team, Enterprise) 사용자가 액세스 가능하다. API 가격 체계는 전세대 오푸스 4.5에서 동결됐으며 100만 토큰당 요금은 입력이 5달러, 출력이 25달러다. 다만 100만 토큰에 이르는 광대한 컨텍스트 윈도를 활용한 대규모 처리를 수행할 경우 20만 토큰을 초과하는 입력에 대해서는 할증 요금이 적용되어 입력이 10달러, 출력이 37.5달러가 된다.

또 클로드 오푸스 4.6은 안전성에 대해서도 AI 안전성 레벨 3(ASL-3)이라는 높은 기준을 유지하고 있어, 고도의 지능과 안전한 운용 양립이 도모되고 있다. 관련 내용은 이곳에서 확인할 수 있다.