이 능력 좋아졌다…클로드 오퍼스 4.7 출시

앤트로픽이 클로드 오퍼스 4.7(Claude Opus 4.7)을 발표했다. 오퍼스 4.7은 오퍼스 4.6 후속 모델로 고도의 소프트웨어 개발 및 난이도 높은 작업에서 성능을 높였고 지시 추종성과 고해상도 이미지 처리 능력도 강화했다.

앤트로픽 측에 따르면 오퍼스 4.7은 복잡하고 장시간에 걸친 태스크를 엄밀하고 일관되게 처리할 수 있으며 지시를 더 정확하게 읽어내고 출력 결과를 응답 전에 검증하는 방식으로 동작한다. 초기 테스터로부터는 기존에는 면밀한 인간 감독이 필요했던 어려운 코딩 작업을 더 안심하고 맡길 수 있게 됐다는 평가가 나오고 있다.

다만 오퍼스 4.7은 지시 추종성 향상으로 인해 프롬프트에 대한 동작 방식이 달라졌으며 구버전 모델용으로 작성한 프롬프트를 그대로 입력하면 예상치 못한 결과를 반환하는 경우가 있어 앤트로픽은 프롬프트 및 실행 환경 재조정을 권고하고 있다.

이미지 인식 분야 주요 변경 사항으로는 고해상도 이미지 지원이 있다. 오퍼스 4.7은 장변 2576픽셀, 375만 화소까지의 이미지를 처리할 수 있게 됐으며 기존 클로드 모델 대비 3배 이상 정보량을 다룰 수 있다. 그 중에서도 세밀한 문자가 촘촘히 나열된 스크린샷 해독, 복잡한 도표에서의 데이터 추출, 픽셀 단위의 정합성이 요구되는 작업에 유용하다.

실제로 벤치마크에서 시각 추론 항목인 차트엑스 리즈닝(ChartX Reasoning)에서 오퍼스 4.7은 도구 없이 82.1%, 도구 사용 시 91.0%를 기록해 오퍼스 4.6의 69.1%, 84.7%에서 향상됐다. 코딩 분야에서도 SWE-벤치 프로(SWE-bench Pro)에서 64.3%, SWE-벤치 버리파이드(SWE-bench Verified)에서 87.6%, OS월드-버리파이드(OSWorld-Verified)에서 78.0%를 기록했으며 금융 분석 항목인 파이낸스 에이전트(Finance Agent)에서도 64.4%로 오퍼스 4.6을 웃도는 수치를 보였다.

지식 노동 관련 GDPVal-AA 벤치마크에서는 오퍼스 4.7이 GPT-5.4와 제미나이 3.1 프로를 뛰어넘는 결과를 냈다. 문서 추론 능력을 측정하는 오피스큐에이 프로(OfficeQA Pro)에서는 오퍼스 4.7이 오퍼스 4.6, GPT-5.4, 제미나이 3.1 프로보다 훨씬 높은 정확도를 기록했다.

한편 앤트로픽은 오퍼스 4.7이 자사 최상위 모델인 클로드 미토스 프리뷰(Claude Mythos Preview)만큼 광범위한 능력을 갖추지는 않는다고 설명했다. 미토스 프리뷰 공개는 제한적으로 유지하면서 우선 그보다 능력을 낮춘 오퍼스 4.7로 사이버 보안용 신규 안전 대책을 실지 검증하는 방침을 택했다. 위험한 사이버 용도를 나타내는 요청을 자동 감지해 차단하는 구조를 도입했으며 정당한 취약점 조사나 침투 테스트 등에 활용하는 전문가를 위한 사이버 베리피케이션 프로그램(Cyber Verification Program)도 신설했다.

안전성에 대해서는 전반적으로 오퍼스 4.6에 가까운 프로파일을 보이면서도 성실성과 악의적 프롬프트 인젝션에 대한 내성 면에서는 개선이 확인됐다. 다만 규제 약물 관련 지나치게 상세한 위해 저감 조언 등 일부 항목에서는 소폭 약한 면도 있으며 앤트로픽의 정합성 평가에서는 대체로 적절히 정합되고 신뢰할 수 있지만 동작은 아직 이상적이지 않다고 평가됐다.

오퍼스 4.7은 클로드 제품군 전체에 더해 앤트로픽 API, 아마존 베드록, 구글 클라우드 내 버텍스 AI(Vertex AI), 마이크로소프트 파운드리에서 이용할 수 있다. 가격은 오퍼스 4.6과 동일하게 100만 입력 토큰당 5달러, 100만 출력 토큰당 25달러다.

또 오퍼스 4.7은 토크나이저가 업데이트되면서 동일한 입력이라도 내용에 따라서는 오퍼스 4.6의 1~1.35배 수준까지 토큰 수가 늘어날 가능성이 있다. 또 높은 effort 설정에서는 에이전트 방식으로 활용할 때 후반 턴에서 사고량이 증가해 출력 토큰도 늘어나기 쉽다. 그럼에도 앤트로픽은 내부 코딩 평가에서 종합 효율은 개선됐다며 실제 운용 트래픽에서 차이를 확인하면서 단계적으로 전환할 것을 권고하고 있다.

한편 클로드 코드에서는 추론량을 세밀하게 조정할 수 있는 새로운 xhigh 설정과 코드 리뷰용 /ultrareview 커맨드, 맥스 사용자 대상 오토 모드(auto mode) 확장도 함께 발표됐다. 관련 내용은 이곳에서 확인할 수 있다.