x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

앤트로픽이 클로드 오퍼스 4.7(Claude Opus 4.7)의 업그레이드 버전인 클로드 오퍼스 4.8을 발표했다. 클로드 오퍼스 4.8은 에이전트형 코딩, 복수 분야에 걸친 추론, 컴퓨터 조작, 지식 노동, 금융 분석 등에서 성능이 향상됐다.

앤트로픽에 따르면 클로드 오퍼스 4.8은 오퍼스 4.7을 기반으로 각종 벤치마크에서 개선을 이룬 모델로 보다 효과적인 협력자로 설계됐다. 성능 면에서 오퍼스 4.8은 SWE-벤치 프로(SWE-Bench Pro)에서 69.2%를 기록해 오퍼스 4.7 64.3%, GPT-5.5 58.6%, 제미나이 3.1 프로(Gemini 3.1 Pro) 54.2%를 웃돌았다. 반면 터미널-벤치 2.1(Terminal-Bench 2.1)에서는 오퍼스 4.8이 74.6%인 데 비해 GPT-5.5가 78.2%로 온디바이스 코딩 과제에서는 GPT-5.5가 앞섰다.

또 오퍼스 4.8은 휴머니티스 라스트 이그잼(Humanity’s Last Exam)에서 49.8%, 드라코(DRACO)에서 57.9%, OS월드-베리파이드(OSWorld-Verified)에서 83.4%, GPQA-AA에서 1890점, 파이낸스 에이전트 v2(Finance Agent v2)에서 53.9%를 기록했다. 이는 모두 오퍼스 4.7을 웃도는 수치로 그 중에서도 실용적인 지식 작업과 에이전트형 작업에서 개선이 두드러졌다.

초기 테스터는 오퍼스 4.8에 대해 에이전트형 태스크를 수행할 때 더 신뢰할 수 있고 판단이 예리하다고 평가했다. 한 테스터는 클로드 코드에서 복잡한 변경을 가하기 전에 적절한 질문을 하고 스스로 실수를 찾아내며 불확실한 계획에는 반론을 제기하는 경향이 있다고 밝혔다.

이번 주요 개선 사항 중 하나는 신뢰성. 앤트로픽은 오퍼스 4.8이 작업 중 불확실성을 명시하기 쉽고 근거 없는 주장을 하기 어렵게 됐으며 자신이 작성한 코드 결함을 그냥 넘기는 경향이 이전 세대 모델의 4분의 1 수준으로 줄었다고 설명했다.

안전성 평가에서 오퍼스 4.8은 사용자 자율성을 존중하고 사용자 이익에 부합하는 방향으로 행동하는 친사회적 특성에서 높은 평가를 받았다. 또 기만이나 악용에 가담하는 등 비정합적 행동은 오퍼스 4.7보다 적었으며 앤트로픽이 가장 정합성이 높은 모델로 꼽는 클로드 미토스 프리뷰(Claude Mythos Preview)에 근접한 수준이었다.

다만 오퍼스 4.8은 거의 모든 능력 평가에서 오퍼스 4.7을 앞지른 반면 앤트로픽이 보유한 최고 성능 모델인 클로드 마이토스 프리뷰에는 미치지 못했다. 또 프롬프트 인젝션(prompt injection) 등 일부 에이전트 환경에서는 오퍼스 4.7보다 견고성이 다소 낮은 경우도 있었다고 보고됐다.

앤트로픽은 클로드 오퍼스 4.8과 함께 클로드 코드용 다이내믹 워크플로우(dynamic workflows’도 리서치 프리뷰로 도입했다. 이 기능을 통해 클로드가 작업 계획을 수립하고 한 세션 내에서 수백 개에 이르는 병렬 서브에이전트를 구동해 대규모 코드베이스 이전과 같은 작업을 수행한 뒤 결과를 검증할 수 있게 됐다.

아울러 클로드닷에이아이(Claude.ai)와 클로드 코워크(Claude Cowork)에는 에포트 컨트롤(effort control)도 추가됐다. 이는 클로드가 응답에 얼마나 깊이 생각할지를 사용자가 조절할 수 있는 기능으로 낮은 설정에서는 응답이 빨라지고 레이트 리밋(rate limit) 소비도 줄어드는 반면 높은 설정에서는 더 깊이 사고해 품질을 높이는 방식이다.

오퍼스 4.8 기본값은 하이 에포트(high effort)로 앤트로픽은 이 설정이 품질과 사용자 경험의 균형이 가장 좋다고 밝혔다. 어려운 태스크나 장시간 실행되는 비동기 워크플로우에는 엑스트라(extra) 또는 클로드 코드에서 xhigh로 불리는 설정이 권장되며 클로드 코드에서는 높은 에포트 설정에 따른 토큰 소비에 대응하기 위해 레이트 리밋도 상향 조정됐다.

개발자를 위해서는 메시지 API(Messages API)에서 메시지 배열 내에 시스템 항목(system entries)을 포함할 수 있게 됐다. 이를 통해 프롬프트 캐시를 깨거나 사용자 턴을 거치지 않고도 에이전트 실행 중에 권한, 토큰 예산, 실행 환경 맥락 등을 업데이트할 수 있다.

클로드 오퍼스 4.8 일반 이용 요금은 오퍼스 4.7과 동일하게 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 25달러다. 고속 모드는 입력 토큰 100만 개당 10달러, 출력 토큰 100만 개당 50달러이며 개발자는 클로드 API에서 claude-opus-4-8로 이용할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post