풀 리퀘스트 버그 자동 감지…앤트로픽, 코드 리뷰 발표

앤트로픽이 인간 리뷰 담당자도 놓치기 쉬운 버그까지 감지할 수 있다고 밝힌 고도의 멀티 에이전트 리뷰 시스템인 코드 리뷰(Code Review)를 발표했다.

코드 리뷰는 생성된 풀 리퀘스트에 AI 에이전트 팀을 투입해 표면적인 확인으로는 놓치기 쉬운 버그를 발견하는 시스템. 에이전트는 버그를 탐색하고, 오탐지를 줄이기 위한 검증을 수행하며 중요도에 따라 버그를 순위화한다. 그 결과는 풀 리퀘스트 상에 요약 코멘트 하나로 게시되며 구체적인 버그에 대해서는 인라인 코멘트가 추가된다. 실제로 풀 리퀘스트를 승인할지 여부는 사용자 판단에 맡긴다.

리뷰 규모는 PR 내용에 따라 달라진다. 크거나 복잡한 변경에는 더 많은 에이전트가 배정되어 더 심층적인 리뷰가 이뤄지며 경미한 변경에는 간략한 리뷰가 실시된다.

앤트로픽은 발표 수개월 전부터 사내에서 코드 리뷰를 운용해왔으며 변경 라인 수가 1,000줄 이상인 대규모 풀 리퀘스트에서는 84%에서 문제를 감지하고 평균 7.5건을 발견했다고 밝혔다. 반면 50줄 미만 소규모 풀 리퀘스트에서는 감지율 31%, 평균 0.5건이었다. 엔지니어 대다수는 감지 내용에 동의했으며 오류라는 지적은 1% 미만이었다고 한다. 테스트에서 평균 리뷰 시간은 20분이었다.

Introducing Code Review, a new feature for Claude Code.

When a PR opens, Claude dispatches a team of agents to hunt for bugs. pic.twitter.com/AL2J4efxPw

— Claude (@claudeai) March 9, 2026

앤트로픽에 따르면 자사 엔지니어 1인당 코드 출력량이 지난 1년간 200% 증가한 결과 코드 리뷰가 병목 현상을 일으키고 있었으며 고객으로부터도 같은 이야기를 들었다고 한다. 이로 인해 모든 풀 리퀘스트를 안심하고 맡길 수 있는 리뷰어 필요성이 대두됐고 그 결과 탄생한 게 코드 리뷰라고 설명했다.

앤트로픽은 코드 리뷰를 속도가 아닌 깊이를 중시한 설계라고 소개했다. 철저한 리뷰를 수행하는 만큼 비용이 높아져 보통 1회당 15~25달러 어치 토큰을 소비한다고 밝혔다. 이 높은 비용에 주목한 오픈AI 직원은 리뷰 1건당 25달러를 내고 싶지 않다면 오픈AI 제품을 사용하라며 자사 제품을 홍보하기도 했다.

코드 리뷰는 팀, 엔터프라이즈 플랜을 대상으로 베타 버전 리서치 프리뷰(research preview)로 이용할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.