앤트로픽 “AI 자기 개선 위험성” 경고

소프트웨어 개발 현장에서 엔지니어가 AI에 코드를 작성시키는 사례가 늘고 있다. 앤트로픽(Anthropic)은 이런 흐름이 AI 개발 자체에도 확산되고 있다며 AI가 차세대 AI를 설계해 더 강력한 AI를 낳는 재귀적 자기 개선의 위험성을 공식적으로 논했다.

앤트로픽이 2021년 창업했을 당시에는 인간이 클로드 코드와 문서를 직접 작성했다. 2023년 클로드가 일반에 공개되자 앤트로픽 직원도 클로드 개발에 클로드를 활용하기 시작했다. 초기 챗봇은 짧은 코드 스니펫 작성 등 프로세스 일부를 보조하는 방식으로 쓰였다.

앤트로픽 직원은 클로드가 생성한 코드를 활용하며 2025년 클로드 코드(Claude Code)를 완성했다. 클로드 코드는 스스로 코드를 작성·편집하고 필요에 따라 파일 전체를 다시 쓸 수도 있어 코딩 에이전트라는 활용 방식이 확산됐다.

클로드 코드로 클로드 개발 속도도 빨라졌다. 6월 현재 클로드는 코드를 직접 실행하거나 다른 에이전트에 수 시간 분량 작업을 위임할 수 있게 됐다. 앤트로픽 연구팀은 이 진화가 계속된다면 미래에는 클로드가 스스로 모델을 구축하고 훈련하는 능력을 갖춰 AI에 의한 자기 개선 루프가 완성될 것이라고 보고 있다.

실제로 AI 모델 성능 향상 속도는 가속되고 있다. AI가 자율적으로 확실히 완료할 수 있는 태스크 길이는 2024년 3월 4분에서 2025년 2월 90분, 올해 2월에는 720분으로 늘었다. 앤트로픽은 2026년 내에 수일 단위 태스크도 처리 가능해질 수 있다고 밝혔다.

앤트로픽 내부에서도 변화는 진행 중이다. 앤트로픽 활성 기여자 1인당 병합된 코드량 추이를 보면 2021년부터 2024년까지의 평균과 비교해 2025년 2월 클로드 코드가 연구 프리뷰로 공개된 이후 급격히 증가해 2026년 2분기에는 기존 8배에 달하고 있다. 올해 5월 현재 앤트로픽 코드베이스에 반영된 코드 80% 이상이 클로드에 의해 작성된 것으로 알려졌다.

다만 코드량 증가가 곧 품질 향상을 의미하지는 않는다. 앤트로픽도 코드 행 수는 품질이 아닌 양을 나타내는 지표이며 8배라는 수치를 그대로 생산성 향상폭으로 봐서는 안 된다고 설명했다. 그럼에도 엔지니어가 직접 코드를 작성하는 방식에서 클로드에 작업을 맡기고 결과를 확인하는 방식으로 전환되고 있다는 건 분명히 읽힌다.

코드 작성량이 늘면 다음 문제는 제대로 작동하느냐다. 작동하는 코드라 해도 버그나 보안 문제가 남아 있다면 개발 속도 향상이 그대로 리스크 확대로 이어진다. 이에 앤트로픽은 클로드 코드 세션이 얼마나 성공적으로 마무리되는지도 조사하고 있다.

앤트로픽 내부에서의 클로드 코드 세션 성공률을 보면 단순하거나 일상적인 태스크에서는 80% 후반까지 성공률이 올라갔으며 사양이 명확하지 않은 오픈엔드 문제에서도 5월 76%에 달했다.

앤트로픽은 클로드가 사양이 명확하지 않은 문제에 대응한 사례도 소개했다. 어느 날 일상적인 업그레이드 작업을 계기로 훈련 작업 수만 건이 충돌을 일으켰다. 엔지니어가 클로드에 상황을 설명하고 컴퓨팅 클러스터에 접근할 수 있도록 하자 클로드는 실행 중인 작업을 조사하며 환경 설정을 하나씩 시험해 원인을 추려나갔다. 그 결과 충돌 원인이 된 설정을 특정했으며 인간이라면 2~3일 걸릴 조사를 2시간 만에 마쳤다.

AI가 코드를 작성할 수 있을 뿐 아니라 실험을 직접 돌릴 수 있게 됐다는 점도 중요하다. 앤트로픽은 모델을 공개할 때마다 소형 AI 모델을 훈련하는 코드를 클로드에 넘기고 정확성을 유지하면서 실행 속도를 높이도록 요구하는 테스트를 진행하고 있다. 2025년 5월 클로드 오퍼스(Claude Opus) 4는 원본 코드를 평균 3배 고속화했지만 올해 4월 클로드 미토스 프리뷰(Claude Mythos Preview)는 52배에 달했다.

앤트로픽은 AI가 연구 방향 자체를 판단할 수 있는지도 조사하고 있다. 연구에서는 코드를 작성하는 능력만으로는 부족하다. 실험이 잘 되지 않을 때 다른 가설을 세울지, 현재 방침을 유지할지, 다른 문제로 넘어갈지 같은 판단도 필요하기 때문.

앤트로픽 연구자가 클로드 코드를 활용한 내부 세션 129건을 분석한 결과 연구자가 중간에 돌아간 장면을 추출해 각 모델에 다음에 무엇을 해야 하는지를 제안하게 하고 최종 결과를 아는 별도 클로드가 인간 판단과 AI 제안을 비교했다. 2025년 11월 클로드 오퍼스 4.5는 인간 다음 수보다 나은 제안을 51% 비율로 내놨다. 4월 클로드 미토스 프리뷰에서는 이 비율이 64%까지 올랐다.

다만 AI가 인간 연구자를 완전히 대체하는 수준에는 이르지 못했으며 6월 현재 클로드가 잘하는 건 인간이 제시한 목표에 맞춰 코드를 작성하고 실험을 실행하며 결과를 정리하는 작업이다. 앤트로픽은 인간에게는 어떤 연구 주제를 다뤄야 하는가, 어떤 결과를 신뢰해야 하는가, 막힌 방침을 언제 포기해야 하는가 같은 판단을 내리는 역할이 남아 있다고 지적했다.

다만 AI가 실험과 코드 작성을 빠르게 처리하게 되면 인간 확인과 판단이 개발 전체 병목이 된다. 전체 속도는 가장 느린 공정에 의해 제약되기 때문에 클로드가 대량 코드와 실험 결과를 만들어내도 인간이 다 확인하지 못하면 개발은 거기서 막힌다. 앤트로픽에 따르면 내부에서는 이미 코드 리뷰가 새로운 제약이 되고 있다고 한다.

앤트로픽은 향후 시나리오로 AI 능력 성장이 어느 시점에서 멈추는 미래, AI 기업이 AI를 통한 효율화를 거듭하면서 인간이 연구 방향을 계속 결정하는 미래, AI가 스스로의 후계 모델을 만들기 시작하는 미래 3가지를 제시했다. 그 중에서도 큰 위험으로 꼽힌 건 AI가 AI를 만드는 루프가 완성되는 경우다. AI가 차세대 AI를 개발하고 그 AI가 다시 다음 세대를 개발하게 되면 능력 향상 속도가 인간의 감독 능력을 넘어서 안전성 확인이나 문제 발견이 따라가지 못할 가능성이 있다는 것.

물론 앤트로픽이 AI 개발을 단순히 멈춰야 한다고 주장하는 건 아니다. 신중한 기업만이 개발을 멈추고 신중하지 않은 조직이나 정부가 먼저 나아간다면 오히려 안전성이 떨어질 우려도 있다. 따라서 복수 AI 개발 조직이 동일한 조건으로 속도 감소나 일시 중지에 합의하고 실제로 이행되고 있다는 걸 확인할 수 있는 체계가 필요하다고 밝혔다.

대규모 AI 개발의 중단을 확인하는 체계는 쉽지 않다. AI 훈련은 미사일 기지처럼 외부에서 발견하기 쉬운 게 아니고 컴퓨팅 자원이나 데이터도 일반 용도와 겹친다. 앤트로픽은 신뢰할 수 있는 일시 중지를 위해서는 무엇을 계기로 멈출지, 무엇을 충족하면 재개할 수 있는지, 누가 판단할지를 결정해야 한다고 설명했다.

앤트로픽은 앞으로 정책 입안자, 연구자, 다른 AI 기업, 시민사회와 대화를 나누며 AI가 AI를 만드는 시대에 대비한 규칙과 협력 방안을 검토해 나갈 방침이다. 관련 내용은 이곳에서 확인할 수 있다.