클로드 미토스 프리뷰, 英 기관이 사이버 공격 자율 수행 입증

AI 기업 앤트로픽(Anthropic)은 4월 27일 AI 모델인 클로드 미토스 프리뷰(Claude Mythos Preview)를 발표했다. 클로드 미토스 프리뷰는 사이버 공격 성능이 지나치게 높다는 이유로 일반에 공개되지 않으며 일부 조직을 대상으로 사이버 보안 강화를 목적으로 한정 공개되고 있다. 이런 클로드 미토스 프리뷰에 대해 영국 정부 기관인 AISI(AI Security Institute)가 사이버 공격 성능 검증 결과를 공개했다.

클로드 미토스 프리뷰는 클로드 오퍼스 4.6을 크게 상회하는 추론 성능과 코딩 에이전트 성능을 갖춘 AI 모델로 가장 큰 특징은 사이버 공격 성능이 높다는 점이다. 클로드 미토스 프리뷰는 리눅스 커널과 파이어폭스 같은 저명한 소프트웨어에 존재하는 취약점을 잇따라 발견하고 실제 공격에 활용 가능한 익스플로잇까지 작성할 수 있는 것으로 알려졌다. 앤트로픽은 클로드 미토스 프리뷰를 일반 공개하지 않고 사이버 보안 강화를 목적으로 하는 일부 조직에만 제공하기로 결정했다.

AISI는 클로드 미토스 프리뷰를 포함한 각종 AI 모델을 대상으로 대상 시스템 취약점을 악용해 숨겨진 정보를 획득하는 CTF(Capture the Flag) 형식 사이버 공격 성능 테스트를 실시했다. 테스트는 비전문가(Technical non-expert), 견습(Apprentice), 실무자(Practitioner), 숙련자(Expert) 4단계 난이도로 구성됐다.

결과가 정체된 비전문가 레벨 테스트에서는 GPT-5가 가장 높은 성공률을 기록했지만 견습 레벨 테스트에서는 클로드 미토스 프리뷰가 가장 높은 성공률을 기록했다. 그 뿐 아니라 클로드 미토스 프리뷰는 숙련자 레벨 테스트에서 73%라는 높은 성공률을 기록했다.

AISI는 TLO(The Last Ones)라고 명명한 테스트도 실시했다. TLO는 초기 정찰부터 네트워크 완전 장악까지를 망라하는 32단계 기업 네트워크 공격 시뮬레이션을 AI가 자율 수행하도록 하는 테스트. TLO 테스트 내용은 인간이라면 20시간이 소요될 것으로 추정된다.

TLO 결과 다른 모델은 1억 토큰을 소비해도 TLO를 완료하지 못했지만 클로드 미토스 프리뷰는 10회 시도 중 3회에서 TLO를 완료하는 데 성공했다. 10회 평균 도달 스텝 수는 22였다. 또 테스트는 1억 토큰에서 종료됐지만 클로드 미토스 프리뷰 태스크 진행도는 정체되지 않아 더 많은 토큰을 소비할 경우 도달 스텝 수가 향상될 것으로 추측된다.

AISI는 클로드 미토스 프리뷰는 적어도 네트워크 접근 권한을 획득해 취약한 소규모 엔터프라이즈 시스템에 대한 자율적인 공격을 실행할 수 있음이 입증됐다고 밝혔다. 한편 이번 테스트 내용에는 AI 모델이 보안 알림을 트리거하는 행동을 취해도 페널티가 없다는 제약이 존재했다고 한다. 이 때문에 AISI는 활성화된 보안 툴과 보안 담당자가 존재하는 충분히 방어된 시스템을 공격할 수 있는지는 단언할 수 없다고 지적했다. 관련 내용은 이곳에서 확인할 수 있다.