GPT-5.5, 네트워크 완전 탈취 공격 자율 성공

영국 정부 산하 기관인 AI 안보 연구소(AI Security Institute)의가 실시한사이버 공격 성능 검증에서 GPT-5.5가 네트워크 완전 장악 공격을 성공시킬 수 있는 성능을 갖추고 있다는 게 밝혀졌다.

AISI는 복수 테스트를 지속적으로 실시해 AI의 사이버 공격 성능 변화를 기록하고 있다. 지난 4월에 출시된 미토스 프리뷰(Claude Mythos Preview)는 높은 정확도를 보여 기업 네트워크에 대한 장악 공격을 시뮬레이션한 TLO(The Last Ones)라는 테스트도 완수했다. TLO 공격 테스트는 32단계로 나뉘어 있으며 인간이라면 20시간이 걸리는 수준으로 지금까지 어떤 AI 모델도 완수한 사례가 없었다.

이번에 AISI는 미토스 프리뷰가 TLO에 성공한 게 특정 모델에만 국한된 돌파구인지 아니면 AI 전반적 흐름인지 확인하는 차원에서 오픈AI가 출시한 GPT-5.5에 대한 평가를 실시했다.

GPT-5.5는 미토스 프리뷰와 마찬가지로 평균적으로 32개 단계 중 22단계까지 도달해 미토스 프리뷰에 이어 TLO에 성공했다. 미토스 프리뷰는 10회 시도 중 3회, GPT-5.5는 10회 시도 중 2회가 성공이었다.

OpenAI’s GPT-5.5 is the second model to complete one of our multi-step cyber-attack simulations end-to-end 🧵 pic.twitter.com/eQWYbYaa6w

— AI Security Institute (@AISecurityInst) April 30, 2026

GPT-5.5는 TLO 이외 테스트에서도 높은 성적을 거뒀다. 타깃 시스템 내 숨겨진 정보를 획득하는 CTF(Capture The Flag) 형식 사이버 공격 성능 테스트 중 위에서 2번째 난이도인 실무자(Practitioner)와 최고 난이도인 숙련자(Expert) 성공률을 보면 GPT-5.5의 숙련자 레벨 평균 성공률은 71%였다고 한다.

커스텀 가상 머신을 리버스 엔지니어링하는 가장 난이도가 높은 과제의 경우 인간 전문가라면 12시간이 걸리지만 GPT-5.5는 1.73달러를 들여 11분 미만으로 해결했다.

이번 결과에 대해 AISI는, 어디까지나 통제된 환경에서의 성능 평가이며 테스트 환경에 능동적인 방어자나 방어 도구가 부족하기 때문에 충분히 방어된 표적에 대해 GPT-5.5가 공격을 성공시킬 수 있는지 여부는 판단할 수 없다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.