앤트로픽 “中 기업, 클로드 능력 불법 추출하고 있다”

AI 챗봇 클로드(Claude)를 개발한 앤트로픽이 자사 블로그를 통해 중국에 본사를 둔 AI 기업 딥시크(DeepSeek), 문샷(Moonshot), 미니맥스(MiniMax)가 자사 모델 성능 향상을 위해 클로드 능력을 불법 추출하는 대규모 캠페인을 벌이고 있다고 주장했다. 앤트로픽은 해당 3개 기업이 2만 4,000개 불법 계정을 통해 클로드와 1,600만 회 이상 세션을 진행했으며 이용 약관 및 지역 접근 제한을 위반했다고 밝혔다.

지목된 3개 기업은 성능이 더 높은 모델 출력을 활용해 자사 모델을 학습시키는 증류(distillation)를 수행한 것으로 알려졌다. 앤트로픽은 증류는 널리 활용되는 합법적인 학습 기법으로 예를 들어 최첨단 AI 연구소는 고객을 위한 소형·저비용 버전을 만들기 위해 자사 모델을 일상적으로 증류한다며 하지만 증류는 불법적인 목적으로도 활용될 수 있다고 밝혔다. 이어 경쟁사는 이를 이용해 타사 AI 모델 능력을 독자 개발에 드는 시간과 비용의 극히 일부만으로 확보할 수 있다고 설명했다.

앤트로픽에 따르면 딥시크 캠페인은 15만 회 이상 상호작용에 달했으며 다양한 태스크에서의 추론 능력, 클로드를 강화 학습 보상 모델로 활용하기 위한 루브릭 기반 평가 태스크, 정책과 관련된 민감한 쿼리에 대한 검열 우회 대안 생성을 주요 표적으로 삼았다.

딥시크는 여러 계정 간에 동기화된 트래픽을 생성하고 동일한 패턴과 공통 결제 수단, 조율된 타이밍을 활용해 처리량 향상 및 탐지 회피를 목적으로 한 로드 밸런싱을 수행했다고 앤트로픽은 주장했다. 앤트로픽은 그 중에서도 딥시크는 클로드에게 답변에 대한 내부적 추론 과정을 단계별로 작성하도록 유도하는 프롬프트를 사용해 사고 연쇄(Chain-of-Thought) 학습 데이터를 대규모로 생성했다고 주장했다.

또 반체제 인사, 정당 지도자, 권위주의에 관한 정치적으로 민감한 질문에 대해 검열을 우회한 답변을 생성하게 하고 자사 모델이 검열 대상 주제로부터 대화를 돌리도록 학습시킨 정황도 확인됐다고 밝혔다. 앤트로픽 측은 해당 계정은 요청 메타데이터를 통해 딥시크 특정 연구자와 연결된 것으로 보고했다.

문샷 캠페인은 340만 회 이상 세션으로 구성됐으며 에이전트 추론과 툴 사용, 코딩 및 데이터 분석, 컴퓨터 사용 에이전트 개발, 컴퓨터 비전이 주요 표적이었다. 문샷 키미(Kimi) 모델은 여러 접근 경로에 걸쳐 수백 개 불법 계정을 활용했으며 다양한 계정 유형을 번갈아 사용해 조직적인 운용을 탐지하기 어렵게 만든 것으로 보인다.

앤트로픽은 문샷이 클로드 추론 흔적을 추출해 재구성하려는 보다 표적화된 접근 방식도 시도했다고 지적했다. 앤트로픽 측은 또 요청 메타데이터가 문샷 고위 직원 공개 프로필과 일치해 해당 기업 소행으로 특정됐다고 밝혔다.

미니맥스 캠페인은 1,300만 회 이상 세션으로 가장 규모가 컸으며 에이전트 기반 코딩, 툴 사용 및 오케스트레이션이 주요 표적이었다. 이 캠페인은 요청 메타데이터, 인프라 지표, 공개 제품 로드맵과의 대조를 통해 미니맥스 소행으로 단정됐다.

앤트로픽은 미니맥스가 학습 중인 모델을 출시하기 전 활동 단계에서 이 캠페인을 탐지했으며 데이터 생성부터 모델 출시에 이르기까지 증류 공격 전체 생애 주기를 상세히 파악하는 데 성공했다고 밝혔다. 또 앤트로픽이 새 모델을 출시했을 때 미니맥스는 24시간 이내에 트래픽 절반 가량을 최신 시스템 능력 추출에 집중시키는 빠른 대응을 보였다고 전했다.

앤트로픽은 국가 안보상 이유로 앤트로픽은 중국 내 클로드 및 중국 외부에 있는 자회사에 대한 상업적 접근을 제공하지 않는다며 클로드를 비롯한 최첨단 AI 모델에 중국에서 접근하기 위한 상업용 프록시 서비스가 이용되고 있다고 주장했다.

앤트로픽은 이들 상업용 프록시 서비스는 히드라 클러스터(Hydra Cluster)라고 불리는 아키텍처를 운용하며 네트워크가 광범위하게 퍼져 있어 시스템 전체를 중단시킬 수 있는 단일 장애 지점이 존재하지 않는 게 특징이라고 설명했다. 특정 계정이 이용 금지되더라도 즉시 새 계정이 생성되어 해당 역할을 대신하는 구조라는 지적이다.

앤트로픽은 증류 공격 실행을 어렵게 하고 탐지를 용이하게 하기 위한 방어 수단에 지속적으로 대규모 투자를 이어가겠다고 밝혔다. 구체적인 조치로는 API 트래픽 내 공격 패턴을 식별하기 위한 분류기 및 핑거프린트 시스템 구축, 사고 연쇄를 유도하는 기법 탐지, 대량 계정을 이용한 조직적 활동 탐지 등이 포함된다.

또 기술적 지표를 다른 AI 연구소, 클라우드 프로바이더, 관계 당국과 공유해 상황을 종합적으로 파악하는 한편 불법 계정 생성에 악용되기 쉬운 교육용 및 스타트업 계정 본인 확인을 강화하겠다고 밝혔다.

아울러 정규 이용자 편의를 유지하면서도 부당한 증류에 대한 모델 출력의 유효성을 낮추는 제품, API, 모델 수준 보호 조치 개발도 추진 중이다. 앤트로픽은 이 문제를 단독으로 해결하는 건 불가능하다고 보고 AI 업계 전반과 클라우드 프로바이더, 정책 입안자의 빠르고 협력적인 대응을 촉구하며 이를 위한 증거를 공개했다. 관련 내용은 이곳에서 확인할 수 있다.