LLM 숨겨진 정보‧기능 훔치는 공격 기술?

구글 딥마인드, 취리히공대, 워싱턴대, 구글리서치, 코넬대, 오픈AI 등 공동 연구팀이 ChatGPT나 구글 PaLM-2 같은 대규모언어모델(LLM)로부터 기밀 정보와 일부 기능을 탈취할 수 있는 모델 절도 공격(model-stealing attack) 기법을 발표했다.

이 공격 기법은 2020년 처음 발견했지만 2023년이 되어서야 실제 LLM API에서 유효하다는 걸 확인했다. 연구팀은 해당 공격법 개념 증명을 2023년 11월 실시했고 12월 취약점이 확인된 다수 서비스 업체에 알렸다. 구글과 오픈AI도 업데이트를 통해 대응했다.

연구팀은 실제로 GPT-3 일부 모델에 대해 이 공격을 가해 최종층 전체를 탈취하는 데 성공했다. GPT-3.5 계열 모델도 취약한 것으로 확인됐다.

Google announces Stealing Part of a Production Language Model

We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI's ChatGPT or Google's PaLM-2. Specifically, our attack recovers the… pic.twitter.com/bgBCTYywWN
— AK (@_akhaliq) March 12, 2024