x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

구글 딥마인드, 취리히공대, 워싱턴대, 구글리서치, 코넬대, 오픈AI 등 공동 연구팀이 ChatGPT나 구글 PaLM-2 같은 대규모언어모델(LLM)로부터 기밀 정보와 일부 기능을 탈취할 수 있는 모델 절도 공격(model-stealing attack) 기법을 발표했다.

이 공격 기법은 2020년 처음 발견했지만 2023년이 되어서야 실제 LLM API에서 유효하다는 걸 확인했다. 연구팀은 해당 공격법 개념 증명을 2023년 11월 실시했고 12월 취약점이 확인된 다수 서비스 업체에 알렸다. 구글과 오픈AI도 업데이트를 통해 대응했다.

연구팀은 실제로 GPT-3 일부 모델에 대해 이 공격을 가해 최종층 전체를 탈취하는 데 성공했다. GPT-3.5 계열 모델도 취약한 것으로 확인됐다.

다만 연구팀은 해당 공격으로 전체 모델을 완전히 복원하기는 어렵다고 지적했다. 성공 이유로 일부 업체 API 설계 결함을 꼽았으며 앞으로 더 실용적인 공격 기법이 나올 것이라고 경고하고 있다.

연구팀은 보안을 고려한 AI API 설계 중요성을 강조하고 있다. 이번 사례를 통해 AI 모델에 대한 보안 취약성과 새로운 위협이 부각됐다고 할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post