x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

마이크로소프트 연구진이 챗GPT나 구글 제미나이 등 AI 챗봇을 지원하는 대규모 언어모델(LLM)에서 암호화된 통신으로부터도 대화 주제를 추측할 수 있게 하는 취약점인 위스퍼 리크(Whisper Leak)를 보고했다. 위스퍼 리크는 테스트된 28종류의 LLM 대부분에 영향을 미치는 것으로 확인됐다.

보통 AI 어시스턴트와의 채팅 정보는 온라인 뱅킹 등에서 사용되는 것과 동일한 TLS(Transport Layer Security)라는 암호화 기술로 보호되고 있다. 이를 통해 통신 내용은 도청자로부터 숨겨진다.

하지만 위스퍼 리크 공격은 이 암호화를 깨는 것이 아니라 TLS 암호화가 숨길 수 없는 메타데이터를 악용한다. 구체적으로 LLM이 응답을 생성할 때 사용자 경험을 향상시키기 위해 스트리밍이라는 기법을 사용해 생성한 토큰을 즉시 또는 작은 배치로 전송한다.

TLS 암호화 방식은 통신 내용 크기와 암호화 후 패킷 크기가 거의 비례한다는 특성을 가지고 있다. 따라서 암호화된 트래픽이라 해도 전송되는 일련의 패킷 크기와 전송 타이밍 패턴은 네트워크를 모니터링하는 공격자가 관측할 수 있다. 위스퍼 리크는 이렇게 유출된 메타데이터 패턴을 분석한다.

연구팀은 이 취약점을 실증하기 위해 먼저 2종류 질문 세트를 작성했다. 하나는 돈세탁 합법성이라는 특정 화제에 관한 100종류 서로 다른 표현 질문 세트이고 다른 하나는 질의응답 사이트 쿼라(Quora) 데이터세트에서 추출한 1만 1,716건에 이르는 무작위 일상적 쿼리로 이들을 주요 LLM에 전송하고 그때 암호화된 네트워크 트래픽을 기록했다. 또 수집한 메타데이터만을 사용해 해당 대화가 특정 화제에 관한 것인지 아닌지를 식별하기 위해 LightGBM, LSTM, BERT 기반 머신러닝 분류기를 훈련시켰다.

실험 결과 조사한 28종류 AI 모델 중 17종류에서 공격 성공률이 98%를 초과하는 높은 수치가 나왔으며 연구팀은 위스퍼 리크가 효과적인 공격 기법이라고 논했다. 반면 구글 제미나이나 아마존 노바 같은 일부 모델은 다른 모델에 비해 점수가 낮은 경향이 있어 비교적 위스퍼 리크에 대한 내성이 있다고도 할 수 있다.

연구팀은 나아가 더 현실적인 상황을 가정하기 위해 일상 대화 1만 건 중 단 1건만 특정 화제에 관한 대화가 섞여 있는 상황을 시뮬레이션했다. 그 결과 28개 모델 중 17개 모델에서 공격자가 실제 대화에 포함된 5%~20% 특정 대화를 특정할 수 있다는 게 판명됐다. 다시 말해 위스퍼 리크 공격자는 특정 토픽에 대해 이야기하고 있는 사용자를 정확히 특정할 가능성이 있다는 것이다.

연구팀은 위스퍼 리크는 인터넷 서비스 프로바이더나 정부 기관, 또는 카페 와이파이 같은 로컬 네트워크 감시자 등 암호화된 트래픽을 모니터링할 수 있는 수동적 공격자에 의해 실행될 가능성이 있다며 업계는 미래 시스템 보안을 확보할 필요가 있다면서 AI 시스템이 점점 더 민감한 정보를 다루게 됨에 따라 LLM 프로바이더는 메타데이터 유출에 대처해야 한다는 점을 이번 연구 결과가 강조하고 있다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post