
구글이 차등 개인 정보(differential privacy. DP)라고 불리는 기술을 사용해 처음부터 학습시킨 자사 첫 프라이버시 보호 특화 대규모 언어모델(LLM)인 볼트젬마(VaultGemma)를 발표했다. 이는 AI 모델이 학습 데이터의 내용을 기억해 의도치 않게 출력해버리는 프라이버시상 위험에 대처하는 걸 목적으로 한다.
볼트젬마는 구글 오픈 모델 패밀리인 젬마(Gemma)를 기반으로 하고 있으며 파라미터 수는 10억개다. 볼트젬마가 지닌 가장 큰 특징은 차등 개인 정보를 모델 사전 학습 전 단계에 적용하고 있는 점이다.
차등 개인 정보는 수학적으로 보정된 노이즈를 학습 과정에 추가해 개별 학습 데이터가 최종 모델에 미치는 영향을 제한하고 특정 정보가 기억되는 것을 방지하는 기술. 이를 통해 볼트젬마는 학습 데이터에 대해 강력한 프라이버시 보장을 제공한다.
다만 차등 개인 정보를 LLM 학습에 적용하는 데는 과제도 따른다. 예를 들어 노이즈 추가는 모델 성능 저하나 학습 안정성, 계산 비용 증가와 같은 트레이드오프를 발생시킨다. 이런 과제를 극복하기 위해 구글 연구팀은 차등 개인 정보 환경하에서 새로운 스케일링 법칙을 확립했다.
구글은 이 연구에서 계산 자원(Compute Budget), 프라이버시 보호 강도(Privacy Budget), 데이터량(Data Budget) 간 복잡한 관계를 모델화해 주어진 제약 안에서 최적의 학습 구성을 찾아내는 걸 가능하게 했다. 이 스케일링 법칙을 바탕으로 볼트젬마는 젬마 2 아키텍처를 바탕으로 TPU v6e 칩 2,048개를 사용해 학습됐다.
성능 면에서는 차등 개인 정보 도입에 따른 트레이드오프가 존재한다. 각종 학술 벤치마크에서 볼트젬마 성능은 동일 규모 비프라이빗 모델인 젬마 3와 비교하면 떨어지지만 2019년 공개된 GPT-2 같은 구형 비프라이빗 모델과는 동등한 성능을 보였다고 구글은 밝혔다. 다시 말해 차등 개인 정보 도입에는 5~6년분 기술적 진보에 상당하는 성능 트레이드오프가 있다고 할 수 있다.
한편 프라이버시 보호 효과는 절대적이어서 학습 데이터 일부를 제시하고 이어지는 내용을 생성시키는 기억 테스트에서 비프라이빗 모델인 젬마 3에서는 데이터 기억이 검출된 반면 볼트젬마에서는 전혀 검출되지 않았다고 한다.
구글은 프라이버시를 보호하는 AI 연구개발을 가속화하기 위해 볼트젬마 모델 가중치 데이터를 허깅페이스와 캐글에서 공개하고 있다. 구글은 프라이버시가 중시되는 애플리케이션 기반으로 또 프라이빗 AI 기술 추가 연구를 위한 강력한 베이스라인으로 볼트젬마가 커뮤니티에 기여하기를 기대한다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 카카오톡, 사용자 중심 개편 예고‧당근, 중고거래 사기 대응 전략 발표](https://startuprecipe.co.kr/wp-content/uploads/2025/09/250917_dell_040234325-75x75.jpg)

