구글, 프라이빗 AI 모델 VaultGemma 출시

xtalfi

09.14 17:25

(퍼플렉시티가 정리한 기사)

구글 AI 리서치와 딥마인드는 프라이버시에 중점을 둔 10억 매개변수의 오픈소스 언어 모델인 VaultGemma를 공개했습니다. 이는 차등 프라이버시 인공지능 분야에서 중요한 진전을 의미합니다. 구글의 최고 과학자 제프 딘(Jeff Dean)이 발표한 이 모델은 차등 프라이버시로 완전히 처음부터 학습된 최대 규모의 오픈웨이트 LLM으로, 프라이버시 보호형 AI 개발의 새로운 기준을 세웠습니다.

VaultGemma는 웹 규모 데이터셋으로 학습된 시스템에서 민감한 정보가 추출될 수 있는 AI 모델의 암기 공격에 대한 중요한 우려를 해결합니다. 구글 리서치에 따르면, 이 모델은 훈련 중에 보정된 노이즈를 추가하여 어느 하나의 데이터 포인트가 최종 모델에 크게 영향을 미치지 못하도록 하는 고급 차등 프라이버시 기법을 활용해 개발되었습니다.

기술 혁신과 프라이버시 보장

이 모델은 그래디언트 클리핑과 가우시안 노이즈 추가가 결합된 DP-SGD(차등 개인 정보 보호 확률적 경사 하강법)를 사용하여, 시퀀스 수준에서 (ε ≤ 2.0, δ ≤ 1.1e-10)의 공식적인 프라이버시 보장을 달성합니다.

VaultGemma는 Gemma 2에 사용된 것과 동일한 13조 토큰 데이터셋으로 학습되었으며, 이는 주로 웹 문서, 코드, 과학 논문 등 영어 텍스트로 구성되어 있습니다.
구글 연구팀은 특히 차등 개인 정보 보호를 적용한 언어 모델을 위한 새로운 스케일링 법칙을 개발했으며, 이는 컴퓨트-프라이버시-유틸리티의 균형 이해를 위한 종합적인 프레임워크를 제공합니다. 이러한 스케일링 법칙은 모델의 성능을 정확하게 예측하고, 2048개의 TPUv6e 칩 클러스터에서의 학습 과정에서 효율적인 자원 할당을 가능하게 했습니다.

성능 및 접근성

VaultGemma는 훈련 데이터에 대한 감지 가능한 암기 현상을 보이지 않지만, 현재 성능은 비공개 모델에 비해 뒤처지고 있습니다. 학술 벤치마크에서 약 5년 전의 비공개 모델과 유사한 점수를 기록하고 있으며, 그 예로 ARC-C에서 26.45점을 달성한 반면 Gemma-3 1B는 38.31점을 기록했습니다.

Google은 VaultGemma의 가중치를 Hugging Face와 Kaggle에 공개했으며, 이에 더해 포괄적인 기술 보고서와 연구 논문도 함께 제공하고 있습니다. 회사가 이렇게 오픈 릴리스를 진행한 배경에는, 강력한 모델과 명확한 방법론을 커뮤니티에 제공함으로써 프라이빗 AI 연구 및 개발 가속화를 도모하려는 의도가 있습니다.

이번 공개를 통해 Google은 개인정보 보호를 중시하는 AI 개발 분야의 선두에 섰으며, 데이터 보호에 대한 규제가 강화되는 상황에서 경쟁력 있는 AI 역량을 유지함과 동시에 관련 문제를 해결하고 있습니다. 이 연구는 대규모 언어 모델이 엄격한 프라이버시 보장을 적용해도 실제 응용 사례에서 비현실적으로 변하지 않고 충분히 실용적으로 훈련될 수 있음을 보여줍니다.