
복잡한 프롬프트를 이해하고 고도의 계산이나 답변을 하는 AI를 구현하려면 수백억~수조 개에 이르는 파라미터에 달하는 막대한 훈련 데이터가 필요하다. 기본적으로 AI가 고도화될수록 더 많은 훈련 데이터를 필요로 하지만 구글은 AI 모델 품질을 유지하면서 데이터량을 최대 1만분의 1까지 줄일 수 있는 학습 기법을 발표했다.
방대한 광고 건수 중에서 안전하지 않은 광고 콘텐츠를 분류하는 건 대규모 언어모델(LLM)로 발전이 기대되는 작업이다. 하지만 정책 위반 콘텐츠 특정에는 고유한 복잡성이 따르기 때문에 맥락과 문화를 깊이 이해할 수 있는 솔루션이 요구된다. 이런 복잡한 작업을 위해 LLM을 미세조정하려면 비용이 많이 드는 충실도가 높은 훈련 데이터가 필요하다. 또 안전 정책 변화나 새로운 유형의 광고 콘텐츠 출현에 따른 개념 변화에 대처해야 하며 최악의 경우 모델을 완전히 새로운 데이터셋으로 재훈련해야 하기 때문에 특히 비용이 많이 든다.
이에 구글은 필요한 훈련 데이터량 감소를 가장 중요한 과제로 삼아 새로운 큐레이션 프로세스를 확립했다고 발표했다. 구글에 따르면 새로운 프로세스는 LLM 파인튜닝에 필요한 훈련 데이터량을 대폭 줄이는 동시에 인간 전문가와 모델 간 정합성을 크게 향상시킬 수 있으며 구글 실험에서는 필요한 훈련 데이터 규모를 10만 건에서 500건 미만으로 줄이는 동시에 전문가와 모델 정합성을 최대 65% 향상시킬 수 있었다고 한다.
구글이 공개한 큐레이션 프로세스는 인간 지견을 활용한 효율적인 데이터 선별 루프다. 프로세스는 제로 또는 소수 샷에서 시작해 안전한 광고와 안전하지 않은 광고 등 라벨링을 AI 모델에 지시한다. 이렇게 얻어진 초기 데이터셋을 안전한 것과 안전하지 않은 것으로 분류하면 판단이 모호하거나 틀린 경계 영역이 발생한다.
다음으로 경계 영역에서 클러스터화한 일부 데이터에 대해 인간 전문가에게 전송해 의견을 구한다. 인간 전문가가 라벨을 제공한 뒤 모델을 재평가하거나 미세조정해서 더 이상 개선할 수 없을 때까지 학습을 반복한다.
인간 전문가에 의한 라벨링 작업은 시간과 비용이 많이 든다. 하지만 구글의 데이터 선별 루프에서는 먼저 AI 모델이 대략적으로 분류한 뒤 경계 영역만을 전문가가 판단하기 때문에 극소량 데이터로 충분한 게 특징이다. 정책이나 광고 기준이 바뀐 경우에도 적은 프로세스로 빠르게 모델을 업데이트할 수 있다.
구글은 실제로 18억 개 파라미터인 제미나이 나노-1과 32.5억 개 파라미터인 나노-2라는 2가지 LLM을 서로 다른 복잡도 작업으로 미세조정하는 실험을 진행했다. 각 데이터셋에는 10만 개씩 광고가 있으며 평균 95%가 무해한 라벨을 부여받았다.
결과적으로 더 작은 모델인 제미나이 나노-1에서는 전문가 라벨링을 포함한 프로세스로 데이터량을 줄인 결과 많은 데이터로 훈련하는 경우와 거의 같은 정확도를 발휘했다. 더 나아가 더 큰 모델인 나노-2에서는 데이터량을 1,000분의 1~1만분의 1로 줄인 경우에도 정확도가 55%~65% 크게 개선됐다.
구글 측 실험 결과는 양질의 소량 데이터가 잡다한 대량 데이터에 승리하는 사례를 실증했다고 할 수 있다. 구글은 물론 이런 성능 향상에는 적절한 큐레이션 뿐 아니라 고품질 데이터도 필요하다며 이번 사용 사례에서는 클라우드 워커가 부여한 라벨의 정확도를 확실히 뛰어넘으려면 라벨 일치도를 측정하는 지표(Kappa)가 0.8을 초과하는 라벨 품질이 필요하다는 걸 알았다고 밝혔다. 이어 하지만 충분한 라벨 품질이 있다면 이번 큐레이션 프로세스는 문제 공간을 광범위하게 망라할 수 있는 LLM과 가장 어려운 예시에 효율적으로 초점을 맞출 수 있는 전문가 양쪽의 강점을 활용할 수 있다며 이 접근법으로 고충실도 라벨을 더 유연하고 효율적으로 활용해 데이터 병목현상을 회피할 수 있는 시스템을 구현할 수 있다고 생각한다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 메가존클라우드, ‘AIR Studio’ 출시‧오픈에셋, 50억 투자 유치](https://startuprecipe.co.kr/wp-content/uploads/2025/08/250811_PDF-Guru_00346-75x75.jpg)

