구글, 소형AI로 초안 생성‧대형AI로 초고속화 기술 발표

구글이 소형 AI를 활용해 투기적 예측을 실행해 대형 AI 처리를 고속화하는 기술인 멀티토큰 예측(Multi-token-prediction)을 발표했다.

기존 AI 모델은 복잡한 추론과 단순한 추론에 동등한 규모 연산 처리를 필요로 한다. 예를 들어 원숭이도 나무에서에 이어지는 단어는 떨어진다고 쉽게 추측할 수 있지만 AI는 떨어진다는 단어를 도출하기 위해 복잡한 추론과 동일한 수준 연산 처리를 수행하고 만다.

멀티토큰 예측은 MTP 드래프터(MTP drafter)라고 불리는 소형 AI를 활용해 다음 토큰을 투기적으로 예측하고 MTP 드래프터가 도출한 복수 토큰을 본 AI에서 병렬 검증해 반영하는 방식. MTP 드래프터는 유휴 상태 연산 리소스를 활용해 복수 토큰을 예측할 수 있을 만큼 경량이며 멀티토큰 예측을 사용해 최종 출력 품질을 훼손하지 않고 처리를 고속화할 수 있다.

엔비디아 RTX PRO 6000에서 MTP 드래프터 없는 젬마(Gemma) 4 26B와 MTP 드래프터 있는 젬마 4 26B 초당 출력 토큰 수를 비교해보면 MTP 드래프터를 활용하면 출력 품질을 유지한 채 초당 처리 토큰 수를 2배로 늘릴 수 있다고 한다.

또 젬마 4 E2B, 젬마 4 E4B, 젬마 4 26B-A4B, 젬마 4 31B에서 MTP 드래프터를 사용했을 때의 처리 속도 변화를 보면 픽셀 TPU에서 젬마 4 E4B를 실행하는 경우 MTP 드래프터를 사용하면 처리 속도가 3.1배 향상된다. 또 젬마 4 31B를 엔비디아 A100에서 실행하는 경우에도 3.0배 속도 향상이 확인됐다. 다시 말해 멀티토큰 예측은 스마트폰에서 동작하는 소형 AI에서도 데이터센터에서 동작하는 대형 AI에서도 유용한 기술인 셈이다.

구글은 젬마 4 E2B, 젬마 4 E4B, 젬마 4 26B-A4B, 젬마 4 31B AI 모델 4종을 위해 설계한 MTP 드래프터를 공개하고 있다. 관련 내용은 이곳에서 확인할 수 있다.