AMD 칩으로 개발한 확산 언어 모델

AI 스타트업 자이프라(Zyphra)가 AMD 제조 AI 칩으로 훈련된 첫 확산 언어 모델인 ZAYA1-8B-Diffusion-Preview를 발표했다.

자이프라는 AMD GPU 인프라를 활용한 AI 개발에 주력하는 기업으로 5월 6일에는 추론 언어 모델 ZAYA1-8B를 발표한 바 있다. ZAYA1-8B는 기존 언어 모델 대부분과 마찬가지로 자기회귀(autoregressive) 모델.

이런 자기회귀 모델인 ZAYA1-8B를 평가 성능을 유지하면서 이산 확산(discrete diffusion) 모델로 변환한 게 바로 ZAYA1-8B-Diffusion-Preview다. 이 모델은 자기회귀 모델 방식의 LLM으로부터 변환된 첫 MoE(Mixture of Experts) 확산 모델이며 AMD GPU로 훈련된 첫 확산 언어 모델이기도 하다.

자기회귀 모델은 토큰을 순서대로 하나씩 디코딩한다. 각 토큰에서 과거 모든 토큰을 거슬러 확인하고 과거 계산 결과를 사용해 새로운 토큰을 생성한다는 어텐션(attention) 메커니즘을 채택하고 있다. 이로 인해 자기회귀 모델 디코딩은 메모리 대역폭의 제약을 받는다는 문제가 있다.

We present ZAYA1-8B-Diffusion-Preview, the first diffusion language model trained on @AMD.

Autoregressive LLMs generate one token at a time; diffusion generates a block in parallel, speeding up inference.

We show a 4.6-7.7x decoding speedup with minimal quality degradation 🧵 pic.twitter.com/xMXp4sFYkb

— Zyphra (@ZyphraAI) May 14, 2026

이에 반해 확산 모델은 메모리 대역폭 제약이라는 병목 현상을 해소할 수 있다. 확산 모델에서는 토큰 N개에 대해 드래프트 여러 개를 동시에 생성하는 프로세스를 여러 차례 반복한다. 동일한 KV 캐시를 사용해 단일 시퀀스 일부로 N개의 토큰을 한 번에 생성할 수 있기 때문에 전체 연산이 메모리 대역폭이 아닌 계산량에 의존하게 된다. 이를 통해 GPU 활용률이 극대화되며 자기회귀 모델 추론에 비해 대폭 빠른 속도를 실현할 수 있다.

확산 모델을 처음부터 훈련하는 건 어렵기 때문에 자이프라는 기존에 학습된 자기회귀 모델을 기반으로 확산 모델로 변환하는 방법론을 제안했다. 이 방법론을 통해 탄생한 게 바로 ZAYA1-8B-Diffusion-Preview다.

확산 모델인 ZAYA1-8B-Diffusion-Preview와 기반이 된 자기회귀 모델 ZAYA1-8B의 자기회귀 디코딩 대비 이론적 속도 향상을 비교해보면 ZAYA1-8B-Diffusion-Preview는 표준 확산 샘플러에서 4.6배, 혼합 로짓(mixed logit) 샘플러에서 7.7배 속도 향상을 실현했다. LLM의 코드 생성 능력과 수학적 추론 능력을 평가하는 Pass@16을 복수 벤치마크에서 평가한 결과를 보면 표준 확산 샘플러에서는 확산 변환으로 인한 체계적인 성능 저하는 나타나지 않았다. 자이프라는 혼합 로짓 샘플러에 대해서는 ZAYA1-8B와 비교하면 다소 저하가 나타나지만 대폭적인 속도 향상이 기대되는 만큼 실행 시점에 선택할 수 있는 품질과 성능 간 트레이드오프가 발생한다고 설명했다. 관련 내용은 이곳에서 확인할 수 있다.