
AMD가 이미지 생성 AI Nitro-E를 10월 24일 출시했다. Nitro-E는 파라미터 수 3억 400만 개인 경량 모델로 트레이닝과 이미지 생성 처리의 고속화를 실현했다.
Nitro-E는 E-MMDiT라는 아키텍처를 채택했다. 2022년 공개된 초기 스테이블 디퓨전(Stable Diffusion)은 U-Net이라는 아키텍처를 사용했지만 2025년 시점에서는 트랜스포머(Transformer)를 활용한 DiT(Diffusion Transformer)라는 아키텍처나 텍스트와 이미지를 처리하기 위해 설계된 MMDiT(Multimodal Diffusion Transformer)를 채택한 이미지 생성 AI가 증가하고 있다. E-MMDiT는 MMDiT 개량 버전 아키텍처로 멀티패스 압축 모듈을 통해 처리 대상 이미지 토큰 수를 68.5% 줄이는 것 같은 트레이닝 및 추론 고속화에 유용한 메커니즘이 도입됐다.
학습 데이터는 비AI 생성 이미지 1,110만 장, 미드저니(Midjourney)로 생성된 이미지 440만 장, FLUX.1-dev로 생성된 이미지 950만 장을 사용했다. 또 고압축 비주얼 인코더 DC-AE와 경량이면서도 고성능인 텍스트 인코더 Llama-3.2-1B를 채택했다. 파라미터 수는 불과 304M으로 Instinct MI300X를 8기 탑재한 AI 처리 노드를 활용해 1.5일 만에 트레이닝을 완료할 수 있다.
추론 그러니까 이미지 생성 처리 역시 고속으로 단일 Instinct MI300X를 사용해 512×512 픽셀 이미지를 초당 18.8 샘플 생성할 수 있다. 증류 모델에서는 초당 39.3 샘플을 생성할 수 있다. 더 나아가 노트북이나 미니PC 등에서 채택되는 GPU 내장 프로세서 Ryzen AI Max+ 395(Strix Halo)’로도 512×512 픽셀 이미지를 0.16초 만에 생성할 수 있다.
AMD는 Nitro-E 통상 버전 외에도 각종 태스크에 최적화한 GRPO 버전과 증류를 통해 4스텝 생성을 가능하게 한 4Step 버전을 출시했다. Nitro-E 모델 데이터는 이곳, Nitro-E 트레이닝에 사용된 학습 데이터와 코드는 해당 링크에 정리되어 있어 누구나 Nitro-E를 재현할 수 있도록 되어 있다. 관련 내용은 이곳에서 확인할 수 있다.
![[AI서머리] 핀다, AI 상권분석 솔루션 출시‧빅테크플러스, 57억 규모 시리즈A 투자 유치](https://startuprecipe.co.kr/wp-content/uploads/2025/10/251028_musinsa.com_0002-75x75.jpg)

