“엔비디아 블랙웰 울트라, H200보다 AI 처리 속도 50배”

엔비디아 고성능 GPU는 AI 개발 및 제품 배포에 있어 필수 불가결한 존재로 자리 잡았다. 그런 엔비디아 GPU 중에서도 현시점 최첨단 제품인 GB300 NVL72에 대해 H200 대비 처리 성능이 50배 향상됐고 비용은 35분의 1로 줄었다고 강조하는 글이 엔비디아 공식 블로그에 게재됐다.

GB300 NVL72는 AI 팩토리용 랙으로 판매되는 AI 처리 시스템으로 엔비디아 블랙웰 울트라 GPU 72개와 엔비디아 그레이스 CPU 36개를 탑재하고 있다. 이미 마이크로소프트와 코어위브 등 AI 클라우드 기업이 도입을 진행 중이며 긴 컨텍스트를 다루는 에이전트 코딩 등 작업에 활용되고 있다.

GB300 NVL72는 전 세대 모델인 GB200 NVL72에서 축적된 커널 최적화 등 성과를 계승하고 있어 컴퓨팅 능력을 최대한 발휘할 수 있다. 높은 성능과 낮은 비용을 동시에 실현한 것도 특징으로 GB200 NVL72보다 낮은 비용으로 처리를 실행할 수 있다.

GB300 NVL72는 FP4로 양자화한 모델을 실행할 수 있는 것도 특징이다. FP4를 지원하지 않는 호퍼(Hopper) 세대 GPU와 비교해 월등히 빠른 처리가 가능하다. H200에서 DeepSeek-R1의 FP8 버전을 실행하는 시나리오와 GB300 NVL72에서 DeepSeek-R1 NVFP4 버전을 실행하는 시나리오를 비교하면 GB300 NVL72는 50배 많은 토큰을 처리할 수 있다. 아울러 H200 대비 비용을 35분의 1로 절감할 수 있다.

엔비디아는 차세대 아키텍처 루빈(Rubin)을 채택한 GPU를 2026년 하반기 출하 개시할 예정이다. 루빈 세대 GPU는 블랙웰 세대 GPU 대비 100메가와트당 처리량이 최대 10배 향상되고 100만 토큰당 비용은 10분의 1로 절감할 수 있다고 한다. 아울러 블랙웰 세대 GPU와 비교해 MoE 모델 학습에 필요한 GPU 수가 4분의 1로 줄어든다는 점도 강조되고 있다. 관련 내용은 이곳에서 확인할 수 있다.