엔비디아, 구글 클라우드 손잡고 베라루빈 96만개 탑재 서버 제공한다

엔비디아가 차세대 에이전트형 AI 및 물리 AI를 추진하는 AI 팩토리용으로 구글 클라우드 AI 하이퍼컴퓨터(Google Cloud AI Hypercomputer)를 확장한다고 발표했다. 루빈 GPU 최대 96만 기까지 확장이 가능한 엔비디아 베라 루빈(NVIDIA Vera Rubin) 탑재 A5X 인스턴스를 기업이 이용할 수 있게 된다.

A5X는 엔비디아 베라 루빈 NVL72 랙스케일 시스템(NVIDIA Vera Rubin NVL72 rack-scale system)을 채택한 베어메탈 인스턴스. 베어메탈 인스턴스란 가상 서버가 아닌 물리 서버 단일 장비를 한 기업이 독점 사용할 수 있는 시스템을 의미한다.

A5X는 이전 세대 대비 토큰당 추론 비용을 최대 10분의 1 수준으로 낮추고 메가와트당 토큰 처리량은 최대 10배 향상된 것으로 나타났다. 네트워킹 시스템인 엔비디아 커넥트X-9 슈퍼NIC(NVIDIA ConnectX-9 SuperNIC)과 구글 버고(Google Virgo)를 결합해 단일 사이트 클러스터에서는 최대 8만 기, 멀티 사이트 클러스터에서는 엔비디아 루빈 GPU 최대 96만 기까지 확장할 수 있다.

그 밖에도 엔비디아 블랙웰 및 엔비디아 블랙웰 울트라 GPU 상에서 구동되는 구글 분산 클라우드 기반 구글 제미나이 프리뷰, 엔비디아 블랙웰 GPU를 탑재한 기밀 VM, 그리고 엔비디아 네모트론 오픈 모델과 엔비디아 네모 프레임워크를 활용한 제미나이 엔터프라이즈 에이전트 플랫폼 상 에이전트형 AI 등 다양한 시스템도 통합할 수 있다.

엔비디아 측은 이런 서비스를 활용하면 MoE(Mixture-of-Experts) 방식 추론, 멀티모달 추론, 데이터 처리, 물리 AI 및 로보틱스 시뮬레이션에 이르기까지 다양한 워크로드를 최적화할 수 있다고 강조했다. 관련 내용은 이곳에서 확인할 수 있다.