가동 시작한 마이크로소프트표 AI 칩 “GPT-5.2 추론 지원”

마이크로소프트가 AI 토큰 생성 경제성을 획기적으로 개선하기 위해 설계된 추론 가속기 마이아 200(Maia 200)을 발표했다. 요금 대비 성능이 대폭 향상됐다고 한다.

마이아 200은 TSMC 3nm 공정으로 제조된 칩으로 전세대 제품과 비교해 달러당 성능이 30% 향상된 게 특징. 또 216GB HBM3E(7TB/s)와 272MB 온칩 SRAM을 갖추고 있으며 대규모 모델에 고속이면서 고효율적인 데이터 공급을 실현하는 데이터 이동 엔진을 통합했다. 1,400억 개 이상 트랜지스터를 탑재하고 대규모 AI 워크로드를 위해 최적화되어 비용 효율성이 뛰어난 성능을 실현한다. 750W SoC TDP 범위 내에서 FP4로 10페타플롭스 이상, FP8로 5페타플롭스 이상 성능을 실현하며 실용적 측면에서 기존 최대 규모 모델을 용이하게 실행 가능하고 향후 더 대규모 모델에도 대응할 수 있는 충분한 여유를 갖추고 있다고 한다.

타사 제품과 비교하면 3세대 아마존 트레이니움(Amazon Trainium) 3배에 달하는 FP4 성능, 구글 7세대 TPU를 상회하는 FP8 성능을 발휘한다고 밝혔다.

그 밖에도 병용하는 메모리 서브시스템으로 AI 고속화에서의 병목현상이 해소되며 고대역폭 통신을 로컬에 유지해 최적의 추론 효율성을 실현한다고 한다. 당초부터 데이터센터에서 빠르고 원활한 도입을 상정해 설계됐으며 데이터센터 도입에 소요되는 시간은 동등한 시스템과 비교해 절반 이하로 단축됐다고 한다. 마이크로소프트 측은 자사 실리콘 개발 프로그램에서 핵심 원칙은 최종 실리콘 제공 전에 가능한 한 엔드투엔드 시스템 전체를 검증하는 것이라고 전했다.

마이아 200은 오픈AI GPT-5.2 모델을 포함한 복수 모델을 지원하며 마이크로소프트 파운드리(Microsoft Foundry)와 마이크로소프트 365 코파일럿에 비용 효율성 우위를 가져온다고 설명됐다. 이미 아이오와주 디모인 인근 중부 데이터센터 지역에 도입됐으며 다음으로 애리조나주 피닉스 인근 서부 데이터센터 지역에 도입하고 그 후에도 순차 전개할 예정이라고 한다.

또 애저와 원활하게 통합되며 마이아 200용 모델 구축·최적화 도구 일체를 갖춘 마이아 SDK가 프리뷰로 제공되고 있다. 파이토치(PyTorch) 통합, 트라이톤(Triton) 컴파일러, 최적화 커널 라이브러리, 마이아의 저수준 프로그래밍 언어 접근 등 포괄적인 기능 세트가 마련되어 있어 개발자는 이종 하드웨어 가속기 간 용이한 모델 이식이 가능해진다.

마이크로소프트 측은 대규모 AI 시대는 이제 막 시작됐으며 인프라가 그 가능성을 결정짓는다면서 자사 마이아 AI 가속기 프로그램은 다세대에 걸친 설계라면서 마이아 200을 글로벌 인프라에 배치하는 가운데 이미 차세대 설계를 진행하고 있다고 전했다. 관련 내용은 이곳에서 확인할 수 있다.