학습‧추론 특화형…8세대 TPU 발표한 구글

구글은 AI 처리용 프로세서인 TPU를 독자 개발하고 있다. 4월 22일에는 8세대 TPU를 발표했다.

8세대 TPU는 학습 특화의 TPU 8t와 추론에 특화된 TPU 8i로 나눠서 설계한 게 가장 큰 특징. TPU 8t는 칩 9,600개를 포드 하나에 수용해 병렬 실행하는 게 가능하다. TPU 8t 9,600개를 연결하면 FP4 기준 연산 성능은 121엑사플롭스에 달한다. 또 신규 개발된 네트워크 기술인 비고네트워크(Virgo Network)를 사용해 칩 수를 100만 개까지 늘려도 거의 선형적인 스케일링을 실현할 수 있다.

대규모 AI 모델 학습에는 수개월이 필요하며 하드웨어 장애 등으로 재시작이 발생해 비가동 시간이 1%만 증가해도 수일에 해당하는 시간 손실이 발생한다. TPU 8t는 수만 개 규모에서의 신뢰성 향상도 큰 특징으로 유효한 계산 생산 시간을 나타내는 지표인 굿풋(goodput)이 97%를 초과한다고 한다. 구글은 TPU 8t 성능 및 신뢰성 향상을 통해 수개월이 걸리던 최첨단 모델 개발 사이클을 수주 단위로 단축할 수 있다고 강조하고 있다.

TPU 8i는 HBM 288GB와 SRAM 384MB을 탑재한 추론 특화 칩이다. 포드 하나에 TPU 8i 1,152개를 수용할 수 있으며 포드당 연산 성능은 FP8 정밀도 기준 11.6엑사플롭스에 달한다. TPU 8i는 추론 워크로드에서의 지연 시간을 줄이도록 설계됐으며 인터커넥트 대역폭을 19.2TB/s로 2배 확대해 MoE 모델에 대한 저지연 실행도 가능하게 했다.

TPU 8t와 TPU 8i는 구글 클라우드 4세대 액체 냉각 기술을 지원해 에너지 효율 최적화를 실현했다. 이에 따라 이전 세대인 아이언우드(Ironwood)와 비교해 와트당 성능이 2배 향상됐다.

TPU 8t와 TPU 8i는 올 하반기 일반 제공될 예정이다. 관련 내용은 이곳에서 확인할 수 있다.