
보통 머신러닝 연산 처리에는 병렬 계산이 뛰어난 GPU가 사용된다. 하지만 제미나이 등을 개발하는 구글은 머신러닝에 더 최적화된 TPU를 자체 개발하고 있다. 구글 TPU와 GPU는 뭐가 다를까. 또 구글이 TPU를 계속 사용하는 전략은 어떤 것일까.
구글이 독자 칩 개발에 나선 계기는 기술적 돌파구가 아니라 미래 컴퓨팅 자원에 대한 위기감이었다. 구글은 2013년경 만일 모든 안드로이드 사용자가 음성 검색 기능을 하루에 단 3분만 사용해도 계산 처리를 감당하기 위해 현재보다 2배에 달하는 데이터센터 용량이 필요하다는 시산을 내놨다.
당시 구글이 사용하던 일반 CPU나 GPU는 딥러닝에서 필요한 방대한 행렬 계산에 대해 효율이 나빴으며 기존 하드웨어로 규모를 확대하는 건 경제적으로도 물류적으로도 어려웠다. 이에 구글은 텐서플로(TensorFlow)라는 신경망을 작동시키는 것만을 위해 특화된 ASIC 그러니까 주문형 반도체를 자체 개발하기로 결정했다.
이 신경망 특화 ASIC인 TPU 개발은 빠르게 진행되어 설계 시작 후 불과 15개월 만인 2015년에는 데이터센터 배치가 시작됐고 구글 지도나 구글 포토, 번역 기능 등을 지원하게 됐다.
GPU와 TPU 간 가장 큰 차이는 범용성을 중시하느냐 특정 영역에 특화되어 있느냐는 점에 있다. GPU는 그래픽 처리를 위해 설계됐으며 병렬 처리가 뛰어나지만 게임 텍스처 처리부터 과학 시뮬레이션까지 폭넓게 대응하기 위해 캐시 관리나 분기 예측과 같은 복잡한 기능을 탑재하고 있다.
한편 TPU는 그런 불필요한 기능을 제거하고 시스톨릭 어레이(Systolic Array)라고 불리는 독자 구조를 채택하고 있다. 일반 CPU나 GPU에서는 계산할 때마다 메모리와 연산 유닛 사이에서 데이터를 주고받아야 하며 이게 처리 속도 병목이 되지만 TPU 내 시스톨릭 어레이에서는 심장이 혈액을 내보내듯 데이터가 칩 내부를 한 방향으로 흐른다. 한 번 읽어 들인 데이터에 대해 메모리로 다시 저장을 하지 않고 계속해서 연산을 수행하기 때문에 메모리 접근 횟수를 극적으로 줄이고 연산 그 자체에 처리 능력을 집중시킬 수 있다.

아이언우드(Ironwood)라는 코드네임으로 불리는 TPUv7에 관한 정보는 아직 제한적이지만 이전 세대와 비교해 대폭적인 성능 향상이 이루어졌다는 게 밝혀졌다. 구글에 따르면 TPUv7은 BF16 연산 성능이 4,614TFLOPS에 달하며 메모리 용량은 192GB, 대역폭은 초당 7370GB로 구세대인 TPUv5p와 비교해 압도적인 사양을 자랑한다.
특정 용도에서는 TPU가 엔비디아 GPU와 비교해 비용 대비 성능이나 전력 효율 면에서 뛰어나다고 알려져 있다. 구글 전직 직원은 적절한 애플리케이션이라면 GPU와 비교해 비용 대비 효과가 최대 1.4배 향상된다고 밝혔고 에너지 소비나 발열도 억제된다고 한다. 또 구글은 새로운 세대 TPU가 등장하면 구세대 이용료를 낮추기 때문에 최첨단 속도를 요구하지 않는 사용자에게는 비용을 줄일 수 있다는 이점도 있다.
TPU가 널리 일반 기업에 보급되기 위한 가장 큰 장벽은 소프트웨어 생태계에 있다. 많은 AI 엔지니어는 대학에서 엔비디아 쿠다(CUDA) 플랫폼을 배우고 있으며 업계 표준으로 정착되어 있지만 TPU는 주로 JAX나 텐서플로 같은 다른 언어나 라이브러리를 사용한다.
또 많은 기업은 여러 클라우드 서비스를 이용하고 있으며 특정 클라우드에 의존하는 걸 피하려는 경향이 있다. 엔비디아 GPU는 AWS나 애저, 구글 클라우드 모두에서 이용할 수 있지만 TPU는 구글 클라우드에서만 이용할 수 있다. 만일 TPU에 완전히 의존하게 되면 향후 구글이 가격을 인상했을 때 타사로 이전하기 위한 비용이나 수고가 막대해질 가능성이 우려 사항이다.
AI 시대에 있어 클라우드 사업의 이익률은 엔비디아 제조 칩의 고액 비용으로 압박받고 있지만 자체 칩을 보유하는 건 그 해결책이 된다. 자체적으로 ASIC를 개발·운용해 엔비디아에 지불하는 높은 이익률 부분을 절약하고 과거의 높은 이익률을 되찾을 수 있게 된다.
We’re delighted by Google’s success — they’ve made great advances in AI and we continue to supply to Google.
NVIDIA is a generation ahead of the industry — it’s the only platform that runs every AI model and does it everywhere computing is done.
NVIDIA offers greater…
— NVIDIA Newsroom (@nvidianewsroom) November 25, 2025
구글은 이 분야에서 가장 성숙해 있으며 칩 설계부터 소프트웨어 최적화까지를 자체적으로 제어하고 있다. 현재 구글 최신 모델인 제미나이 3는 TPU를 이용해 학습되고 있으며 사내 AI 추론 워크로드 거의 전부에서 TPU가 활용되고 있다. 외부 고객에게는 익숙한 엔비디아 GPU를 제공하면서 자사 서비스 기반에는 비용 효율이 좋은 TPU를 전면 채택하는 전략은 향후 10년간 구글 클라우드 비즈니스에서 최대의 경쟁 우위가 될 수 있다.
한편 엔비디아는 구글의 성공에 기뻐하고 있다는 메시지와 함께 구글도 엔비디아 GPU를 개발에 사용하고 있으며 범용성 면에서는 GPU가 TPU보다 우수하다며 엔비디아의 우위성을 어필했다. 관련 내용은 이곳에서 확인할 수 있다.

