[안될공학] AI 칩 판도가 서서히 바뀐다... 구글 TPU Ironwood 본격 출시

xtalfi

2025.11.10 15:37

529

AI 도구	Gemini
프롬프트	https://youtu.be/IiGeZf4pDaE 자세하게 내용 정리

구글 TPU Ironwood 상세 정리

구글 TPU Ironwood (V7) 상세 정리

요청하신 유튜브 영상의 주요 내용을 구글의 7세대 TPU 아이언우드(Ironwood)를 중심으로 엔비디아 GB300과 비교 분석하며 정리한 내용입니다.

구글은 V7 출시를 통해 자체 클라우드 서비스용을 넘어 다른 기업들에도 TPU를 서비스형으로 제공하며 엔비디아의 GPU 시장에 본격적으로 도전하고 있습니다.

목표 변화: 데이터 센터의 핵심 목표인 전력 효율 증대와 AI 서비스 추론(Inference)에 집중하도록 설계되었습니다.
전력 효율: 이전 세대(V6e, Trillium) 대비 약 2배, V5 대비 약 6배 향상된 와트당 테라플롭스 성능을 제공합니다.

아이언우드와 엔비디아 시스템의 가장 근본적인 차이는 통신 구조입니다. TPU는 **3D Torus 인터커넥트**를 핵심으로 채택했습니다.

구조: TPU 칩들이 상하, 좌우, 전후의 세 방향으로 직접 연결되어 통신합니다. (양방향 초당 1.2TB 대역폭)
철학 차이:
- TPU: 중앙 집중형 스위칭 장비(NVLink 스위치 등) 없이 **칩끼리 직접 통신**합니다.
- 엔비디아: 중앙 스위치를 통해 GPU 간 통신을 관리합니다.
주요 장점 (선형 확장성):
- 예측 가능한 지연 시간: 트래픽 패턴에 관계없이 균일한 지연 시간으로 대규모 병렬 작업(MOE 등)을 효율적으로 수행합니다.
- 대규모 확장(Scale-out) 최적화: 스위칭 복잡도나 발열 증가 없이 수천 개의 칩으로 **선형적 확장**이 용이하여 거대한 AI 인프라 구축에 유리합니다.

Axion CPU 도입: TPU 시스템과 함께 자체 설계한 암(Arm) 기반 엑시온(Axion) CPU를 도입했습니다. 이는 일반 클라우드 워크로드 처리와 TPU 시스템의 전력 효율 관리를 위해 사용됩니다.
수직 통합 전략: 구글은 하드웨어(TPU, Axion)부터 소프트웨어 스택까지 모든 것을 통합 관리하여, 대규모 클라우드 AI 서비스 제공에 있어 높은 효율성과 확장성이라는 경쟁 우위를 확보하려 합니다.
결론: 아이언우드의 출시는 AI 가속기 시장의 경쟁이 단순한 '칩 속도' 경쟁을 넘어 **'전체 시스템 효율 및 확장성'** 경쟁으로 전환되고 있음을 보여줍니다.