[안될공학] AMD, 드디어 엔비디아와 싸움이 된다
페이지 정보
본문
| AI 도구 | Gemini | 
|---|---|
| 프롬프트 | https://youtu.be/FsmKRwrNdB4?si=cxRH0tkdKuyZCUnt 내용을 정리하고 인사이트 도출  | 
					
(영상 내용을 기반으로 제미나이로 생성한 썸네일)
제공해 주신 유튜브 영상의 내용을 정리하고 인사이트를 도출했습니다.
내용 정리: AMD, AI GPU 시장의 판도를 바꾸다
본 영상은 AMD가 NVIDIA의 독점 체제에 대항하기 위해 단일 칩 경쟁에서 시스템 및 개방형 생태계 경쟁으로 전략을 전환하면서 AI GPU 시장에 변화의 가능성이 생겼음을 분석합니다.
1. NVIDIA의 기존 압도적 우위 [02:26]
- 하드웨어 및 시스템 독점: NVIDIA는 단순히 GPU 성능뿐만 아니라 GPU 연결 기술(MVLink, MV Switch)과 서버 간 연결 기술(InfiniBand)까지 독자적으로 구축하여, 거대 AI 모델을 학습/추론할 수 있는 완벽한 시스템(DGX 레퍼런스 모델)을 제공해왔습니다.
- 소프트웨어 생태계: 오랜 기간 준비된 독자적인 소프트웨어 플랫폼인 CUDA의 강력한 생태계가 프로그래머들의 의존도를 높여, 사실상의 진입 장벽 역할을 했습니다 [06:42].
- AMD의 한계: 기존 AMD의 GPU(MI300 시리즈 등)는 단일 칩 성능(특히 MOE 모델 추론)은 NVIDIA와 근접했으나, 대규모 시스템을 연결하는 인프라 및 소프트웨어 지원이 부족하여 빅테크 고객사들의 선택을 받지 못했습니다 [05:01].
2. 시장 변화의 계기와 AMD의 대응 [10:02]
- 빅테크의 리스크 회피: Google, Meta, Microsoft, OpenAI 등 빅테크 기업들은 NVIDIA GPU의 높은 가격과 단일 공급자에 대한 종속(Vendor Lock-in) 리스크를 해소하기 위해 대안을 필요로 했습니다 [18:34].
- OpenAI의 채택: 최근 OpenAI의 스타게이트 프로젝트에서 AMD GPU를 대규모로 채택할 것이라는 소식이 AMD에 대한 시장의 인식을 전환시키는 계기가 되었습니다 [00:13].
- AMD의 헬리오스 시스템: AMD는 단일 GPU 판매에서 벗어나, NVIDIA의 DGX처럼 MI400 GPU와 Epic CPU를 통합한 **'헬리오스(Helios)'**라는 완제품 AI 랙 시스템을 제공하기 시작했습니다 [12:48].
3. 개방형 생태계 전략 [10:33]
- OCP 기반: 헬리오스 시스템은 Meta, Intel 등이 주도하는 데이터 센터 하드웨어 표준인 OCP(Open Compute Project) 규격을 따릅니다. 이는 고객사들이 데이터 센터를 쉽게 통합하고 확장할 수 있도록 돕습니다 [11:11].
- UALink: NVIDIA의 MVLink에 대항하여 Meta, Intel, AMD 등이 협력하여 만든 개방형 통신 규격인 **UALink(Ultra Accelerator Link)**를 채택했습니다 [13:55].
- RoCE 활용: NVIDIA의 고가 독점 기술인 InfiniBand 대신, 기존 이더넷을 활용하여 원격 메모리 접근(RDMA)을 구현하는 개방형 기술인 **RoCE(RDMA over Converged Ethernet)**를 채택하여 서버 간 연결에 대한 비용 효율성을 높였습니다 [16:33]. (InfiniBand보다 대역폭은 낮지만 확장성 및 비용 효율성 우수)
4. 시장 전망 [17:08]
- 추론(Inference) 시장의 성장: AI 시장이 학습(Training) 중심에서 추론(Inference) 중심으로 이동하는 상황에서, AMD는 최고 성능보다는 **비용 대비 성능(Cost-Performance)**을 무기로 추론 시장 확대를 노릴 여지가 생겼습니다.
- 공급망 다변화: 삼성전자와 HBM3e, HBM4 공급 논의가 이루어짐에 따라, AI 반도체 공급망에 다변화 가능성이 열렸습니다 [17:45].
인사이트 도출
이 영상이 시사하는 바는 AI 인프라 경쟁의 본질이 단순히 하드웨어 스펙 경쟁을 넘어섰다는 것입니다.
1. AI 인프라 경쟁의 중심축 이동: '칩 성능'에서 '시스템 개방성'으로
- NVIDIA가 단일 칩과 독점 시스템(CUDA, InfiniBand)으로 시장을 장악했다면, AMD는 **'개방성'**과 **'표준화'**를 핵심 무기로 들고 나왔습니다.
- AI 인프라는 이제 단품 부품이 아닌, 랙 전체를 하나의 슈퍼컴퓨터로 간주하는 '시스템 단위' 경쟁입니다.
- AMD의 OCP 기반 헬리오스 전략은 NVIDIA의 독점적 벽을 오픈 생태계로 우회하여 빅테크 고객들의 '종속성 해소'라는 근본적인 니즈를 충족시키려는 매우 전략적인 움직임입니다. 이는 단순히 AMD의 성공을 넘어, 개방형 표준 연합 대 독점 플랫폼의 대결 구도를 형성했다는 점에서 큰 의미가 있습니다.
2. '추론 시대'의 도래와 비용 효율성의 중요성 극대화
- AI 시장이 학습 단계에서 서비스를 제공하는 추론 단계로 무게중심이 이동하면서, 최고 성능을 위해 막대한 비용을 지불하는 것보다 **비용 대비 효율성(Cost-Performance)**이 훨씬 중요해졌습니다 [17:23].
- AMD가 개방형 이더넷 기반의 RoCE 기술을 선택한 것은, 고속도로(InfiniBand) 대신 기존의 잘 깔린 일반 도로(Ethernet)를 활용하여 대규모 확장 시 **총소유비용(TCO)**을 절감하려는 시장 수요를 정확히 반영한 것입니다.
- 결론적으로, AMD는 **'NVIDIA만큼 빠르지는 않지만, 훨씬 싸고 유연하게 확장 가능한 대안'**이라는 포지션을 구축하여, AI 서비스의 상용화 단계에서 경쟁 우위를 점하려 하고 있습니다.