Tech

NVLink Fusion, AI 인프라 주도권 전쟁 - UALink, NVIDIA 독주, 차별화

Futureseed 2025. 5. 21. 00:20
반응형

2025년 5월, NVIDIA는 Computex 2025에서 NVLink Fusion을 발표했습니다.

이는 NVIDIA 외 다른 회사의 가속기도 NVLink로 연결하는 기술로,

AI 인프라 네트워크 시장에서 NVIDIA가 사실상 표준을 만들어가고 있다는 강력한 신호입니다.

 


전 세계 서버 시장 현황 (2024 기준)

  • 2024년 전 세계 서버 출하량: 약 1,365만 대
    • AI 서버는 약 165~167만 대로 추산 (12% 수준)
    • 나버지 88%는 일반 서버
  • 2024년 전 세계 시장 가치(매출 기준) 비중
    • AI 서버 시장 규모: 65% (약 1,870억 달러)
    • 일반 서버의 시장 가치 비중: 35% (약 1,000억 달러)
  • AI 서버 시장 NVIDIA 점유율
    • 약 90%로 압도적 점유율

출처:

1. https://v.daum.net/v/20240301160041582

2. https://www.trendforce.com/presscenter/news/20240717-12227.html

3. https://www.storagereview.com/ko/news/ai-server-market-growth-2024-gpu-powered-systems-lead-91-yoy-surge


NVIDIA가 AI에서 지배적인 이유: CUDA와 NVLink 생태계

  • CUDA는 AI 연산을 위한 소프트웨어 플랫폼으로 사실상 표준으로 자리잡고 있으며, 개발자 생산성과 성능 최적화 측면에서 독보적
  • NVLink는 GPU-GPU, CPU-GPU 간 초고속 통신을 가능하게 해 대규모 AI 학습에서 병목을 제거
  • Grace Hopper, GH200 등 NVIDIA의 최신 AI 시스템은 NVLink 기반 통합 구조

NVLink Fusion: 지배력 확장을 위한 한 수

  • 기존 NVLink는 NVIDIA GPU끼리만 연결 가능
  • NVLink Fusion은 타사 가속기나 CPU까지 NVLink 패브릭에 참여할 수 있도록 설계
  • Grace Hopper 및 GB200 시스템은 랙당 72개 GPU를 하나의 NVLink 도메인으로 구성 가능
  • GPU당 900GB/s 이상의 대역폭, 원자 연산 및 공유 메모리 지원 등 성숙도도 높음

UALink와의 비교: 가능성 vs 상용화

UALink는 AMD, Intel, Meta, Google 등이 주도하는 개방형 표준
하지만 아직 상용 제품이 없고, 2026년 이후로 도입이 예상됨

항목 NVLink Fusion UALink
인터페이스 전용 NVLink PHY PCIe Gen6 기반
확장성 랙당 72개 GPU 최대 1,024개 노드 목표
토폴로지 NVSwitch 기반 연결 mesh/torus (초기엔 외장 스위치 없음)
개방성 제한적 (NVIDIA 전용) 개방형 (다수 벤더 참여)
상용화 Grace Hopper, NVL72 등 활발 아직 없음 (2026 예정)
소프트웨어 CUDA 생태계 ROCm 기반 (성숙도 낮음)

 

 

Mesh Topology (UALink 기본 구조) Torus Topology (UALink 확장형) NVSwitch 기반 Topology (NVLink)
A — B — C
|        |       |
D — E — F
|        |       |
G — H — I




A — B — C
|        |       |
D — E — F
|        |       |
G — H — I

↑                         ↓ 
←——————————————→
(양 가장자리가 wrap-around로 연결됨)
A      B      C
 \       |      /
  [ NVSwitch ]
 /       |       \
D      E      F




  • 각 노드는 상하좌우 인접 노드와만 연결
  • 멀리 있는 노드로 갈수록 여러 홉을 거침
  • 구현이 단순하지만 latency 편차 존재
  • Mesh에 wrap-around 링크 추가
  • 가장자리 노드 간에도 연결 → 병목 완화
  • 배선 복잡도 증가, 구현 난이도 상승
  • 모든 GPU가 중앙 스위치와 직접 연결
  • 모든 노드 간 대역폭/latency 균일
  • 스위치가 병목 해결, 그러나 비용·전력 부담 큼

 

 

Storage 관련 시사점

  • NVLink 기반 구조는 지연시간이 수십 μs 수준, 데이터 공급 병목 방지를 위해 스토리지도 고성능화 필요
  • CXL 기반 DRAM+NAND SSD, GPUDirect Storage 연계, DPU offload 구조 등 고려해야 함
  • UALink는 가능성은 있지만, 현 시점에서는 NVLink 기반 설계가 기술·생태계 측면에서 우위

결론: NVIDIA의 독주는 이어진다

NVLink Fusion은 기술이 아니라 플랫폼 전략입니다.
CUDA + NVLink + Grace 아키텍처가 만들어낸 통합 생태계는 경쟁사들이 접근하기 어려운 진입장벽입니다.
UALink는 좋은 대안이 될 수 있지만, 아직은 갈 길이 멉니다.

결과적으로, AI 서버 네트워크 및 인프라 시장에서 NVIDIA의 지배력은 앞으로 더 강해질 가능성이 높습니다.

 

반응형