반응형
정리
항목 | RDNA(그래픽용) | CDNA(연산용) |
설계 목적 | 게임·3D 렌더링, 영상 처리 | AI·HPC·행렬 연산 특화 |
그래픽 파이프라인 | 포함 (픽셀 쉐이더, 레이 트레이싱 등) | 전면 제거 |
디스플레이 출력 엔진 | 존재 (Display Controller, HDMI/DP PHY) | 없음 |
Geometry / Rasterizer | 포함 (Primitive 처리) | 제거됨 |
SIMD 구조 | Wave32 or Wave64 | Wave64 고정, 행렬 연산 최적화 |
Tensor 연산 엔진 | 없음 (RDNA 3에선 일부 있음) | 매트릭스 코어(Matrix Engine) 탑재 |
메모리 서브시스템 | GDDR6/X + 일반 메모리 컨트롤러 | HBM2/3 고대역폭 메모리 + 인터포저 설계 |
캐시 계층 구조 | L0~L2 일반 그래픽용 캐시 | L1~L2 Compute-optimized 캐시 (동시 연산 최적화) |
Infinity Fabric 연결 | RDNA 3: 일부 Infinity Cache 존재 | CDNA: IF 기반 MCM / MI 시리즈 다이 간 연결 필수 |
동적 전력 관리 | 게이밍 부하 기반 DPM (Dynamic Power Mgmt) | 연산 부하 기반 전력 집중, 효율 중시 |
상세 기술 차이 핵심 4가지
① 렌더링 파이프라인 완전 제거 (CDNA)
- CDNA는 GPU임에도 Vertex/Pixel Shader, Rasterizer, Texture Mapping Unit, Color Blender 등의 그래픽 전용 유닛을 전부 제거
- 이를 통해 실리콘 면적을 매트릭스 연산 유닛, Shared Memory, HBM 인터페이스에 집중 투자
② 연산 중심 SIMD 최적화
- RDNA는 Wave32/64 혼합 운용 → 다양한 쉐이더에 대응
- CDNA는 Wave64 고정 + 동시 행렬 연산 최적화, 특히 BF16, FP16, TF32 등 저정밀 연산 처리 병렬성 극대화
③ 메모리 설계 구조 자체가 다름
- RDNA는 GDDR 기반 (낮은 대역폭, 높은 지연 시간 → 화면 처리에 적합)
- CDNA는 HBM2e/HBM3 + 인터포저 설계, 예: MI250X는 1.6TB/s, MI300X는 5.3TB/s 이상
- CDNA는 L1/L2 캐시도 행렬 연산 병렬성에 최적화된 구성 (Global Barrier 등 포함)
- 참고 — Global Barrier
- Global Barrier는 전체 쓰레드 그룹(work-groups or wavefronts) 간의 전역 동기화 지점으로,
"모든 쓰레드가 이 지점에 도달하기 전까지 다음 연산으로 진입하지 못하게 막는 구조" - 필요한 이유
- 병렬 연산에서는 아래 일들이 자주 발생함.
- 수천 개의 쓰레드가 동시에 연산
- 중간 결과를 공유 메모리에 저장
- 다음 연산은 이전 연산이 다 끝나야 가능
- 이때, 일부 쓰레드는 앞서 도달하고, 나머지는 아직 진행 중이면 문제 발생 → 이를 막기 위해 barrier (동기화 지점)가 필요
- 로컬 barrier: 워크그룹 내부에서 동기화
- 글로벌 barrier: 전체 GPU 내의 모든 워크그룹이 동시에 도달해야 다음 단계로 넘어감
- 병렬 연산에서는 아래 일들이 자주 발생함.
- Global Barrier는 전체 쓰레드 그룹(work-groups or wavefronts) 간의 전역 동기화 지점으로,
- 참고 — Global Barrier
④ Multi-Chip Module (MCM) 기반 확장성
- RDNA는 대부분 단일 다이 (모놀리식)
- CDNA는 MI200/300부터 MCM (2~6개의 GPU 다이를 Infinity Fabric으로 연결)
예: MI300X = 8개 다이 + HBM3 스택 탑재
정리
- CDNA는 그래픽 유닛이 아예 없음 → GPU라기보단, 병렬 연산용 코프로세서 느낌
- 반면 RDNA는 사용자에게 화면 출력과 인터랙션이 필요한 시각적 처리 프로세서
- 따라서 동일한 Compute Unit이 존재하더라도 내부 구조, 인터페이스, 연산 흐름, 캐시 구조까지 전혀 다름
요약
CDNA는 디스플레이와 그래픽을 위한 유닛을 전부 제거하고, 대신 대규모 병렬 행렬 연산과 고대역폭 메모리 구조로 구성된 AI·HPC 전용 아키텍처
RDNA는 시각화와 사용자 인터페이스에 최적화된 GPU이며, 둘은 목적과 내부 구조가 완전히 다름
반응형