Tech

NVIDIA BaM(Big Accelerator Memory) 정리

Futureseed 2025. 9. 27. 00:11
반응형

https://arxiv.org/abs/2203.04910

 

GPU-Initiated On-Demand High-Throughput Storage Access in the BaM System Architecture

Graphics Processing Units (GPUs) have traditionally relied on the host CPU to initiate access to the data storage. This approach is well-suited for GPU applications with known data access patterns that enable partitioning of their dataset to be processed i

arxiv.org

 

NVIDIA가 발표한 BaM(Big Accelerator Memory) 은 GPU가 CPU 개입 없이 스토리지(NVMe SSD)를 직접 제어하고 접근할 수 있도록 하는 아키텍처입니다.

즉, 스토리지를 메모리로 바꾸는 기술은 아니고, GPU가 스토리지를 확장 메모리처럼 활용할 수 있도록 해주는 방식입니다.

해당 내용은 "GPU-Initiated On-Demand High-Throughput Storage Access in the BaM System Architecture" 논문에서 자세하게 확인하실 수 있습니다.


CPU vs GPU 관점에서의 차이

  • CPU 입장: SSD는 여전히 일반적인 NVMe 디스크로 보입니다. OS에서 block device로 인식되고, 파일시스템을 올릴 수도 있습니다.
  • GPU 입장: BaM 소프트웨어 계층을 통해 GPU 메모리 내부에 SQ(Submission Queue)와 CQ(Completion Queue) 를 생성하고, GPU 스레드가 직접 SSD에 I/O를 요청할 수 있습니다.

👉 정리하면:

  • CPU에는 디스크,
  • GPU에는 on-demand 메모리 계층으로 보이는 구조입니다.

장점

  1. CPU 오버헤드 감소
    CPU 커널·드라이버를 거치지 않으니 지연(latency)과 오버헤드가 줄어듭니다.
  2. 메모리 확장 효과
    GPU의 HBM은 용량이 제한적입니다. BaM을 통해 대규모 데이터셋을 SSD에서 직접 불러와 활용할 수 있습니다.
  3. 스토리지 활용 극대화
    최신 NVMe SSD의 고대역폭·저지연 특성을 GPU가 효율적으로 사용할 수 있습니다.

실제 적용 사례

 

Micron 9400 NVMe SSDs explore big accelerator memory using NVIDIA technology

Micron 9400 NVMe SSD: The New Leader for Data Center Workloads

www.micron.com

 

 

DapuStor demos superiority of BaM over GPUDirect by eliminating SW bottlenecks – Blocks and Files

DapuStor has accelerated Gen AI model training with data on its PCIe gen 4 and 5 SSDs accessed and moved to GPU memory faster than GPUDirect by using Nvidia’s BaM framework. Shenzhen-based DapuStor supplies SSDs such as its PCIe gen 4 R5101 and PCIe gen

blocksandfiles.com

 

 

 

GitHub - ZaidQureshi/bam

Contribute to ZaidQureshi/bam development by creating an account on GitHub.

github.com

 


마무리

BaM은 단순히 Storage를 Memory로 바꾸는 기술이 아니라, 스토리지를 스토리지로 두면서 GPU가 직접 제어해 확장 메모리처럼 쓰게 하는 구조입니다. 앞으로 GPU 메모리 한계를 보완하는 중요한 기술로 자리 잡을 가능성이 높습니다.

반응형