반응형

Tech 16

[논문 요약/리뷰] INF²: High Throughput Generative Inference of LLMs using Near-Storage

1. 주요 내용하드웨어: Samsung SmartSSD 사용 (KU15P Xilinx FPGA + SSD로 구성)소프트웨어: attention 연산을 SmartSSD에 offload하는 custom FPGA logic 개발시스템 설계: GPU + SmartSSD 협업을 조율하는 host-side runtime 설계📌 즉, 하드웨어 가속기와 소프트웨어 스케줄링을 결합한 end-to-end LLM Inference 최적화 솔루션2. 문제점 착안LLM 추론에서 다음과 같은 병목이 존재:문제점설명KV cache 크기 폭증context 길이 및 batch가 커질수록 K/V 행렬이 수십~수백 GB 이상GPU 메모리 부족모델 파라미터 + KV cache → GPU memory 감당 불가SSD로 offload 시 I..

Tech 2025.06.14

NVIDIA SCADA(SCaled Accelerated Data Access) 관련 내용 정리, 차세대 Data Access 기술, NVIDI

1. SCADA(SCaled Accelerated Data Access)란?SCADA는 기존의 산업제어 시스템을 의미하는 SCADA(Supervisory Control and Data Acquisition)와는 다릅니다. 여기서 말하는 SCADA는 NVIDIA가 2024년 하반기 Open Compute Project(OCP) 및 GTC 등에서 공식적으로 발표한 새로운 프로그래밍 모델이자, GPU가 대규모 데이터셋을 직접, 병렬, 고속으로 접근할 수 있게 해주는 차세대 데이터 액세스 기술을 뜻합니다. 이 기술은 초대형 AI·그래프·분석 데이터셋이 GPU 메모리 한계를 넘어서는 시대에, GPU가 직접 NVMe 등 스토리지에 On-demand 로 접근해 필요한 데이터를 실시간으로 불러오고 처리할 수 있도록 설..

Tech 2025.06.02

[논문 요약/리뷰] GeminiFS: A Companion File System for GPUs

GeminiFS: Host와 GPU 모두 Storage를 Direct 접근하여 사용할 수 있는 솔루션AI/ML 워크로드가 대형화되면서, GPU가 데이터를 직접 NVMe SSD에서 불러와 처리하는 구조가 관심을 받고 있습니다. NVIDIA의 GDS(GPU Direct Storage)나 BaM(Big Accelerator Memory)등이 대표적인 기술입니다. 하지만 이 기술들은 GPU는 Block 단위로 Storage I/O는 가능하지만, 파일시스템 수준의 Abstraction이나 Coherency, Metadata 관리 등은 불가능하거나 제한적으로만 가능합니다. 즉, GPU가 실제로 파일을 열 때 여전히 CPU가 개입해야 하거나, CPU와 GPU간 데이터 공유 및 동기화는 개발자나 시스템 수준에서 처리해..

Tech 2025.06.02

[논문 요약 및 리뷰] NeoMem: Hardware/Software Co-Design for CXL-Native Memory Tiering - Microsoft , 북경대 발표 논문, CXL Solutio

최근 CXL 관련 기술을 검토할 일이 있었는데, 그 과정에서 흥미롭게 본 논문 하나를 소개하려고 합니다. NeoMem 이라는 논문인데요, CXL 환경에서 메모리 티어링 을 잘 수행할 수 있도록 하드웨어와 소프트웨어를 통합 구현한 솔루션입니다. 요즘 CXL이 산업 내에서 자주 언급되고 있지만, 아직 실질적인 제품화나 적용 사례는 제한적입니다. 하지만 이 논문은 "이런 방향으로 실제 구현할 수 있다"는 것을 보여주는 꽤 현실적인 모델이라서, 흥미로운 내용이라 포스팅해보려고 합니다.이번 글에서는 회사 업무 관련 내용은 배제하고, 논문에 대한 내용만 요약 및 소개하고 마지막에 개인적인 의견도 간단히 덧붙여보고자 합니다.NeoMem 솔루션의 필요성기존 메모리 티어링 기술은 정확도가 낮고 오버헤드가 큰 방식에 의존..

Tech 2025.05.26

NVLink Fusion, AI 인프라 주도권 전쟁 - UALink, NVIDIA 독주, 차별화

2025년 5월, NVIDIA는 Computex 2025에서 NVLink Fusion을 발표했습니다.이는 NVIDIA 외 다른 회사의 가속기도 NVLink로 연결하는 기술로,AI 인프라 네트워크 시장에서 NVIDIA가 사실상 표준을 만들어가고 있다는 강력한 신호입니다. 전 세계 서버 시장 현황 (2024 기준)2024년 전 세계 서버 출하량: 약 1,365만 대AI 서버는 약 165~167만 대로 추산 (12% 수준)나버지 88%는 일반 서버2024년 전 세계 시장 가치(매출 기준) 비중AI 서버 시장 규모: 65% (약 1,870억 달러)일반 서버의 시장 가치 비중: 35% (약 1,000억 달러)AI 서버 시장 NVIDIA 점유율약 90%로 압도적 점유율출처:1. https://v.daum.net/v..

Tech 2025.05.21

[Summary] Nvidia CEO Jensen Huang's Keynote at COMPUTEX 2025: , A Glimpse into the Future of AI Infrastructure

Nvidia's CEO, Jensen Huang, delivered the keynote on May 19, a day before the official opening of COMPUTEX 2025, at the Taipei Music Center. This announcement was not made during COMPUTEX, but rather at Nvidia's independent event. Original Video: Nvidia CEO Jensen Huang Keynote at COMPUTEX 2025 What is COMPUTEX 2025?COMPUTEX 2025 is the world’s largest computer technology exhibition, held in Tai..

Tech 2025.05.19
반응형