[논문 요약/리뷰] INF²: High Throughput Generative Inference of LLMs using Near-Storage

Tech

[논문 요약/리뷰] INF²: High Throughput Generative Inference of LLMs using Near-Storage

Futureseed 2025. 6. 14. 13:53

1. 주요 내용

하드웨어: Samsung SmartSSD 사용 (KU15P Xilinx FPGA + SSD로 구성)
소프트웨어: attention 연산을 SmartSSD에 offload하는 custom FPGA logic 개발
시스템 설계: GPU + SmartSSD 협업을 조율하는 host-side runtime 설계

📌 즉, 하드웨어 가속기와 소프트웨어 스케줄링을 결합한 end-to-end LLM Inference 최적화 솔루션

2. 문제점 착안

LLM 추론에서 다음과 같은 병목이 존재:

문제점	설명
KV cache 크기 폭증	context 길이 및 batch가 커질수록 K/V 행렬이 수십~수백 GB 이상
GPU 메모리 부족	모델 파라미터 + KV cache → GPU memory 감당 불가
SSD로 offload 시 I/O 병목	attention 계산하려면 매 step마다 K/V를 SSD에서 GPU로 불러와야 함 → PCIe 병목 발생

3. 해결책

INF²의 핵심 전략:

"그럼 애초에 SSD에 저장한 KV cache를, SSD 안에서 처리하자"

구체적으로:

GPU: Q만 계산
SmartSSD: K, V 저장 + attention 연산(GEMV, softmax) 실행
Host: 실행 경로 판단, delayed KV 저장, X-cache 활용 여부 결정

최적화 요소:

ANS: Attention Near Storage 구조
Delayed KV Writeback: K/V를 즉시 SSD에 쓰지 않고 모아서 저장
X-cache: KV 대신 더 작은 X만 저장하고 GPU에서 다시 K/V 계산

4. 성능 개선

항목	개선
GPU memory 사용	최대 3.69× 감소 (X-cache 덕분)
I/O 병목 완화	GPU ↔ SSD 간 데이터 이동량 대폭 감소
Throughput	기존 대비 최대 3.46× 향상
비용 효율성	고성능 GPU 없이도 대규모 inference 가능 (off-the-shelf 구성)

5. 그럼에도 여전히 남아 있는 문제점

① FPGA 성능 한계

context 길이가 아주 길거나 batch가 많아지면 → FPGA 연산량 감당 불가

② prefill 단계는 GPU 필요

SmartSSD는 decoding 전용으로, prefill(처음 프롬프트 처리)은 여전히 GPU에서 full attention 수행해야 함

③ 다수 SSD 확장 시 병목

내부 PCIe 스위치는 SmartSSD 단독으로는 빠르지만, 다수 장비 사용 시 contention 가능

④ 소프트웨어 복잡도

host runtime은 고도화된 스케줄링 로직이 필요 (분담, 타이밍, 캐시 정책 등)

6. 사용자(고객) 입장에서 본 INF²

관점	장점	한계
설치/운용	SmartSSD만 꽂으면 기존 서버에 적용 가능 (비용 효율)	FPGA 프로그래밍, 호스트 소프트웨어 구성 필요
성능 향상	I/O 병목 제거로 throughput 향상	사용 workload에 따라 가속 효과 제한적
유연성	기존 모델 구조 그대로 사용 가능 (모델 변경 없음)	전용 runtime 환경에 종속적
기술 요구사항	GPU 자원 절감 → 비용 장점	SSD+FPGA 개발 경험 없으면 운영 난이도↑

논문 링크: https://arxiv.org/abs/2502.09921

INF^2: High-Throughput Generative Inference of Large Language Models using Near-Storage Processing

The growing memory and computational demands of large language models (LLMs) for generative inference present significant challenges for practical deployment. One promising solution to address these challenges is offloading-based batched inference, which l

arxiv.org

'Tech' 카테고리의 다른 글

AMD GPU 구조 분석 및 정리 — CDNA vs RDNA (1)	2025.08.08
[Paper Review] MicroNN by Apple: A Disk-resident Vector Database for On-device AI — Adaptable for custom-RAG? (0)	2025.06.18
NVIDIA SCADA(SCaled Accelerated Data Access) 관련 내용 정리, 차세대 Data Access 기술, NVIDI (0)	2025.06.02
[논문 요약/리뷰] GeminiFS: A Companion File System for GPUs (2)	2025.06.02
[논문 요약 및 리뷰] NeoMem: Hardware/Software Co-Design for CXL-Native Memory Tiering - Microsoft , 북경대 발표 논문, CXL Solutio (2)	2025.05.26

현재글[논문 요약/리뷰] INF²: High Throughput Generative Inference of LLMs using Near-Storage

Futureseed

A personal space to study, record, and grow - one small insight at a time

nvlink fusion, 이재명 수혜주 #기후부 #기후부 출범 수혜주 #태양광 수혜주, nvidia 주도권, ualink, 마르크스사생활, NVLink, ai infrastructure, ps일렉트로닉스 #테슬라 #로보택시 #로보택시수혜주 #테슬라수혜주, Quantum Computing, computex 2025, 쿠팡 #쿠팡10k #미국주식분석 #쿠팡실적 #coupang #성장주 #farfetch #이커머스 #미국상장기업 #wow멤버십, CUDA, 마르크스, 공산주의, grace blackwell, ai network, nvidia products, Robotics, Generative AI, ai 인프라,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Futureseed