Tech

[논문 요약/리뷰] INF²: High Throughput Generative Inference of LLMs using Near-Storage

Futureseed 2025. 6. 14. 13:53
반응형

 

1. 주요 내용

  • 하드웨어: Samsung SmartSSD 사용 (KU15P Xilinx FPGA + SSD로 구성)
  • 소프트웨어: attention 연산을 SmartSSD에 offload하는 custom FPGA logic 개발
  • 시스템 설계: GPU + SmartSSD 협업을 조율하는 host-side runtime 설계

📌 즉, 하드웨어 가속기와 소프트웨어 스케줄링을 결합한 end-to-end LLM Inference 최적화 솔루션


2. 문제점 착안

LLM 추론에서 다음과 같은 병목이 존재:

문제점설명
KV cache 크기 폭증context 길이 및 batch가 커질수록 K/V 행렬이 수십~수백 GB 이상
GPU 메모리 부족모델 파라미터 + KV cache → GPU memory 감당 불가
SSD로 offload 시 I/O 병목attention 계산하려면 매 step마다 K/V를 SSD에서 GPU로 불러와야 함 → PCIe 병목 발생

3. 해결책

INF²의 핵심 전략:

"그럼 애초에 SSD에 저장한 KV cache를, SSD 안에서 처리하자"

구체적으로:

  • GPU: Q만 계산
  • SmartSSD: K, V 저장 + attention 연산(GEMV, softmax) 실행
  • Host: 실행 경로 판단, delayed KV 저장, X-cache 활용 여부 결정

최적화 요소:

  • ANS: Attention Near Storage 구조
  • Delayed KV Writeback: K/V를 즉시 SSD에 쓰지 않고 모아서 저장
  • X-cache: KV 대신 더 작은 X만 저장하고 GPU에서 다시 K/V 계산

4. 성능 개선

항목개선
GPU memory 사용최대 3.69× 감소 (X-cache 덕분)
I/O 병목 완화GPU ↔ SSD 간 데이터 이동량 대폭 감소
Throughput기존 대비 최대 3.46× 향상
비용 효율성고성능 GPU 없이도 대규모 inference 가능 (off-the-shelf 구성)

5. 그럼에도 여전히 남아 있는 문제점

① FPGA 성능 한계

  • context 길이가 아주 길거나 batch가 많아지면 → FPGA 연산량 감당 불가

② prefill 단계는 GPU 필요

  • SmartSSD는 decoding 전용으로, prefill(처음 프롬프트 처리)은 여전히 GPU에서 full attention 수행해야 함

③ 다수 SSD 확장 시 병목

  • 내부 PCIe 스위치는 SmartSSD 단독으로는 빠르지만, 다수 장비 사용 시 contention 가능

④ 소프트웨어 복잡도

  • host runtime은 고도화된 스케줄링 로직이 필요 (분담, 타이밍, 캐시 정책 등)

6. 사용자(고객) 입장에서 본 INF²

관점장점한계
설치/운용SmartSSD만 꽂으면 기존 서버에 적용 가능 (비용 효율)FPGA 프로그래밍, 호스트 소프트웨어 구성 필요
성능 향상I/O 병목 제거로 throughput 향상사용 workload에 따라 가속 효과 제한적
유연성기존 모델 구조 그대로 사용 가능 (모델 변경 없음)전용 runtime 환경에 종속적
기술 요구사항GPU 자원 절감 → 비용 장점SSD+FPGA 개발 경험 없으면 운영 난이도↑

 
논문 링크: https://arxiv.org/abs/2502.09921

INF^2: High-Throughput Generative Inference of Large Language Models using Near-Storage Processing

The growing memory and computational demands of large language models (LLMs) for generative inference present significant challenges for practical deployment. One promising solution to address these challenges is offloading-based batched inference, which l

arxiv.org

 

반응형