1. 주요 내용하드웨어: Samsung SmartSSD 사용 (KU15P Xilinx FPGA + SSD로 구성)소프트웨어: attention 연산을 SmartSSD에 offload하는 custom FPGA logic 개발시스템 설계: GPU + SmartSSD 협업을 조율하는 host-side runtime 설계📌 즉, 하드웨어 가속기와 소프트웨어 스케줄링을 결합한 end-to-end LLM Inference 최적화 솔루션2. 문제점 착안LLM 추론에서 다음과 같은 병목이 존재:문제점설명KV cache 크기 폭증context 길이 및 batch가 커질수록 K/V 행렬이 수십~수백 GB 이상GPU 메모리 부족모델 파라미터 + KV cache → GPU memory 감당 불가SSD로 offload 시 I..