반응형

Tech 10

[논문 리뷰] On-Device Training Under 256KB Memory — Tiny Training, 256KB 메모리로 AI 학습

MIT의 Han Lab은 단 256KB의 메모리만으로도 학습이 가능한 프레임워크인 Tiny Training을 공개했습니다.이 글에서는 해당 기술의 핵심 개념과 구조를 스토리지나 IoT 디바이스 등 제한된 환경에서 어떻게 응용할 수 있는지까지 살펴봅니다.왜 학습이 어려운가?대부분의 AI 학습은 수백 MB ~ 수 GB에 달하는 메모리와 GPU 연산을 요구합니다. 특히 학습 중에는:모든 activation을 저장해야 하고모든 gradient를 계산해야 하며모든 weight를 update할 수 있어야 합니다.그러나 IoT 디바이스나 MCU(Microcontroller Unit)에는 SRAM이 256KB, Flash는 1MB 정도로 극히 제한적입니다. 이 환경에선 기존 방식으로 학습이 불가능합니다.Tiny Tra..

Tech 2025.08.09

AMD GPU 라인업 조사 정리 — MI100 부터 MI300X 까지, 그리고 MI308

AMD GPU 주요 제품 정리제품명아키텍처출시연도CU수메모리FP16 연산성능(최대, FLOPS)FP32 연산 성능(TFLOPS)FP64 연산 성능(TFLOPS)메모리 대역폭TDPMI100CDNA 1202012032GB HBM2184.623.111.51.23 TB/s300WMI210CDNA 2202210464GB HBM2e181 (FP16/BF16/INT8/INT4 TOPS)*22.622.61.6 TB/s300WMI250CDNA 22021208128GB HBM2e362.1 (FP16/BF16)45.390.53.28 TB/s560WMI250XCDNA 22021220128GB HBM2e383 (FP16/BF16)47.995.73.28 TB/s560WMI300ACDNA 32023228128GB HBM3980.6..

Tech 2025.08.08

AMD GPU 구조 분석 및 정리 — CDNA vs RDNA

정리항목RDNA(그래픽용)CDNA(연산용)설계 목적게임·3D 렌더링, 영상 처리AI·HPC·행렬 연산 특화그래픽 파이프라인포함 (픽셀 쉐이더, 레이 트레이싱 등)전면 제거디스플레이 출력 엔진존재 (Display Controller, HDMI/DP PHY)없음Geometry / Rasterizer포함 (Primitive 처리)제거됨SIMD 구조Wave32 or Wave64Wave64 고정, 행렬 연산 최적화Tensor 연산 엔진없음 (RDNA 3에선 일부 있음)매트릭스 코어(Matrix Engine) 탑재메모리 서브시스템GDDR6/X + 일반 메모리 컨트롤러HBM2/3 고대역폭 메모리 + 인터포저 설계캐시 계층 구조L0~L2 일반 그래픽용 캐시L1~L2 Compute-optimized 캐시 (동시 연산 최..

Tech 2025.08.08

[Paper Review] MicroNN by Apple: A Disk-resident Vector Database for On-device AI — Adaptable for custom-RAG?

OverviewApple's MicroNN is a lightweight, on-device vector search engine optimized for constrained environments such as smartphones and edge devices. Unlike most ANN systems designed for high-memory server setups, MicroNN is designed to operate with as little as 10MB of RAM and fully disk-resident data structures, while still achieving and 90% recall on million-scale vector benchmarks. This pos..

Tech 2025.06.18

[논문 요약/리뷰] INF²: High Throughput Generative Inference of LLMs using Near-Storage

1. 주요 내용하드웨어: Samsung SmartSSD 사용 (KU15P Xilinx FPGA + SSD로 구성)소프트웨어: attention 연산을 SmartSSD에 offload하는 custom FPGA logic 개발시스템 설계: GPU + SmartSSD 협업을 조율하는 host-side runtime 설계📌 즉, 하드웨어 가속기와 소프트웨어 스케줄링을 결합한 end-to-end LLM Inference 최적화 솔루션2. 문제점 착안LLM 추론에서 다음과 같은 병목이 존재:문제점설명KV cache 크기 폭증context 길이 및 batch가 커질수록 K/V 행렬이 수십~수백 GB 이상GPU 메모리 부족모델 파라미터 + KV cache → GPU memory 감당 불가SSD로 offload 시 I..

Tech 2025.06.14

NVIDIA SCADA(SCaled Accelerated Data Access) 관련 내용 정리, 차세대 Data Access 기술, NVIDI

1. SCADA(SCaled Accelerated Data Access)란?SCADA는 기존의 산업제어 시스템을 의미하는 SCADA(Supervisory Control and Data Acquisition)와는 다릅니다. 여기서 말하는 SCADA는 NVIDIA가 2024년 하반기 Open Compute Project(OCP) 및 GTC 등에서 공식적으로 발표한 새로운 프로그래밍 모델이자, GPU가 대규모 데이터셋을 직접, 병렬, 고속으로 접근할 수 있게 해주는 차세대 데이터 액세스 기술을 뜻합니다. 이 기술은 초대형 AI·그래프·분석 데이터셋이 GPU 메모리 한계를 넘어서는 시대에, GPU가 직접 NVMe 등 스토리지에 On-demand 로 접근해 필요한 데이터를 실시간으로 불러오고 처리할 수 있도록 설..

Tech 2025.06.02

[논문 요약/리뷰] GeminiFS: A Companion File System for GPUs

GeminiFS: Host와 GPU 모두 Storage를 Direct 접근하여 사용할 수 있는 솔루션AI/ML 워크로드가 대형화되면서, GPU가 데이터를 직접 NVMe SSD에서 불러와 처리하는 구조가 관심을 받고 있습니다. NVIDIA의 GDS(GPU Direct Storage)나 BaM(Big Accelerator Memory)등이 대표적인 기술입니다. 하지만 이 기술들은 GPU는 Block 단위로 Storage I/O는 가능하지만, 파일시스템 수준의 Abstraction이나 Coherency, Metadata 관리 등은 불가능하거나 제한적으로만 가능합니다. 즉, GPU가 실제로 파일을 열 때 여전히 CPU가 개입해야 하거나, CPU와 GPU간 데이터 공유 및 동기화는 개발자나 시스템 수준에서 처리해..

Tech 2025.06.02

[논문 요약 및 리뷰] NeoMem: Hardware/Software Co-Design for CXL-Native Memory Tiering - Microsoft , 북경대 발표 논문, CXL Solutio

최근 CXL 관련 기술을 검토할 일이 있었는데, 그 과정에서 흥미롭게 본 논문 하나를 소개하려고 합니다. NeoMem 이라는 논문인데요, CXL 환경에서 메모리 티어링 을 잘 수행할 수 있도록 하드웨어와 소프트웨어를 통합 구현한 솔루션입니다. 요즘 CXL이 산업 내에서 자주 언급되고 있지만, 아직 실질적인 제품화나 적용 사례는 제한적입니다. 하지만 이 논문은 "이런 방향으로 실제 구현할 수 있다"는 것을 보여주는 꽤 현실적인 모델이라서, 흥미로운 내용이라 포스팅해보려고 합니다.이번 글에서는 회사 업무 관련 내용은 배제하고, 논문에 대한 내용만 요약 및 소개하고 마지막에 개인적인 의견도 간단히 덧붙여보고자 합니다.NeoMem 솔루션의 필요성기존 메모리 티어링 기술은 정확도가 낮고 오버헤드가 큰 방식에 의존..

Tech 2025.05.26

NVLink Fusion, AI 인프라 주도권 전쟁 - UALink, NVIDIA 독주, 차별화

2025년 5월, NVIDIA는 Computex 2025에서 NVLink Fusion을 발표했습니다.이는 NVIDIA 외 다른 회사의 가속기도 NVLink로 연결하는 기술로,AI 인프라 네트워크 시장에서 NVIDIA가 사실상 표준을 만들어가고 있다는 강력한 신호입니다. 전 세계 서버 시장 현황 (2024 기준)2024년 전 세계 서버 출하량: 약 1,365만 대AI 서버는 약 165~167만 대로 추산 (12% 수준)나버지 88%는 일반 서버2024년 전 세계 시장 가치(매출 기준) 비중AI 서버 시장 규모: 65% (약 1,870억 달러)일반 서버의 시장 가치 비중: 35% (약 1,000억 달러)AI 서버 시장 NVIDIA 점유율약 90%로 압도적 점유율출처:1. https://v.daum.net/v..

Tech 2025.05.21

[Summary] Nvidia CEO Jensen Huang's Keynote at COMPUTEX 2025: , A Glimpse into the Future of AI Infrastructure

Nvidia's CEO, Jensen Huang, delivered the keynote on May 19, a day before the official opening of COMPUTEX 2025, at the Taipei Music Center. This announcement was not made during COMPUTEX, but rather at Nvidia's independent event. Original Video: Nvidia CEO Jensen Huang Keynote at COMPUTEX 2025 What is COMPUTEX 2025?COMPUTEX 2025 is the world’s largest computer technology exhibition, held in Tai..

Tech 2025.05.19
반응형