반응형

Tech 16

Phison aiDAPTIV+ 알아보기 — AI Storage, SSD를 활용하여 AI 스토리지 병목을 푸는 지능형 미들웨어 및 솔루션

개요(Executive Summary)Phison aiDAPTIV+는 GPU·DRAM·NVMe SSD를 하나의 계층형 메모리 풀처럼 묶어, 고가의 HBM/VRAM 의존도를 낮추고 온프레미스에서 대형 LLM(예: Llama 2/3 70B)까지 다룰 수 있게 하는 하드웨어+소프트웨어 하이브리드 솔루션입니다. 실제 GTC 2024 현장에서 4×RTX 6000 Ada 워크스테이션으로 70B급 워크로드를 시연했습니다. 링크: https://www.tomshardware.com/pc-components/cpus/phisons-new-software-uses-ssds-and-dram-to-boost-effective-memory-for-ai-training-demos-a-single-workstation-runnin..

Tech 2025.09.17

PCIe Relaxed Ordering과 Ordering Rules 정리, Ordering rule 표 읽는 법

1. 기본 개념PCIe에서 전송되는 모든 Transaction Layer Packet(TLP)은 순서(Ordering) 규칙을 따릅니다.즉, 패킷이 도착하는 순서가 시스템 동작에 영향을 미치므로, 어떤 경우에는 엄격한 순서 유지(Strict Ordering) 가 필요하고, 어떤 경우에는 순서를 완화(Relaxed Ordering, RO) 해도 무방합니다.Strict Ordering (RO=0): 전송된 순서 그대로 도착·처리되어야 함Relaxed Ordering (RO=1): 특정 조건에서 순서를 바꿔도 무방함 → 성능 최적화 가능2. Relaxed Ordering이 필요한 이유PCIe는 고성능 인터커넥트이므로, 무조건 순서를 지키면 병목이 발생할 수 있습니다.특히 메모리 읽기/쓰기 요청에서 독립적인 트..

Tech 2025.08.22

엔비디아 암페어 vs 호퍼 차이, 블랙웰·GB까지 한눈에 정리

서론엔비디아(NVIDIA) GPU 아키텍처는 이제 단순한 그래픽 카드 기술을 넘어, AI 인프라의 핵심으로 자리 잡았습니다.많은 분들이 “암페어(Ampere)와 호퍼(Hopper)의 차이는 무엇인가?”, “블랙웰(Blackwell)과 GB 아키텍처는 또 뭐지?”라는 궁금증을 가지시는데요.이번 글에서는 암페어 → 호퍼 → 블랙웰·GB까지 이어지는 아키텍처 변화를 한눈에 정리해 보겠습니다.1. 암페어(Ampere) 아키텍처출시: 2020년 (A100, RTX 30 시리즈)주요 특징3세대 Tensor Core: FP16, TF32 연산 최적화MIG (Multi-Instance GPU): GPU를 분할해 여러 사용자 동시 활용 가능HPC와 AI 학습에서 대세로 자리잡음2. 호퍼(Hopper) 아키텍처출시: 20..

Tech 2025.08.18

Spark급 AI 워크스테이션, 어떤 하드웨어가 있을까? 사양·가격 비교

Spark급 AI 워크스테이션의 대표 모델들을 비교하고, 가격과 사양을 한눈에 볼 수 있도록 정리해보겠습니다.1. 비교 대상 하드웨어NVIDIA DGX Spark Founders Edition – GB10 Grace Blackwell 슈퍼칩, 1TB·4TB 모델ASUS Ascent GX10 – 동일한 슈퍼칩 기반, OEM 버전Beelink GTR9 Pro – AMD Ryzen AI Max+ 395 기반Framework Desktop (Ryzen AI Max+ 395) – 모듈형 설계, OS 선택 폭 넓음GMKtec EVO-T1 – Intel 기반 소형 AI PC2. 가격·사양 비교 (환율 1달러 ≈ 1,380원)모델아키텍처/칩셋메모리스토리지AI 성능(TOPS)OS가격(USD)가격(KRW)특징NVIDIA ..

Tech 2025.08.16

엔비디아 DGX Spark 하드웨어 분석 — 가격, 사양, 활용 정리

1. 가격 정보 (2025년 7월 기준)공식 파운더스 에디션과 OEM 모델, 번들 패키지 가격은 다음과 같습니다.(환율 1달러 ≈ 1,380원 기준, 부가세·관세 미포함)모델 용량 가격(USD) 가격(KRW, 약)모델용량가격(USD)가격(KRW)DGX Spark Founders Edition4TB$3,999약 5.51백만 원DGX Spark Founders Edition1TB$2,999약 4.14백만 원ASUS Ascent GX101TB$2,999약 4.14백만 원DGX Spark 2대 번들4TB × 2$8,049약 11.1백만 원참고: ASUS, Dell, HP 등 OEM 파트너 모델은 사양·디자인 차이에 따라 가격이 변동될 수 있습니다. 2. 주요 사양항목내용프로세서GB10 Grace Blackwel..

Tech 2025.08.16

[논문 리뷰] On-Device Training Under 256KB Memory — Tiny Training, 256KB 메모리로 AI 학습

MIT의 Han Lab은 단 256KB의 메모리만으로도 학습이 가능한 프레임워크인 Tiny Training을 공개했습니다.이 글에서는 해당 기술의 핵심 개념과 구조를 스토리지나 IoT 디바이스 등 제한된 환경에서 어떻게 응용할 수 있는지까지 살펴봅니다.왜 학습이 어려운가?대부분의 AI 학습은 수백 MB ~ 수 GB에 달하는 메모리와 GPU 연산을 요구합니다. 특히 학습 중에는:모든 activation을 저장해야 하고모든 gradient를 계산해야 하며모든 weight를 update할 수 있어야 합니다.그러나 IoT 디바이스나 MCU(Microcontroller Unit)에는 SRAM이 256KB, Flash는 1MB 정도로 극히 제한적입니다. 이 환경에선 기존 방식으로 학습이 불가능합니다.Tiny Tra..

Tech 2025.08.09

AMD GPU 라인업 조사 정리 — MI100 부터 MI300X 까지, 그리고 MI308

AMD GPU 주요 제품 정리제품명아키텍처출시연도CU수메모리FP16 연산성능(최대, FLOPS)FP32 연산 성능(TFLOPS)FP64 연산 성능(TFLOPS)메모리 대역폭TDPMI100CDNA 1202012032GB HBM2184.623.111.51.23 TB/s300WMI210CDNA 2202210464GB HBM2e181 (FP16/BF16/INT8/INT4 TOPS)*22.622.61.6 TB/s300WMI250CDNA 22021208128GB HBM2e362.1 (FP16/BF16)45.390.53.28 TB/s560WMI250XCDNA 22021220128GB HBM2e383 (FP16/BF16)47.995.73.28 TB/s560WMI300ACDNA 32023228128GB HBM3980.6..

Tech 2025.08.08

AMD GPU 구조 분석 및 정리 — CDNA vs RDNA

정리항목RDNA(그래픽용)CDNA(연산용)설계 목적게임·3D 렌더링, 영상 처리AI·HPC·행렬 연산 특화그래픽 파이프라인포함 (픽셀 쉐이더, 레이 트레이싱 등)전면 제거디스플레이 출력 엔진존재 (Display Controller, HDMI/DP PHY)없음Geometry / Rasterizer포함 (Primitive 처리)제거됨SIMD 구조Wave32 or Wave64Wave64 고정, 행렬 연산 최적화Tensor 연산 엔진없음 (RDNA 3에선 일부 있음)매트릭스 코어(Matrix Engine) 탑재메모리 서브시스템GDDR6/X + 일반 메모리 컨트롤러HBM2/3 고대역폭 메모리 + 인터포저 설계캐시 계층 구조L0~L2 일반 그래픽용 캐시L1~L2 Compute-optimized 캐시 (동시 연산 최..

Tech 2025.08.08

[Paper Review] MicroNN by Apple: A Disk-resident Vector Database for On-device AI — Adaptable for custom-RAG?

OverviewApple's MicroNN is a lightweight, on-device vector search engine optimized for constrained environments such as smartphones and edge devices. Unlike most ANN systems designed for high-memory server setups, MicroNN is designed to operate with as little as 10MB of RAM and fully disk-resident data structures, while still achieving and 90% recall on million-scale vector benchmarks. This pos..

Tech 2025.06.18
반응형