03/03/2026
[Volume2 Amazon 출판 예고] NPU 설계의 정점, 실전 13x10 Systolic Array를 만나다
"이론으로만 배우던 시스톨릭 어레이, 이제 실제 하드웨어로 구동하십시오."
Volume 1에서 NPU의 전체 시스템 구조와 브로드캐스팅(Broadcasting) 방식을 마스터했다면, 이제 Volume 2에서 고성능 연산의 핵심인 Systolic Array의 진수를 경험할 차례입니다.
🚀 Volume 2의 핵심: 13x10 Systolic Array 실전 구현
이번 v2에서는 단순히 개념을 설명하는 수준을 넘어, 실제 FCL(Fully Connected Layer) 연산을 수행하는 13x10 Systolic Array를 Verilog RTL로 완벽히 구현하고 CIFAR10 인식을 FPGA로 확인합니다.
- 실전적 스케일: MNIST/CIFAAR10과 같은 실무 데이터 처리에 최적화된 13x10 크기의 PE(Processing Element) 어레이 설계.
- 오차 없는 검증: 첨부된 엑셀 골든 모델의 연산 트레이스와 RTL 시뮬레이션 결과가 100% 일치하는 'Bit-True Verification' 달성.
- 성능의 시각화: 데이터가 각 PE 사이를 흐르는 웨이브프런트(Wavefront) 현상과 실시간 하드웨어 활용률(Utilization)을 수치로 확인.
🎬 심장이 박동하는 'Systolic Simulation'을 확인하세요!
하드웨어가 살아 움직이는 것을 직접 목격하십시오. 엑셀에서 설계한 수식이 어떻게 하드웨어 로직으로 치환되어 박동하는지, 아래 영상을 통해 확인하실 수 있습니다.
- Systolic Excel Simulation: 데이터의 흐름을 시뮬레이션한 '심장이 뛰는 듯한' 엑셀 트레이스 영상
- Vivado Simulation: 실제 FPGA 환경에서의 정밀한 웨이브폼과 연산 결과 매칭 영상
- 데모 영상 (3x3 GEMM):본 영상은 엑셀 골든 모델(Excel Golden Model)에 정의된 3x3 행렬 연산 사례를 활용하여 시스톨릭의 핵심 원리를 설명합니다. 학습자가 데이터 비트 하나하나가 PE를 거쳐 맥동(Pulse)하며 전달되는 과정을 정밀하게 추적할 수 있도록 단순화된 규모로 제작되었습니다.
- 도서 실전 구현 (13x10 어레이): 시각적 이해를 돕기 위해 데모 영상은 3x3 규모를 채택했지만, Volume 2 본서에서는 실제 연산 부하가 높은 전결합층(Fully Connected Layer, FCL) 처리에 최적화된 13x10 시스톨릭 어레이의 전체 RTL 구현 소스를 제공합니다.
💡 왜 Volume 1이 먼저인가요?
v2에서 구현한 13x10 Systolic Array는 매우 강력한 '엔진'입니다. 하지만 v2의 고성능 아키텍처를 진정으로 이해하고 활용하기 위해서는, 전체 시스템 설계의 기초를 다룬 Volume 1의 학습이 반드시 선행되어야 합니다.
[시리즈의 시작: Volume 1 바로가기]
아직 첫 번째 발걸음을 떼지 않으셨다면, 아마존 베스트셀러로 검증된 Volume 1 "AI NPU System Design with Python and Verilog"을 확인하세요. 모든 소스코드는 책구매와 관계없이 공개됩니다.
Amazon Microprocessor Design #1 New Release
Amazon Compiler Design #3 Best Seller
Amazon Microprocessor Design #4 Best Seller
🔗 아마존 링크: https://www.amazon.com/dp/B0GLQVJWMK
📂 Volume 1 무료제공 소스코드 GitHub URL: https://github.com/estlit/AI_NPU_System_Design_v1