지시어별 데이터 흐름¶

이 페이지는 지시어가 디스패치된 뒤 하드웨어 내부에서 데이터가 실제로 흐르는 경로를 보여준다. 아래의 그림은 탑레벨 아키텍처 의 블록 다이어그램을 지시어 관점에서 다시 정리한 것이다.

1. GEMM¶

그림 5: GEMM 지시어가 디스패치될 때의 데이터 흐름.: dest_addr와 src_addr 는 L2 캐시 주소 공간에 존재하며, shape/size 포인터가 Constant Cache를 가리킨다.

Dispatcher가 Constant Cache에서 shape_ptr_addr / size_ptr_addr 를 읽어 타일 파라미터를 얻는다.
Weight Buffer는 HP 포트에서 한 타일 분량의 가중치를 프리패치한다.
L2 캐시의 src_addr 값으로 활성값을 systolic array로 스트리밍한다.
배열은 Weight Stationary → Accumulator → Post-Process 순으로 누산한다.
결과는 dest_reg 위치의 L2 캐시에 다시 쓴다.

async = 1 일 때 실행은 다음 지시어로 즉시 넘어간다. 완료 펜스 추적은 Global Scheduler가 수행한다.

특수 함수 유닛(SFU, 또는 CVO)은 BF16 스칼라 파이프라인에서 비선형 연산을 실행한다.

빠른 경로: SFU가 직전 GEMV 출력을 즉시 소비하면 src_addr 값이 특수 태그로 설정되어 L2 왕복이 생략된다. Dispatcher의 의존성 추적 로직이 이를 자동으로 결정한다.

지시어 간 의존성은 Global Scheduler가 다음 두 항목으로 처리한다.

비동기 지시어(async = 1)의 완료는 fsmout_npu_stat_collector 블록이 수집하며, AXI-Lite STAT_OUT 레지스터를 통해 host로 보고한다.