# 8/30 會議
###### tags: `Chip level`
- Analytical model
compute time
data movement
- Rmk
cache bank 模擬
local mem hierarchy

異質 PE
- PMU
前處理、SRAM、調整 data layout
- PCU
2D MXU: 減少 data movement
VPU: 保持 PE (MAC) 的簡單性,選擇不同的 data flow
1. op 在 PE 上的配置(cache memory)
2. cost function 時間、
3. function style
所有 op 的計算 map 到 PE
先從 idea 做處理
call back function: Maestro 與 PE 的 interface
data verification: PE 要負責驗證 data 正確性
memory 做在 NoC 裡面
==標準化 PE cost function==(component model interface): 查表
==dynamic== call back function
- 三種 modeling: PE NoC Mem
elf 放在 PE 的 memory 做 parse 與執行
需要 follow loadable 的定義
python script 與 MLIR compiler 產生 loadable file
- Top level
切圖
schedule
resource alloc
- PE
cost function、traffic、interface
PE input foamat
dataflow mapping 分配 data 到各個 PE 各自做運算
control flow 所有 PE 一起做一個 op
PE 的 input/output tensor
outer product 可以同時算一堆 partial sum 做 parallel
PCU: SIMD processor/ instruction set
PTU: tensor 轉換/ local mem 讀寫/ DMA(data movement)memory management(最多 address 運算)
分開的 PTU 與 PCU: loadable 定義 op 是 PTU 還是 PCU 做
- PE 展望
PCU: SME 做了 compute 最佳化但 data movement 不佳
PTU: 最少 area
SME: 不想改變 programming model 又不想 data movement delay 太久
- 問題集
code interface
如何挑 RVV 的參數進 Maestro
標準化 PE cost function