# 8/30 會議 ###### tags: `Chip level` - Analytical model compute time data movement - Rmk cache bank 模擬 local mem hierarchy ![](https://i.imgur.com/YHszZQi.png) 異質 PE - PMU 前處理、SRAM、調整 data layout - PCU 2D MXU: 減少 data movement VPU: 保持 PE (MAC) 的簡單性,選擇不同的 data flow 1. op 在 PE 上的配置(cache memory) 2. cost function 時間、 3. function style 所有 op 的計算 map 到 PE 先從 idea 做處理 call back function: Maestro 與 PE 的 interface data verification: PE 要負責驗證 data 正確性 memory 做在 NoC 裡面 ==標準化 PE cost function==(component model interface): 查表 ==dynamic== call back function - 三種 modeling: PE NoC Mem elf 放在 PE 的 memory 做 parse 與執行 需要 follow loadable 的定義 python script 與 MLIR compiler 產生 loadable file - Top level 切圖 schedule resource alloc - PE cost function、traffic、interface PE input foamat dataflow mapping 分配 data 到各個 PE 各自做運算 control flow 所有 PE 一起做一個 op PE 的 input/output tensor outer product 可以同時算一堆 partial sum 做 parallel PCU: SIMD processor/ instruction set PTU: tensor 轉換/ local mem 讀寫/ DMA(data movement)memory management(最多 address 運算) 分開的 PTU 與 PCU: loadable 定義 op 是 PTU 還是 PCU 做 - PE 展望 PCU: SME 做了 compute 最佳化但 data movement 不佳 PTU: 最少 area SME: 不想改變 programming model 又不想 data movement delay 太久 - 問題集 code interface 如何挑 RVV 的參數進 Maestro 標準化 PE cost function