2025q1 Homework1 (ideas)

contributed by < Hlunlun >

Linux 核心專題: llama.cpp 效能分析

沒有要做這個

TODO: Transformer 要解決什麼問題？
它改善了 RNN/LSTM 的記憶問題還有 CNN 的計算效率，但它其實也有可以優化的地方，像是後來的 infinite transformer 就是在解決其有限記憶體和計算的有限長輸入的問題
TODO: 影響 LLaMA 推理速度的因素？
了解到 Perplexity 指標，在其論文中都會有 PPL 這個指標的比較但都沒了解過，關於量化這個部份最底下的評論：探討其代價。不理解為何用代價來描述？
TODO: 選定 data type 並聚焦在 matmul 實作
在 CUDA 分析可以做一點貢獻，因為當時作者是用 1070 做的分析，也許可以用現在的型號在試試看
TODO: 提出更快的 matmul
可以用 CUDA 去運算 matmul ，並學習 CUDA 程式開發
TODO: 探討 llamafile 相較於 llama.cpp 進行哪些調整，得以加速？
llamafile 竟然是一個檔案就可以跑 LLaMA 大語言模型，可以研讀其原始馬來獲得靈感
TODO: 閱讀 LLaMA Now Goes Faster on CPUs 並紀錄問題
我現在還沒成功在 CPU 跑 LLaMA 成功過，不知道這要怎麼作到，可能要去看論文
TODO: 定位出 LLaMA 效能瓶頸
要怎麼去分析其記憶體使用？