Try   HackMD

2025q1 Homework1 (ideas)

contributed by < Hlunlun >

Linux 核心專題: llama.cpp 效能分析

沒有要做這個

  1. TODO: Transformer 要解決什麼問題?
    它改善了 RNN/LSTM 的記憶問題還有 CNN 的計算效率,但它其實也有可以優化的地方,像是後來的 infinite transformer 就是在解決其有限記憶體和計算的有限長輸入的問題

  2. TODO: 影響 LLaMA 推理速度的因素?
    了解到 Perplexity 指標,在其論文中都會有 PPL 這個指標的比較但都沒了解過,關於量化這個部份最底下的評論:探討其代價。不理解為何用代價來描述?

  3. TODO: 選定 data type 並聚焦在 matmul 實作
    在 CUDA 分析可以做一點貢獻,因為當時作者是用 1070 做的分析,也許可以用現在的型號在試試看

  4. TODO: 提出更快的 matmul
    可以用 CUDA 去運算 matmul ,並學習 CUDA 程式開發

  5. TODO: 探討 llamafile 相較於 llama.cpp 進行哪些調整,得以加速?
    llamafile 竟然是一個檔案就可以跑 LLaMA 大語言模型,可以研讀其原始馬來獲得靈感

  6. TODO: 閱讀 LLaMA Now Goes Faster on CPUs 並紀錄問題
    我現在還沒成功在 CPU 跑 LLaMA 成功過,不知道這要怎麼作到,可能要去看論文

  7. TODO: 定位出 LLaMA 效能瓶頸
    要怎麼去分析其記憶體使用?