# 2025q1 Homework1 (ideas) contributed by < Hlunlun > ## Linux 核心專題: llama.cpp 效能分析 ==沒有要做這個== 1. [TODO: Transformer 要解決什麼問題?](https://hackmd.io/@sysprog/SJCtkQhVA#TODO-Transformer-%E8%A6%81%E8%A7%A3%E6%B1%BA%E4%BB%80%E9%BA%BC%E5%95%8F%E9%A1%8C%EF%BC%9F) 它改善了 RNN/LSTM 的記憶問題還有 CNN 的計算效率,但它其實也有可以優化的地方,像是後來的 [infinite transformer](https://arxiv.org/abs/2404.07143) 就是在解決其有限記憶體和計算的有限長輸入的問題 2. [TODO: 影響 LLaMA 推理速度的因素?](https://hackmd.io/@sysprog/SJCtkQhVA#TODO-%E5%BD%B1%E9%9F%BF-LLaMA-%E6%8E%A8%E7%90%86%E9%80%9F%E5%BA%A6%E7%9A%84%E5%9B%A0%E7%B4%A0%EF%BC%9F) 了解到 Perplexity 指標,在其論文中都會有 PPL 這個指標的比較但都沒了解過,關於量化這個部份最底下的評論:探討其代價。不理解為何用代價來描述? 3. [TODO: 選定 data type 並聚焦在 matmul 實作](https://hackmd.io/@sysprog/ryIUgeJBC#TODO-%E9%81%B8%E5%AE%9A-data-type-%E4%B8%A6%E8%81%9A%E7%84%A6%E5%9C%A8-matmul-%E5%AF%A6%E4%BD%9C) 在 CUDA 分析可以做一點貢獻,因為當時作者是用 1070 做的分析,也許可以用現在的型號在試試看 4. [TODO: 提出更快的 matmul](https://hackmd.io/@sysprog/ryIUgeJBC#TODO-%E6%8F%90%E5%87%BA%E6%9B%B4%E5%BF%AB%E7%9A%84-matmul) 可以用 CUDA 去運算 matmul ,並學習 CUDA 程式開發 5. [TODO: 探討 llamafile 相較於 llama.cpp 進行哪些調整,得以加速?](https://hackmd.io/@sysprog/ryIUgeJBC#TODO-%E6%8E%A2%E8%A8%8E-llamafile-%E7%9B%B8%E8%BC%83%E6%96%BC-llamacpp-%E9%80%B2%E8%A1%8C%E5%93%AA%E4%BA%9B%E8%AA%BF%E6%95%B4%EF%BC%8C%E5%BE%97%E4%BB%A5%E5%8A%A0%E9%80%9F%EF%BC%9F) llamafile 竟然是一個檔案就可以跑 LLaMA 大語言模型,可以研讀其原始馬來獲得靈感 6. [TODO: 閱讀 LLaMA Now Goes Faster on CPUs 並紀錄問題](https://hackmd.io/@sysprog/BJ1T7UK80#TODO-%E9%96%B1%E8%AE%80-LLaMA-Now-Goes-Faster-on-CPUs-%E4%B8%A6%E7%B4%80%E9%8C%84%E5%95%8F%E9%A1%8C) 我現在還沒成功在 CPU 跑 LLaMA 成功過,不知道這要怎麼作到,可能要去看論文 7. [TODO: 定位出 LLaMA 效能瓶頸](https://hackmd.io/@sysprog/BJ1T7UK80#TODO-%E5%AE%9A%E4%BD%8D%E5%87%BA-LLaMA-%E6%95%88%E8%83%BD%E7%93%B6%E9%A0%B8) 要怎麼去分析其記憶體使用?
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up