當 Jetson 太貴時：我與 RKLLM 的不期而遇

# 當 Jetson 太貴時：我與 RKLLM 的不期而遇 ![開發者面對高昂價格的困擾](https://hackmd.io/_uploads/Hki9YahSlg.jpg) --- {%youtube Yp6S7L_8H1Y %} --- 那天晚上，我盯著螢幕上的價格標籤發了好一會兒呆。 Nvidia Jetson Orin Nano Super，官方售價 249 美元，淘寶上加價到快兩千人民幣。如果要更強效能的版本？Jetson AGX Orin 直接飆到一萬多。我摸了摸錢包，又看了看桌上那個想做智慧家居助手的樹莓派，心裡嘀咕著：就為了跑個本地 LLM，真的需要花這麼多錢嗎？你懂的，做邊緣 AI 開發最讓人糾結的就是這個。一方面，雲端推理有延遲、有隱私顧慮、還要持續付費；另一方面，本地推理的硬體又貴得離譜。特別是當你只是想做個概念驗證，或者給家裡添個智慧小玩意兒，這個投入產出比實在讓人卻步。 ## 意外的發現後來在 GitHub 閒逛時，我注意到一個叫 RKLLM 的專案。說實話，一開始我是帶著懷疑態度點進去的。Rockchip？那不是做手機處理器的嗎？他們也搞 AI 推理？ https://github.com/airockchip/rknn-llm ![framework](https://hackmd.io/_uploads/ByQGcT3Bgg.jpg) 仔細一看，還真有點意思。RKLLM 是瑞芯微在 2024 年 7 月發布的 LLM 推理框架，專門針對他們家的 RK3588 系列晶片優化。這顆晶片內建了一個 6 TOPS 的 NPU（神經網路處理單元），雖然聽起來不如 Jetson 的幾百 TOPS 震撼，但關鍵是——便宜啊！我在淘寶搜了一下，基於 RK3588 的開發板價格從六七百到一千多不等，比 Jetson 便宜了一大截。更讓我驚訝的是，RKLLM 竟然支援不少主流模型：Llama、Qwen、Phi、ChatGLM，甚至連最新的 DeepSeek-R1 都能跑。 ![邊緣 AI 方案的技術格局](https://hackmd.io/_uploads/HkRYKThree.jpg) ## 動手測試抱著試試看的心態，我入手了一塊 Radxa ROCK 5B（RK3588 開發板）。收到板子後，我迫不及待地開始測試 RKLLM。配置過程比想像中順利。RKLLM 提供了完整的工具鏈，在 PC 上用 RKLLM-Toolkit 把模型轉換成專用格式，然後通過 Runtime API 在開發板上跑起來。整個流程雖然沒有 Nvidia 那麼成熟，但也算是簡單明瞭。跑起 TinyLlama 1.1B 模型時，我看到終端裡顯示的推理速度，心裡還是挺激動的——15 到 17 tokens/s！這是什麼概念呢？簡單說，就是每秒能生成 15 到 17 個詞，對於一個智慧助手來說，這個速度完全夠用了。使用者提問後，大概一兩秒就能開始看到回應，體驗還不錯。當然，如果換成更大的模型，速度就會下降。Qwen 1.8B 大約 14 tokens/s，Phi3 3.8B 降到 6.46 tokens/s，而 ChatGLM3 6B 只有 3.67 tokens/s。這時候我才真正理解了「夠用就好」這四個字的含義。 ## 冷靜下來看競爭興奮過後，我開始更理性地比較 RKLLM 和其他方案。高通的 Snapdragon AI Engine 確實強大，最新的驍龍 8 Gen 3 在 NPU 性能上提升了 98%。但問題是，它主要面向手機市場，想要用在其他場景並不容易。聯發科的 NeuroPilot 也是類似情況，雖然 Dimensity 9300+ 號稱有 68 TOPS，但你很難買到單獨的開發板。 Nvidia Jetson 系列無疑是邊緣 AI 的標竿。Jetson AGX Orin 的 275 TOPS 算力確實驚人，生態系統也最成熟。但除了價格，它的功耗也是個問題——15 到 60W 的功耗對很多應用場景來說太高了。相比之下，RK3588 只需要 12 到 20W，更適合長時間運行的設備。有意思的是，我還發現了一些中國本土的競爭對手。華為的 Ascend 910B 性能驚人，但主要面向伺服器市場；寒武紀和百度昆侖也都有自己的方案，但要麼價格不透明，要麼很難買到開發板。 ## 踩過的坑當然，使用 RKLLM 也不是一帆風順。最大的問題是生態系統還不夠成熟。文檔有時候寫得不夠清楚，社群也相對較小。我記得有一次想跑一個自己微調的模型，轉換過程一直報錯，在 GitHub issue 裡找了半天才發現是量化參數設置的問題。還有就是第三方工具支援。Nvidia 有 TensorRT、各種優化庫，整合也很完善。而 RKLLM 基本上只能用官方提供的工具，靈活性差了一些。如果你習慣了 PyTorch 或 TensorFlow 的工作流程，可能需要一些時間適應。效能上限也是個現實問題。6 TOPS 的 NPU 跑小模型沒問題，但如果想跑 7B、13B 的大模型，速度就會慢到讓人抓狂。不過話說回來，真要跑大模型，可能還是雲端更合適。 ## 找到自己的定位使用 RKLLM 這段時間，我逐漸明白了一個道理：選擇技術方案，最重要的不是性能參數，而是找到適合自己需求的平衡點。 ![智慧家居中的邊緣 AI 應用](https://hackmd.io/_uploads/H1qOFpnBge.jpg) 對於我的智慧家居專案來說，RKLLM 反而是更好的選擇。便宜的硬體讓我可以在多個房間部署；較低的功耗意味著可以 24 小時運行；足夠的性能能夠處理日常的語音指令和簡單對話。最重要的是，所有數據都在本地處理，不用擔心隱私問題。我也看到越來越多開發者開始關注 RKLLM。特別是在教育機器人、工業檢測、智慧零售這些領域，大家需要的不是極致性能，而是穩定可靠、成本可控的方案。RKLLM 正好填補了這個市場空缺。 ## 寫在最後如果你也在糾結邊緣 AI 硬體的選擇，我的建議是：先想清楚你要做什麼。如果是要做自動駕駛、即時影片分析這種高要求的應用，那還是老老實實買 Jetson。但如果只是想在本地跑個聊天機器人、做個智慧音箱，或者給現有設備加點 AI 功能，RKLLM 值得一試。記得從小模型開始。TinyLlama 1.1B 雖然參數少，但對付日常對話綽綽有餘。等真的有需要再考慮更大的模型。別忘了算總成本。硬體只是開始，還要考慮開發時間、功耗、維護成本。有時候省下來的錢，可能會在其他地方付出代價。最後想說的是，技術發展真的很快。一年前我們還在為跑個 BERT 發愁，現在居然能在一塊幾百塊的開發板上跑 LLM 了。RKLLM 可能不是最強的，但它讓更多人能夠參與到邊緣 AI 的探索中來。這種「AI 民主化」的趨勢，才是最讓人興奮的。畢竟，創新往往不是來自最貴的設備，而是來自最有想法的大腦。當硬體不再是門檻，我們能做的事情，可能會超乎想像。 --- *本文首發於個人部落格，歡迎交流討論。如果你也在玩 RKLLM 或其他邊緣 AI 方案，歡迎分享你的經驗！*