# 當 Jetson 太貴時:我與 RKLLM 的不期而遇 ![開發者面對高昂價格的困擾](https://hackmd.io/_uploads/Hki9YahSlg.jpg) --- {%youtube Yp6S7L_8H1Y %} --- 那天晚上,我盯著螢幕上的價格標籤發了好一會兒呆。 Nvidia Jetson Orin Nano Super,官方售價 249 美元,淘寶上加價到快兩千人民幣。如果要更強效能的版本?Jetson AGX Orin 直接飆到一萬多。我摸了摸錢包,又看了看桌上那個想做智慧家居助手的樹莓派,心裡嘀咕著:就為了跑個本地 LLM,真的需要花這麼多錢嗎? 你懂的,做邊緣 AI 開發最讓人糾結的就是這個。一方面,雲端推理有延遲、有隱私顧慮、還要持續付費;另一方面,本地推理的硬體又貴得離譜。特別是當你只是想做個概念驗證,或者給家裡添個智慧小玩意兒,這個投入產出比實在讓人卻步。 ## 意外的發現 後來在 GitHub 閒逛時,我注意到一個叫 RKLLM 的專案。說實話,一開始我是帶著懷疑態度點進去的。Rockchip?那不是做手機處理器的嗎?他們也搞 AI 推理? https://github.com/airockchip/rknn-llm ![framework](https://hackmd.io/_uploads/ByQGcT3Bgg.jpg) 仔細一看,還真有點意思。RKLLM 是瑞芯微在 2024 年 7 月發布的 LLM 推理框架,專門針對他們家的 RK3588 系列晶片優化。這顆晶片內建了一個 6 TOPS 的 NPU(神經網路處理單元),雖然聽起來不如 Jetson 的幾百 TOPS 震撼,但關鍵是——便宜啊! 我在淘寶搜了一下,基於 RK3588 的開發板價格從六七百到一千多不等,比 Jetson 便宜了一大截。更讓我驚訝的是,RKLLM 竟然支援不少主流模型:Llama、Qwen、Phi、ChatGLM,甚至連最新的 DeepSeek-R1 都能跑。 ![邊緣 AI 方案的技術格局](https://hackmd.io/_uploads/HkRYKThree.jpg) ## 動手測試 抱著試試看的心態,我入手了一塊 Radxa ROCK 5B(RK3588 開發板)。收到板子後,我迫不及待地開始測試 RKLLM。 配置過程比想像中順利。RKLLM 提供了完整的工具鏈,在 PC 上用 RKLLM-Toolkit 把模型轉換成專用格式,然後通過 Runtime API 在開發板上跑起來。整個流程雖然沒有 Nvidia 那麼成熟,但也算是簡單明瞭。 跑起 TinyLlama 1.1B 模型時,我看到終端裡顯示的推理速度,心裡還是挺激動的——15 到 17 tokens/s!這是什麼概念呢?簡單說,就是每秒能生成 15 到 17 個詞,對於一個智慧助手來說,這個速度完全夠用了。使用者提問後,大概一兩秒就能開始看到回應,體驗還不錯。 當然,如果換成更大的模型,速度就會下降。Qwen 1.8B 大約 14 tokens/s,Phi3 3.8B 降到 6.46 tokens/s,而 ChatGLM3 6B 只有 3.67 tokens/s。這時候我才真正理解了「夠用就好」這四個字的含義。 ## 冷靜下來看競爭 興奮過後,我開始更理性地比較 RKLLM 和其他方案。 高通的 Snapdragon AI Engine 確實強大,最新的驍龍 8 Gen 3 在 NPU 性能上提升了 98%。但問題是,它主要面向手機市場,想要用在其他場景並不容易。聯發科的 NeuroPilot 也是類似情況,雖然 Dimensity 9300+ 號稱有 68 TOPS,但你很難買到單獨的開發板。 Nvidia Jetson 系列無疑是邊緣 AI 的標竿。Jetson AGX Orin 的 275 TOPS 算力確實驚人,生態系統也最成熟。但除了價格,它的功耗也是個問題——15 到 60W 的功耗對很多應用場景來說太高了。相比之下,RK3588 只需要 12 到 20W,更適合長時間運行的設備。 有意思的是,我還發現了一些中國本土的競爭對手。華為的 Ascend 910B 性能驚人,但主要面向伺服器市場;寒武紀和百度昆侖也都有自己的方案,但要麼價格不透明,要麼很難買到開發板。 ## 踩過的坑 當然,使用 RKLLM 也不是一帆風順。 最大的問題是生態系統還不夠成熟。文檔有時候寫得不夠清楚,社群也相對較小。我記得有一次想跑一個自己微調的模型,轉換過程一直報錯,在 GitHub issue 裡找了半天才發現是量化參數設置的問題。 還有就是第三方工具支援。Nvidia 有 TensorRT、各種優化庫,整合也很完善。而 RKLLM 基本上只能用官方提供的工具,靈活性差了一些。如果你習慣了 PyTorch 或 TensorFlow 的工作流程,可能需要一些時間適應。 效能上限也是個現實問題。6 TOPS 的 NPU 跑小模型沒問題,但如果想跑 7B、13B 的大模型,速度就會慢到讓人抓狂。不過話說回來,真要跑大模型,可能還是雲端更合適。 ## 找到自己的定位 使用 RKLLM 這段時間,我逐漸明白了一個道理:選擇技術方案,最重要的不是性能參數,而是找到適合自己需求的平衡點。 ![智慧家居中的邊緣 AI 應用](https://hackmd.io/_uploads/H1qOFpnBge.jpg) 對於我的智慧家居專案來說,RKLLM 反而是更好的選擇。便宜的硬體讓我可以在多個房間部署;較低的功耗意味著可以 24 小時運行;足夠的性能能夠處理日常的語音指令和簡單對話。最重要的是,所有數據都在本地處理,不用擔心隱私問題。 我也看到越來越多開發者開始關注 RKLLM。特別是在教育機器人、工業檢測、智慧零售這些領域,大家需要的不是極致性能,而是穩定可靠、成本可控的方案。RKLLM 正好填補了這個市場空缺。 ## 寫在最後 如果你也在糾結邊緣 AI 硬體的選擇,我的建議是: 先想清楚你要做什麼。如果是要做自動駕駛、即時影片分析這種高要求的應用,那還是老老實實買 Jetson。但如果只是想在本地跑個聊天機器人、做個智慧音箱,或者給現有設備加點 AI 功能,RKLLM 值得一試。 記得從小模型開始。TinyLlama 1.1B 雖然參數少,但對付日常對話綽綽有餘。等真的有需要再考慮更大的模型。 別忘了算總成本。硬體只是開始,還要考慮開發時間、功耗、維護成本。有時候省下來的錢,可能會在其他地方付出代價。 最後想說的是,技術發展真的很快。一年前我們還在為跑個 BERT 發愁,現在居然能在一塊幾百塊的開發板上跑 LLM 了。RKLLM 可能不是最強的,但它讓更多人能夠參與到邊緣 AI 的探索中來。這種「AI 民主化」的趨勢,才是最讓人興奮的。 畢竟,創新往往不是來自最貴的設備,而是來自最有想法的大腦。當硬體不再是門檻,我們能做的事情,可能會超乎想像。 --- *本文首發於個人部落格,歡迎交流討論。如果你也在玩 RKLLM 或其他邊緣 AI 方案,歡迎分享你的經驗!*