從 DGX Spark 到筆電：大記憶體時代的「以存代算」戰場開打

NVIDIA DGX Spark 那招「整合 RAM 和顯存的大記憶體」雖然水果更早之前就落地在做了，隨著 ARM 架構軟體支援的逐漸成熟化，明年肯定遍地開花（同時也是因為這個級別的用戶根本感覺不出來 GDDR 6、7、8 和 LPDDR 5 之間的區別，同時也是因為筆電的顯卡頻寬和各項資源本來就是閹割的了） > 對很多個人開發者而言，比起 GDDR vs LPDDR 的頻寬差，「顯存能不能直接塞下更多 ML 資料或是塞進上百B 級模型」那才是用戶有感的。這種變動影響的不只是「可以在消費級電腦上佈署數十B 的語言模型」，這影響的甚至是 Kaggle 機器學習競賽，或甚至是更遠的黑客松（設定極短時間要開發出 MVP 的那種黑客松）以後筆電做機器學習隨隨便便就可以疊個 15 層模型 + 好幾層的 K-fold cross-validation 衝 Kaggle 排行榜大記憶體的「以存代算」優勢演進，也即將讓筆電可以直接建立 VectorDB 和 KV cache framework。而接下來生成式 AI 工具（claude code、Codex）也一定會逐漸支援該架構（然後為衝高 cache hit rate，各家一定又會分別制定新的(cache policy) Best practice (又要學新東西好累) 但總覺得又看到了除了 MCP 之外，又下一個可以有開發標準的東西即將出來了），「以存代算」ㄉ優勢以我開發時經常使用的 claude code subagents 為例： - https://code.claude.com/docs/en/sub-agents - https://github.com/wshobson/agents 每個 subagents 都有自己的 system prompt（角色設定、任務邊界等），而且對於 multi-agents 系統而言，他可能有一整組「prompt group」。像這種東西就很穩定、常常重複用的，就很適合放在 cache。另外，可見的未來 1–3 年非常有潛力的令譽，GPU + 大顯存，目前逐漸要成形的「以存代算」戰場：RecSys（大型推薦） / Embedding 系統，這是大家都想得到的： - 熱門商品、熱門 user segment 的 embedding 被反覆查。 - 很適合做「learned cache policy + 熱鍵預取」然後就跟上面說的一樣， Agentic / Workflow Orchestration 一定也會如雨後春筍般冒出，system prompt / tool schema / 熱門 doc，本身就是跨 session 重用率非常高的 data。因為這一層的 cache 不只是 KV tensor，而是語義層 state ，之前提過的 K8s DRA orchestrator 可以把這些「高重用 state」 mapping 到特定季算資源(如：GPU+SSD) node 上，被一群 agent 重用。 > 總覺得把 DRA 當作「多層 cache 系統」的 control plane，由 DRA 來 match & 排程這個研究主題會蠻有趣ㄉ xDDDDD，甚至可以把 cache 層他本身，當成 Kubernetes 一級資源來談。 > https://hackmd.io/@thc1006/B1KbZT1Nll 今天先到這裡，感謝群聯電子技術長，還有 KubeCon + CloudNativeCon Japan 2025 議程的啟發，各位記得抓對時機進場！ ### 補充參考資料： LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference： https://arxiv.org/abs/2510.09665 > 原來大型 B2B 客戶在乎的 SLA > memory 進一步最佳化管理。「真的想要自己管 cache policy」的通常是超懂的人，"但這種人是少數"；多數企業只想「付錢 → 服務穩定快 → 不用自己煩惱細節」。 > 也許本篇的想法還是有些太前衛了，claude 那是 API ，在 "以存代算" 概念下可以優化的程度其實應該有限，但是 GPU/DRAM 大成那樣感覺未來 Agentic(claude code) workload 在本地跑都不是問題，但你也知道嘛，學術就是可以高談闊論，紙上談兵，我要來睡覺了，今天 Demo 順利通過，睡覺夢裡甚麼都有~ > 诶诶诶诶诶诶诶诶，結果我剛剛看到這個我也嚇到 "Prompt Caching" ：https://www.linkedin.com/pulse/prompt-caching-pramod-modi-lgorc/