NVIDIA DGX Spark 那招 「整合 RAM 和 顯存 的大記憶體」雖然水果更早之前就落地在做了,隨著 ARM 架構軟體支援的逐漸成熟化,明年肯定遍地開花(同時也是因為這個級別的用戶根本感覺不出來 GDDR 6、7、8 和 LPDDR 5 之間的區別 ,同時也是因為筆電的顯卡頻寬和各項資源本來就是閹割的了) > 對很多個人開發者而言,比起 GDDR vs LPDDR 的頻寬差,「顯存能不能直接塞下更多 ML 資料 或是 塞進上百B 級模型」 那才是用戶有感的。 這種變動影響的不只是 「可以在消費級電腦上佈署 數十B 的語言模型」,這影響的甚至是 Kaggle 機器學習競賽,或甚至是更遠的黑客松(設定極短時間要開發出 MVP 的那種黑客松) 以後筆電做機器學習隨隨便便就可以疊個 15 層模型 + 好幾層的 K-fold cross-validation 衝 Kaggle 排行榜 大記憶體的「以存代算」優勢演進,也即將讓筆電可以直接建立 VectorDB 和 KV cache framework。而接下來生成式 AI 工具(claude code、Codex)也一定會逐漸支援該架構(然後為衝高 cache hit rate,各家一定又會分別制定新的(cache policy) Best practice (又要學新東西好累) 但總覺得又看到了除了 MCP 之外,又下一個可以有開發標準的東西即將出來了),「以存代算」ㄉ優勢以我開發時經常使用的 claude code subagents 為例: - https://code.claude.com/docs/en/sub-agents - https://github.com/wshobson/agents 每個 subagents 都有自己的 system prompt(角色設定、任務邊界等),而且對於 multi-agents 系統而言,他可能有一整組「prompt group」。像這種東西就很穩定、常常重複用的,就很適合放在 cache。 另外,可見的未來 1–3 年非常有潛力的令譽,GPU + 大顯存,目前逐漸要成形的「以存代算」戰場:RecSys(大型推薦) / Embedding 系統,這是大家都想得到的: - 熱門商品、熱門 user segment 的 embedding 被反覆查。 - 很適合做「learned cache policy + 熱鍵預取」 然後就跟上面說的一樣, Agentic / Workflow Orchestration 一定也會如雨後春筍般冒出,system prompt / tool schema / 熱門 doc,本身就是跨 session 重用率非常高的 data。因為這一層的 cache 不只是 KV tensor,而是語義層 state ,之前提過的 K8s DRA orchestrator 可以把這些「高重用 state」 mapping 到特定季算資源(如:GPU+SSD) node 上,被一群 agent 重用。 > 總覺得把 DRA 當作「多層 cache 系統」的 control plane,由 DRA 來 match & 排程這個研究主題會蠻有趣ㄉ xDDDDD,甚至可以把 cache 層他本身,當成 Kubernetes 一級資源來談。 > https://hackmd.io/@thc1006/B1KbZT1Nll 今天先到這裡,感謝群聯電子技術長,還有 KubeCon + CloudNativeCon Japan 2025 議程的啟發,各位記得抓對時機進場! ### 補充參考資料: LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference: https://arxiv.org/abs/2510.09665 > 原來大型 B2B 客戶在乎的 SLA > memory 進一步最佳化管理。 「真的想要自己管 cache policy」的通常是超懂的人,"但這種人是少數";多數企業只想「付錢 → 服務穩定快 → 不用自己煩惱細節」。 > 也許本篇的想法還是有些太前衛了,claude 那是 API ,在 "以存代算" 概念下可以優化的程度其實應該有限,但是 GPU/DRAM 大成那樣感覺未來 Agentic(claude code) workload 在本地跑都不是問題,但你也知道嘛,學術就是可以高談闊論,紙上談兵,我要來睡覺了,今天 Demo 順利通過,睡覺夢裡甚麼都有~ > 诶诶诶诶诶诶诶诶,結果我剛剛看到這個我也嚇到 "Prompt Caching" :https://www.linkedin.com/pulse/prompt-caching-pramod-modi-lgorc/