從高中生開始的DLMs

# 我為什麼選擇研究 Diffusion Large Language Model？——從 Mercury AI 說起 > 前情提要：這或許不是一篇技術細節滿滿的文章，但你可以看看我走過的路。 --- ## 前言：高中生研究 AI 架構，是不可能的任務？有人會問我，為什麼在剛學完語法就決定投入 DLLM（Diffusion Large Language Model）？我想用這篇文章，紀錄一路以來的思考與學習歷程，也希望讓更多學生知道，我們其實也能成為寫架構的人。 --- ## 什麼是 Diffusion Language Model（DLLM）？簡單來說，DLLM 就是把「擴散模型」這套技術，應用到文字生成上。它不是像傳統 LLM 那樣用自回歸（autoregressive）方式逐字預測，而是「從混亂中還原出語句」。從一段完全打亂的 token 開始，逐步去噪，生成出一段完整的語意。 - 傳統 LLM：根據上下文，一步步生成下一個 token（自回歸）。 - DLLM：從打亂語句中逐步去噪，將圖像生成的邏輯應用到文字。這種方法的優點包括： > 生成品質高：不像自回歸只看局部上下文，擴散式生成可以「回頭檢查」，降低幻覺的可能性。這正是我最想解決的問題。 > 效率提升：支援平行生成，可同時產出多個 token。在商用 NVIDIA H100 上，每秒可生成逾 1000 token，約為現有 LLM 的 5~10 倍。 > 大幅降低成本：效率提升代表運算資源更節省，生成成本下降。 --- ## 當我第一次知道 Mercury AI ### 直覺一開始我完全不懂它的架構，只知道它又快又穩——我心想，效率那麼重要，這種模型一定值得研究。 ### 深入：從詞彙表學起剛好我當時在研究 GPT 的詞彙表結構，沒想到 Mercury AI 正是能實作的切入點。它讓我第一次覺得：「原來我真的可以對這種東西有想法。」 --- ## 這段學習給了我什麼？ - 實作架構：不是只是優化別人寫好的模型，而是試著從底層理解一整套系統。 - 獨立思考：剛開始根本沒什麼資源，幾乎都是英文資料。我硬著頭皮看 paper，像 DiffuSeq、InstructDiffusion 都是我學習的對象。 - 早期投入的視野：那時幾乎沒人討論擴散式文字生成，我卻因為直覺選擇投入。後來教授開始提及這個方向，才驚覺自己早就在這條路上。 --- ## 學到的不只是技術，更是「相信自己」 ### 我學到了什麼？ - 自己實作架構的勇氣：不只是比賽調參，而是從零開始，動手拼湊一個架構的每個部件。 - 獨立思考的能力：沒有參考答案，只有一堆英文論文。我一邊查資料一邊筆記，逐漸摸索出路。 - 早期投入的視野：我不是最早投入的人，但我選擇相信自己的直覺，也因為這份堅持，現在終於有回響。 --- ## 對高中生說的話大多數人學 AI 是為了比賽、為了量化的成果。這沒錯——我也參加比賽。但我更想問： > 我們只能用模型嗎？我們不能寫模型嗎？寫模型的人很少，寫架構的人更少；而高中生寫架構的，幾乎沒有。那我們為什麼不成為那個「幾乎沒有」的人？ --- ### 我想推廣 DLLM，讓更多人看見這個可能我計畫在 8 月前舉辦幾場線上講座或分享會。不管你是： - 對 Mercury AI 結構好奇、 - 想了解 DLLM 的原理、 - 或只是想知道「我能不能也踏進來」你都可以來。這會是一個小合作空間，但我希望它能點燃「我們也能做架構」的自信。歡迎提出你的想法，未來我想讓他成為一個社群。 --- ## 結語：我們自己蓋舞台，也能發光有時候，不是等別人給你舞台，而是你先搭一塊木板、釘一根釘子。你會撞牆、會失敗，但這些經歷，本身就會變成你的舞台。如果你也剛學完語法、還在做 side project，那你已經準備好了。 > 把你相信的東西說出來。世界會聽見。謝謝你看到這裡。這就是我為什麼選擇成為一個寫架構的學生工程師。而這條路，我不想一個人走。 --- ## 延伸資源（即將更新）過幾天我會整理出你可能需要的學習資源，像是： - 我的 DLLM/擴散模型筆記 - 精選論文（含簡化重點整理） - 推薦的學習平台與工具如果你也想踏進這個領域，歡迎追蹤我的HackMD，希望我能帶給你一些不一樣的東西。