# 我為什麼選擇研究 Diffusion Large Language Model?——從 Mercury AI 說起 > 前情提要:這或許不是一篇技術細節滿滿的文章,但你可以看看我走過的路。 --- ## 前言:高中生研究 AI 架構,是不可能的任務? 有人會問我,為什麼在剛學完語法就決定投入 DLLM(Diffusion Large Language Model)? 我想用這篇文章,紀錄一路以來的思考與學習歷程,也希望讓更多學生知道,我們其實也能成為寫架構的人。 --- ## 什麼是 Diffusion Language Model(DLLM)? 簡單來說,DLLM 就是把「擴散模型」這套技術,應用到文字生成上。 它不是像傳統 LLM 那樣用自回歸(autoregressive)方式逐字預測,而是「從混亂中還原出語句」。 從一段完全打亂的 token 開始,逐步去噪,生成出一段完整的語意。 - 傳統 LLM:根據上下文,一步步生成下一個 token(自回歸)。 - DLLM:從打亂語句中逐步去噪,將圖像生成的邏輯應用到文字。 這種方法的優點包括: > 生成品質高:不像自回歸只看局部上下文,擴散式生成可以「回頭檢查」,降低幻覺的可能性。這正是我最想解決的問題。 > 效率提升:支援平行生成,可同時產出多個 token。在商用 NVIDIA H100 上,每秒可生成逾 1000 token,約為現有 LLM 的 5~10 倍。 > 大幅降低成本:效率提升代表運算資源更節省,生成成本下降。 --- ## 當我第一次知道 Mercury AI ### 直覺 一開始我完全不懂它的架構,只知道它又快又穩——我心想,效率那麼重要,這種模型一定值得研究。 ### 深入:從詞彙表學起 剛好我當時在研究 GPT 的詞彙表結構,沒想到 Mercury AI 正是能實作的切入點。 它讓我第一次覺得:「原來我真的可以對這種東西有想法。」 --- ## 這段學習給了我什麼? - 實作架構:不是只是優化別人寫好的模型,而是試著從底層理解一整套系統。 - 獨立思考:剛開始根本沒什麼資源,幾乎都是英文資料。我硬著頭皮看 paper,像 DiffuSeq、InstructDiffusion 都是我學習的對象。 - 早期投入的視野:那時幾乎沒人討論擴散式文字生成,我卻因為直覺選擇投入。後來教授開始提及這個方向,才驚覺自己早就在這條路上。 --- ## 學到的不只是技術,更是「相信自己」 ### 我學到了什麼? - 自己實作架構的勇氣: 不只是比賽調參,而是從零開始,動手拼湊一個架構的每個部件。 - 獨立思考的能力: 沒有參考答案,只有一堆英文論文。我一邊查資料一邊筆記,逐漸摸索出路。 - 早期投入的視野: 我不是最早投入的人,但我選擇相信自己的直覺,也因為這份堅持,現在終於有回響。 --- ## 對高中生說的話 大多數人學 AI 是為了比賽、為了量化的成果。 這沒錯——我也參加比賽。但我更想問: > 我們只能用模型嗎?我們不能寫模型嗎? 寫模型的人很少,寫架構的人更少; 而高中生寫架構的,幾乎沒有。 那我們為什麼不成為那個「幾乎沒有」的人? --- ### 我想推廣 DLLM,讓更多人看見這個可能 我計畫在 8 月前舉辦幾場線上講座或分享會。 不管你是: - 對 Mercury AI 結構好奇、 - 想了解 DLLM 的原理、 - 或只是想知道「我能不能也踏進來」 你都可以來。這會是一個小合作空間,但我希望它能點燃「我們也能做架構」的自信。 歡迎提出你的想法,未來我想讓他成為一個社群。 --- ## 結語:我們自己蓋舞台,也能發光 有時候,不是等別人給你舞台,而是你先搭一塊木板、釘一根釘子。 你會撞牆、會失敗,但這些經歷,本身就會變成你的舞台。 如果你也剛學完語法、還在做 side project, 那你已經準備好了。 > 把你相信的東西說出來。世界會聽見。 謝謝你看到這裡。這就是我為什麼選擇成為一個寫架構的學生工程師。 而這條路,我不想一個人走。 --- ## 延伸資源(即將更新) 過幾天我會整理出你可能需要的學習資源,像是: - 我的 DLLM/擴散模型筆記 - 精選論文(含簡化重點整理) - 推薦的學習平台與工具 如果你也想踏進這個領域,歡迎追蹤我的HackMD,希望我能帶給你一些不一樣的東西。