開發場論語言模型之路

# 開發場論語言模型之路來都來了也許這些事能產生一點啟發我認為這些東西好像都很適合當論文也沒有人寫而我年紀也不再需要這些主題敘事了留給想用的人去創作 --- ## 1. 當初想開始做AI輸入法的想法最一開始覺得可以加一點現在ai功能就很好了到後來變成在本地化執行可以不透過雲端達成更多字的解讀安全私密又後來變成自己開始寫語言模型 (沒到完全自己寫只是嘗試去改進算法）後來我才發現我不是想做更聰明的系統我只是想讓語言不要被拿走想在基礎設施上加上一點歡樂那就太好了 --- ## 2. 隨機鸚鵡論讓我開始充滿好奇 ### *“你是隻隨機鸚鵡而我也是”* 在早期想著改進embedding model時在思考著為何隨機鸚鵡能提升效能？我做了個假設他可能是語言模型的正架構但他在哪？（後面內容有工程實作的答案但我不確定是否是真的以下是我的推論鏈: >隨機鸚鵡 : 大量的發散卻在某個地方得到穩定的結果 > 那有著發散文字自然就有收斂文字 > 也許是 dump(vec*0.97~1.03) 但加入噪音太奇怪 > 對(非智慧)聊天文字進行偏向走到這裡我認為這件事是我的答案但從工程上來看他像bias又不是傳統bias 怎麼用？有什麼用？這個工程上的實作我認為比RLHF好一點原因是你覺得的好是智慧上的好還是你聽起來舒服的好如果是後者那你模型就會被偏好帶歪我用大量我們說話的習慣文檔去洗成.npy 讓模型說話像我們 #### *「如果它只是鸚鵡那我們是什麼？」* --- ## 3. 語意場理論的開始 ![languagepipeline1](https://hackmd.io/_uploads/SJVO4kxPWl.jpg) ### 工程中的結構歸納（形上學）我們向量層往上之後要補足甚麼東西能夠到達無語言層這邊回來幹一下古 embedding : N-gram>Word2Vec>BERT>SBERT>model 在最早的時候我在找尋有沒有更好的表示法去優化這樣的路線目的很明確直接embedding找詞我就不用通過LLM 因為我不管怎麼試我都無法接受一個通過Fastapi+websockets+ollama這些高級工具也很難把字吐完壓在兩秒內更何況我不敢想有誰買要顯卡跑輸入法於是我開始抽出模型我只要的功能這邊是我覺得最跨張的開始我為了不要sbert 寫了sbert最小表示法來不用sbert (pipowl) github: [pipowl](https://github.com/galaxy4552/Pipowl/) 可以使用 ```python pip install pipowl ``` 我為了也不要model 拆解model來做最小表示法來不用model 目的就為了在都最小限度的使用完成填字的邏輯這邊就像研究隨機鸚鵡一樣找到了新的表示法在這邊我已經可以不用transformer來使用向量庫（但向量的取得還是要）但這個格式我自己也不會用是一個更高維的存在但我自己驗證的方式極度像自己腦補 github的研究檔案: [OwlResearch](https://github.com/galaxy4552/OwlResearch/) 我用gpt開發他一直吹捧我不信我問了gemini 他說是ngram才能這麼快我問了claude 也說不可能這麼小我自己也陷入我自己也無法驗證的時候我只能在這個基礎上去找更多個工程方式或理論來補足我的發現 ### 場域的球面理論 github圖解: [TLDR](https://github.com/galaxy4552/OwlResearch/blob/main/Spherical_Linguistic_Dynamics/ChineseTLDR.md) #### 基本定義 cosθ：語意相似度表示詞與詞之間的距離關係。 sinθ：語意對齊度表示語意是否沿著同一方向發展，而不只是接近。找到詞後後面因為通過了各種場產生了偏折沿著線往後找到delta gradient找到新的詞我認為，語言物理若要往這個方向發展，仍然需要一個前提條件：模型內部的語意簇精準度，仍不足以穩定支撐 delta gradient 的走向。好處：幻覺不生成動能不足可以被捕捉且向量每一步全都開始可以觀測壞處：直接跳結果不廢話人類可讀性幾乎沒有還需要補正可讀性以下甚至我覺得荒唐卻又可能發生在語言模型的事 ```python def happy(): if model.happy_vec > 0.3: detect_happy_word() ``` 繼續踩到一個哲學點機器感知到你定義的快樂那機器是懂會快樂的狀態了這樣算有生命嗎? 如果不算那向量的逼近解呢？如果又還不算那模型的自回饋呢？這些答案定義你的Learning Rate出來的結果 --- ## 4. AI Safety 生成可以10倍速且可以本地化後我便開始思考這樣的技術開源公佈了然後呢一來模型真的還沒到真的能用二來人陷入無限的悲觀我看到一個未來當不用顯卡樹莓派也能用ai會發生什麼事智能無人攻擊機誰都可以造有多危險不說被誤會成根本沒那實力也敢在Software版發文但上面的危機有多嚴重（其實有更多危機）我又不想拿工程結果的程式碼公布我就開始自顧自的做risk指標例如網路攻擊危險詞時或觀測的惡意的intent向量就停止input_text進入模型 --- ## 5. 智慧與人格的分歧點回到主題2 這個bias我們得到一個結論他是decoding端的一種輸出方式開始探討真正的語言上的智慧是什麼來到這我大約建立三十幾種清洗規則且觀測到一個事實我們人在聊天階段到底含了多少智慧幾乎是一個(語意）智慧單位左右可以聊聊清洗ptt語料這件事在能感受到情緒的向量中占比驚人的高特別有趣含有幹靠去你..這種詞彙占比如此的高大概15-20% 這些正式資料用不太了只能丟去人格風格的decoding 也做過一件事我把猶太人這個詞放入我的詞庫內原本只是想這個詞也有著歷史在是個有意義的正向詞彙我本人甚至欽佩這個民族出了很多天才但工程結果... 你懂得我目前的模型原先用了ptt高頻詞語料看起來像是把智慧用在了敷衍以及高級酸這邊我就不再單純用ptt語料而是用全詞表打標 ### 總而言之智慧大部份出現在文章或演講大多數人類語言的價值不在智慧而在被理解被感受被回應 --- ## 6 Learning Rate 知道了智慧跟人格有分別之後也有了risk指標模型就可以選擇什麼樣的內容可以進入智慧內大概長這樣 final_vec = 0.997 * vec + 0.003 * new_vec 更好的LR曲線洗這個向量庫可以自行研究沒有一定只有適合自己模型的方式最先的想法是（EternalOwl）我要一個能夠保留我語言口氣把我一萬句話寫進bias內這樣模型講出來的話就會很像我會說的話這個部分我有寫進IME內 persona_d64.npy 我想讓一個人說話的方式客製化成一個模型這樣不管是未來任何時間的我像在跟他聊天或著未來我的親人我的好友 (類似character ai) 只要還思念著我那他就可以跟模型對談到這裡我的哲學觀幾乎崩塌人的語言已經可以投影我也知道我的想法很危險但工程實驗的結果... 也許這天很快就會來臨當ai開始用人的口氣跟你求饒時對於不能明辨的人真的關的下去嗎但話題回來這個部分畢竟跟口氣有關我的方向就變了我還是做智慧部分至於打著要做出模仿人的ai旗號我感到噁心我已經不想再實作bias的內容 --- ## 7. RAG 因為生成了一個語意我開始嘗試透過查表方式補足內容的不足這邊就像是跟大家一樣只是我如果要用RAG everything 就要多綁一些依賴所以暫時還沒想法 --- ## 8. MOE 我的理解是 *MIXTURE OF GATE* 是開啟一個只能領域專家通過的閥而非開啟一個專家model 例如談論數學就把情緒和歷史和政治專家關閉我實做更短在進模型之前偵測到數字佔全部內容時做四則運算這不難有點像擷取input_text 然後吐給語言模型 “使用者問了1+1 工具算出的結果是2”這段文字所以我不明白為何現在模型還有相乘相除亂做的 --- ## 9. LLM是什麼時候展現出湧現的能力這是從工程推的我認為的高置信解 alignment_dim: 表示方向一致性，使用 sinθ=cos（90°-θ） embedding_dim: 表示語意距離，使用 cosθ 滿足 alignment_dim 和 embedding_dim 表示的混和 dim : mix_dim = (sinθ) × (cosθ) 從語意場可以延伸理解也不用跟我一樣又要發展自己的一套 embedding現在的格式已經含了alignment 結構會自己對齊結構特別抽出來沒有什麼意義除非你想針對KV Cache去改善或對不使用transformer有興趣 --- ## 10. LEXICAL & 演算法 (FLAG) github輸入法實驗: [SOE_IME_OPEN](https://github.com/galaxy4552/SOE_IME_OPEN/) 這是實作在SOE_IME的例子讀了更多書才發現我是在做演算法但是只有簡單邏輯說什麼話相似那些話插在那怎麼插原理像是你去某些網拍例如打個字“手套” 然後產生上萬個標籤搜尋時間什麼時候使用時間多久大概都推這廣告推你一個月繁體中文你是哪裡人？看什麼手套賽車手套？ --- ## 11. 反對agent到接受agent 一開始我其實是反對 agent 的我無法接受一個系統在沒有被詢問的情況下逐步替代人原本要做的判斷與工作深度痛惡裁員的企業因此我選擇從 IME 開始我希望 AI 是用來放大人的能力而不是替人做決定在某些長句中如果我能少打一半的字但每一個詞仍然是我選的那對我來說已經足夠然而在實作的過程中我逐漸意識到一個無法迴避的問題當 AI 開始“幫你完成一句話” 它在本質上讓 agent 替你做出決定並沒有那麼大的差別差別只在於你是否選擇使用那個選項回頭看來 agent 的出現本來是為了讓人更輕鬆但在現實世界裡前線科學家的無奈以及利益結構的推動讓這個初衷逐漸產生了畸形的變化 --- ## 總結我一開始只是想讓輸入法好用一點後來卻發現語言遠比我以為的危險也遠比我以為的脆弱我一直以為人應該是理性的直到有一次在我和女朋友吵架分手之後我把那段對話交給語言模型做清洗與打標大概30%的文字充滿了悲傷 20%文字感到憤怒真正能代表我想說的並不多而我在事情的發生後感到懊悔也許ai以後能開始提醒你說那些情緒正在失控但你也許已經活在被安排的生活而不是你自己了 IME 是否會繼續調參對我來說不再那麼重要相反地我開始對語言模型本身的結構與邊界產生了更大的興趣後續: [開發場論語言模型之路 part2](https://hackmd.io/@galaxy4552/BkpUEnTwbl)