開發場論語言模型之路 part2

# 開發場論語言模型之路 part2 接下來會比較偏研究日記型式而不是第一篇的結論 ## 資料的整理因為我想看到資料正常的輸出前面為了IME極致的追求速度把資料過度的壓壞只剩下bias是我認可的檔案大小且效果不錯我開始做資料的整理歸納網路上的資料蠻多的但真正能丟給機器還需要分類這樣在呼出某些方面的內容能有個依據不會忘記這資料源原本要做什麼所以挖了中文圖書分類法 github: [ChineseBookClassificationSystem](https://github.com/galaxy4552/ChineseBookClassificationSystem/) 原則上我做的東西還是避免造一樣的輪子 github沒有就照維基做了個資料分類 ## microgpt的出現原本寫的引擎隨著專案不斷變大內容越來越多但因為30+的模組已經把語意熵拉到幾乎動不了 engine的重構非常多次每次都是100~200行的換只專心在自己會不會Enshittification microgpt給了我很多啟發以下是跑result的結果: ```python --- inference (new, hallucinated names) --- sample 1: kamon sample 2: ann sample 3: karai sample 4: jaire sample 5: vialan sample 6: karia sample 7: yeran sample 8: anna sample 9: areli sample 10: kaina sample 11: konna sample 12: keylen sample 13: liole sample 14: alerin sample 15: earan sample 16: lenne sample 17: kana sample 18: lara sample 19: alela sample 20: anton ``` 我認為很適合做為研究引擎之後會結合pipowl(minimal-sbert結構) ## 訓練模型的一些細節 ### contrastive-axis-projection github: [contrastive-axis-projection](https://github.com/galaxy4552/contrastive-axis-projection) ### 我認為訓模型有3個階段 #### 最低階:1維npy 只知道怎麼說話哲學沒有任何腦 (類bias格式) #### 中階:多維npy 就是目前我打算做的哲學model 是個知道很多哲學意義跟甚麼最靠近 #### 最高階:把script寫進多維npy 讓多維語意空間能承載可執行的轉移模板要做往上抽象的事還需要在工程面想得更清楚以及通用而非隨著幻覺作夢這是中階工程在input_text階段就可以管控哲學面語意靠近的定義 ## 語意幾何學語言模型 pipeowl 是從 pipowl（minimal SBERT）延伸出來的幾何式語言模型：它不以「生成長句」為主要目標而是以可觀測的語意定位、可控的選詞作為核心 ```python pipeowl/ │ ├─ README.md ├─ LICENSE │ ├─ engine.py ├─ quickstart.py │ └─ data/ ├─ L1_base_embeddings.npy ├─ delta_base_scalar.npy └─ L1_base_vocab.json ``` - 非生成式（或弱生成式）：優先透過查表、語意幾何與梯度偏移來選詞 - 可觀測：每一步的向量與分數都可以被檢查、攔截、調參 - 可拆解：base（語意地形）與 gradient（偏折/重力井）分開存放與部署目前我對成果還不算有信心但還是照實放出來結果好就當作另一條路線不好也希望能提供一個可參考的 baseline 讓其他人少走一些彎路 ### 模型資源 HuggingFace: [Pipeowl](https://huggingface.co/WangKaiLin/PipeOwl) ### Scoring（核心）系統最終以 base 與梯度訊號的線性組合決定候選詞排序：核心公式: **score=α⋅base+β⋅Δfield** ### 空間位置「八」的空間位置 ![Figure_1](https://hackmd.io/_uploads/rJY6IBmdWx.png) 「八」與「九」的空間位置 ![Figure_2](https://hackmd.io/_uploads/B1bJwrQdZg.png) 這裡展示的是 token 在語義空間中的幾何分布位置可以觀察到相鄰數字在向量空間中呈現連續性 PCA 2D分布 ![Figure_3](https://hackmd.io/_uploads/rJVsUcNube.png) ### 類比測試測試1 第八藝術+九-八 ![類比測試1](https://hackmd.io/_uploads/Sk_GSHXd-e.jpg) 測試2 八卦拳-八卦+八旗 ![類比測試2](https://hackmd.io/_uploads/HJQUSBmOZx.jpg) 測試3 男人-男+女 ![類比測試3](https://hackmd.io/_uploads/rJEFSBXOWe.jpg) 測試4 國王-男+女 ![類比測試4](https://hackmd.io/_uploads/BkZhHrX_We.jpg) 上述測試展示向量空間中的線性可加性與語義轉換能力 ### Benchmark 此處比較的是推論速度與載入時間，不包含模型訓練成本。 --- *pipeowl*(不使用sentence-transformers) 載入時間約<1秒運算時間約0.03秒 ![速度測試無sttf](https://hackmd.io/_uploads/SyekdHQOZx.jpg) 不需要GPU --- 一般embedding模型(使用sentence-transformers) 載入約10秒運算時間約0.1秒 ![速度測試有sttf](https://hackmd.io/_uploads/BkJguBm_bl.jpg) 幾乎必須GPU --- eval測試1 corpus size=15 eval size=12 ![eval1](https://hackmd.io/_uploads/SJwd8Hmd-g.png) eval測試2 corpus size = 1200 eval size = 200 ood ratio = 0.28 ![eval2](https://hackmd.io/_uploads/SyrSPZ4OWx.png) 本測試為小規模語料驗證，主要展示幾何語義結構與運算效率特性，尚未進行大規模 benchmark 對標。