# Plot ## Week 22 ---- ## CKIP Llama 爭議 從研究的角度來看 中文比英文還要難訓練 其中繁體中文又更難 ---- ## Token 數量 同樣的一篇新聞 英文約 1200 Tokens 簡體中文約 2100 Tokens 繁體中文約 2400 Tokens 光一篇新聞就相差 12.5% 的 Token 數量 ---- ## 模型收斂 當 Token 數量越多 上下文相依性就越遠 模型就越難收斂 ---- ## 文本量差距 文本量的天然差距 [英文維基](https://dumps.wikimedia.org/enwiki/20230920/)有 20.9 GB [中文維基](https://dumps.wikimedia.org/zhwiki/20230920/)只有 2.7 GB 而且還包含簡體中文跟繁體中文 <!-- ``` # 繁 2400 4355 / 2400 = 1.81 # 簡 2100 4355 / 2100 = 2.07 # 英 1200 4445 / 1200 = 3.70 # 300 / 2400 = 0.125 ``` --> ---- ## 訓練機器 Meta 訓練 LLaMA-65B 使用 2048 張 A100 訓練三週 ![](https://i.imgur.com/KSO0Nal.png) 全臺灣有多少研究單位能有這麼多張 A100 呢? --- ## Otter Grade [Otter Grader](https://otter-grader.readthedocs.io/en/latest/) 是自動評分套件 由 UC Berkeley 所開發 [Reference: ChatGPT](https://chat.openai.com/share/874f0ca4-52f7-4836-a934-655392b98251) ---- ## 評分方式 評分方式主要由 Assertion 組成 可以把測試資料藏在 `.ipynb` 裡面 ipynb - **i**nteractive **py**thon **n**ote**b**ook ---- ## 測資位置 `.ipynb` 其實就是一份 JSON 檔 Otter 測資則放在 metadata > otter 底下 ---- ## 深色主題大師 請 ChatGPT 幫忙設計 Material Design 深色主題 可以應用在圖片、動畫或 Matplotlib 圖表上 [GitHub Gist](https://gist.github.com/penut85420/3e844ee8aad286eda269de108afd2479)
{"title":"Week 22 - Plot","description":"地獄貓旅行團第 34 週心得分享","slideOptions":"{\"transition\":\"slide\"}","contributors":"[{\"id\":\"c7cbb212-2c41-4dfa-8d85-f8e7fa769bf1\",\"add\":1468,\"del\":282}]"}
    182 views
   Owned this note