# Plot
## Week 22
----
## CKIP Llama 爭議
從研究的角度來看
中文比英文還要難訓練
其中繁體中文又更難
----
## Token 數量
同樣的一篇新聞
英文約 1200 Tokens
簡體中文約 2100 Tokens
繁體中文約 2400 Tokens
光一篇新聞就相差 12.5% 的 Token 數量
----
## 模型收斂
當 Token 數量越多
上下文相依性就越遠
模型就越難收斂
----
## 文本量差距
文本量的天然差距
[英文維基](https://dumps.wikimedia.org/enwiki/20230920/)有 20.9 GB
[中文維基](https://dumps.wikimedia.org/zhwiki/20230920/)只有 2.7 GB
而且還包含簡體中文跟繁體中文
<!--
```
# 繁 2400 4355 / 2400 = 1.81
# 簡 2100 4355 / 2100 = 2.07
# 英 1200 4445 / 1200 = 3.70
# 300 / 2400 = 0.125
```
-->
----
## 訓練機器
Meta 訓練 LLaMA-65B
使用 2048 張 A100 訓練三週

全臺灣有多少研究單位能有這麼多張 A100 呢?
---
## Otter Grade
[Otter Grader](https://otter-grader.readthedocs.io/en/latest/) 是自動評分套件
由 UC Berkeley 所開發
[Reference: ChatGPT](https://chat.openai.com/share/874f0ca4-52f7-4836-a934-655392b98251)
----
## 評分方式
評分方式主要由 Assertion 組成
可以把測試資料藏在 `.ipynb` 裡面
ipynb - **i**nteractive **py**thon **n**ote**b**ook
----
## 測資位置
`.ipynb` 其實就是一份 JSON 檔
Otter 測資則放在 metadata > otter 底下
----
## 深色主題大師
請 ChatGPT 幫忙設計 Material Design 深色主題
可以應用在圖片、動畫或 Matplotlib 圖表上
[GitHub Gist](https://gist.github.com/penut85420/3e844ee8aad286eda269de108afd2479)
{"title":"Week 22 - Plot","description":"地獄貓旅行團第 34 週心得分享","slideOptions":"{\"transition\":\"slide\"}","contributors":"[{\"id\":\"c7cbb212-2c41-4dfa-8d85-f8e7fa769bf1\",\"add\":1468,\"del\":282}]"}