# 給大語言模型的台灣考題 TW-Bench https://youtu.be/hsWhcF7XSzM 目前正在社群中籌備開源的評測基準:給大語言模型的台灣考題 TW-Bench 預計每年度會更新考題: 開源 CC0 的明題 300 題 ,涵蓋: - 基礎直覺-評分方向:台灣生活常識/地方人文/社會概況/口語句型/台灣人情味... - 進階專業-評分方向:十二年國教課程/醫療/法律/教育/社會福利制度/金融保險... - 高等推論-評分方向:流程推論/任務分析/CoT、ToT、GoT/改變溫度(temperature)的創意寫作... 暗題 500題 ,當年度不公開,但次年會成為開源內容。 每次評測時會說明使用的題組編號以及版本號。 例如:2023/12/20 抽中題組:G、版本:v2、全自動評分:70%、人工閱卷:30% 評測模型排名:(以下為舉例) OpenAI gpt-3.5-turbo-1106:810分 Taiwan-XXX-LLM v2.0 13B:760分 ...... 後續也會有多模態的部分,例如: 多模態的聲音部分會與 mozilla Common Voice 專案合作考聽力測驗選擇題。 多模態的視覺部分題型會與公視一字千金(電視節目)/多益英檢看圖選擇題的題型雷同。 我想確認是否有機會直接達成一些合作: 直接先給你300題開源CC0的明題,然後給我結果。 有可能我們一直能有保持API直接用自動方式達成評測嗎? 可能要去確認彼此的API連動方式/溫度(temperature)設定方式。 為了確保題目多樣化與涵蓋各領域,我也很樂例納入任何願意使用CC0授權的新題目。 是否已有特定模型的版本,願意參加固定半年一次模型驗測並公開排名? 以上,期待您給與一些建議回饋,我也想知道您的需求。 #### 1209 hackath59n 參與紀錄 - Teemo - 大俠 - 希呱
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up