給大語言模型的台灣考題 TW-Bench

# 給大語言模型的台灣考題 TW-Bench https://youtu.be/hsWhcF7XSzM 目前正在社群中籌備開源的評測基準：給大語言模型的台灣考題 TW-Bench 預計每年度會更新考題：開源 CC0 的明題 300 題，涵蓋： - 基礎直覺-評分方向：台灣生活常識/地方人文/社會概況/口語句型/台灣人情味... - 進階專業-評分方向：十二年國教課程/醫療/法律/教育/社會福利制度/金融保險... - 高等推論-評分方向：流程推論/任務分析/CoT、ToT、GoT/改變溫度(temperature)的創意寫作... 暗題 500題，當年度不公開，但次年會成為開源內容。每次評測時會說明使用的題組編號以及版本號。例如：2023/12/20 抽中題組：G、版本：v2、全自動評分：70%、人工閱卷：30% 評測模型排名：(以下為舉例) OpenAI gpt-3.5-turbo-1106：810分 Taiwan-XXX-LLM v2.0 13B：760分 ...... 後續也會有多模態的部分，例如：多模態的聲音部分會與 mozilla Common Voice 專案合作考聽力測驗選擇題。多模態的視覺部分題型會與公視一字千金(電視節目)/多益英檢看圖選擇題的題型雷同。我想確認是否有機會直接達成一些合作：直接先給你300題開源CC0的明題，然後給我結果。有可能我們一直能有保持API直接用自動方式達成評測嗎？可能要去確認彼此的API連動方式/溫度(temperature)設定方式。為了確保題目多樣化與涵蓋各領域，我也很樂例納入任何願意使用CC0授權的新題目。是否已有特定模型的版本，願意參加固定半年一次模型驗測並公開排名？以上，期待您給與一些建議回饋，我也想知道您的需求。 #### 1209 hackath59n 參與紀錄 - Teemo - 大俠 - 希呱