auto_evaluation

## Auto Evaluation 若要測試各種參數對語言模型回答的好壞，可以使用auto_evalution函數。首先，您需要基於您要使用的文檔構建一個問題集(.txt)。您可以生成單選題文件或問答題文件。 1. 對於***單選題文件***，每個選項和正確答案之間用制表符(\t)分隔，每行是一個問題，如範例: ```text 應回收廢塑膠容器材質種類不包含哪種? 1.聚丙烯（PP） 2.聚苯乙烯（PS） 3.聚氯乙烯（PVC） 4.低密度聚乙烯（LDPE） 4 庫存盤點包括庫存全盤作業及不定期抽盤作業，盤點計畫應包括下列項目不包含哪項? 1.盤點差異之處理 2.盤點清冊 3.各項物品存放區域配置圖 4.庫存全盤日期及參加盤點人員名單 1 以下何者不是環保署指定之公民營地磅機構? 1.中森加油站企業有限公司 2.台益地磅站 3.大眾地磅站 4.新福行 4 ``` 函數將返回問題集的正確率和使用的token量，每個問題的詳細內容儲存在logs中。 ```python!= import akasha.eval as eval import os from dotenv import load_dotenv load_dotenv() os.environ["OPENAI_API_KEY"] = "your openAI key" dir_path = "doc/pvc/" exp_name = "exp_akasha_auto_evaluation" eva = eval.Model_Eval(question_style="single_choice", search_type='merge',\ model="openai:gpt-3.5-turbo", embeddings="openai:text-embedding-ada-002",record_exp=exp_name) print(eva.auto_evaluation("question_pvc.txt", dir_path )) ## correct rate: 0.9, tokens: 3228 ## ``` 2. 對於***問答題文件***，每個問題之前有 "問題："，每個參考答案之前有 "答案："。每個問題之間用兩個換行符 (\n\n) 分隔。 ```text 問題：根據文件中的訊息，智慧製造的複雜性已超越系統整合商的負荷程度，未來產業鏈中的角色將傾向朝共和共榮共創智慧製造商機，而非過往的單打獨鬥模式發展。請問為什麼供應商、電信商、軟體開發商、平台商、雲端服務供應商、系統整合商等角色會傾向朝共和共榮共創智慧製造商機的方向發展？答案：因為智慧製造的複雜性已超越系統整合商的負荷程度，單一角色難以完成整個智慧製造的需求，而共和共榮共創的模式可以整合各方的優勢，共同創造智慧製造的商機。問題：根據文件中提到的資訊技術商（IT）和營運技術商（OT），請列舉至少兩個邊緣運算產品或解決方案。答案：根據文件中的資訊，NVIDIA的邊緣運算產品包括Jetson系列和EGX系列，而IBM的邊緣運算產品包括IBM Edge Application Manager和IBM Watson Anywhere。 ```