# 6/26 RAG project會議紀錄 ## 6/26 Owen ask: 1. RAG 如何評估其 performance? 3. EM全名,可以用 ROUGE 評估嗎? 4. Retrieval Quality 和 Generation Quality 是甚麼? > Based on https://arxiv.org/abs/2312.10997 Table III and IV > > Ans: 1. [How to evaluate RAG - KSLab_M0](https://hackmd.io/TXlVa-bGTLeMQf3EqB2F2g) 3. EM,全名exact match。EM是在QA系统中廣泛運用的指標。它衡量的是與任何一个真實答案"完全"匹配的預測比例。是SQuAD(100,000+ Questions for Machine Comprehension of Text)的主要衡量指標。 * https://nlp.stanford.edu/pubs/rajpurkar2016squad.pdf * R-Rate(Reappearance Rate) >再次出現率,衡量檢索結果中資訊在後續生成文本中的出現頻率 * Hit Rate >檢索的文件中,有多少與query相關 衡量檢索結果中相關文件的比例。高命中率意味著檢索系統能夠更準確地找到使用者查詢相關的資訊。 * MRR(mean reciprocal rank)平均倒數排名 >衡量檢索結果中相關文件的平均排名的倒數。 MRR 越高,表示檢索系統的效能越好。 * NDCG(normalized discounted cumulative gain)歸一化折扣累積增益 >用於衡量檢索結果清單中相關文件的排名品質。 NDCG 考慮了文件的相關性和排名位置。 https://ithelp.ithome.com.tw/articles/10299050 * BLEU(bilingual evaluation understudy)雙語替換評測 >衡量生成文本&參考文本的相似性 文字與參考文件之間的對齊程度(數值為0~1) * ROUGE(recall-oriented understudy for gisting evaluation) >衡量生成文本&參考文本的相似性 生成段落中,多少來自參考段落(重疊率) 4. Retrieval Quality: 主要關注的是模型從一個大數據集中檢索出相關信息的能力。這種能力通常在搜索引擎和信息檢索系統中被用來評估。以下是一些常用的評估標準: - 準確率(Precision): 檢索到的結果中,實際相關的結果所佔的比例。 - 召回率(Recall): 實際相關的結果中,成功檢索到的結果所佔的比例。 - F1 分數(F1 Score): 準確率和召回率的調和平均數。 - 平均精度(Mean Average Precision, MAP): 多個查詢的平均精度。 - 折合確率(Discounted Cumulative Gain, DCG): 根據檢索結果的位置來評估的精度。 Generation Quality: 主要關注的是模型生成自然語言文本的能力。這種能力通常在聊天機器人、文本生成和機器翻譯系統中被用來評估。以下是一些常用的評估標準: - 流暢性(Fluency): 生成的文本是否自然、易讀。 - 相關性(Relevance): 生成的文本是否與給定的上下文或問題相關。 - 一致性(Coherence): 生成的文本內部是否邏輯連貫。 - 創新性(Originality): 生成的文本是否包含新的或不同的內容。 - BLEU(Bilingual Evaluation Understudy): 將生成的文本與參考文本進行比較的得分。 - ROUGE(Recall-Oriented Understudy for Gisting Evaluation): 基於召回率的文本生成評估方法,常用於摘要生成。 
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up