# RAG公開資料集整理 ### SQuAD(Stanford Question Answering Dataset): 簡介: 包含一組問題和對應的段落,其中答案是段落中的一句話或一個片段。 網址: [SQuAD](https://rajpurkar.github.io/SQuAD-explorer/)   ### Natural Questions(NQ): 簡介: 包含由Google收集的實際問題,並附有長文檔和短文檔的答案。 網址: [Natural Questions](https://github.com/google-research-datasets/natural-questions) ### TriviaQA: 簡介: 包含從Web和Wikipedia中收集的問題和答案。 網址: [TriviaQA](https://huggingface.co/datasets/mandarjoshi/trivia_qa) ### MS MARCO(Microsoft Machine Reading Comprehension): 簡介: 包含來自Bing搜索引擎的實際搜索查詢和答案。 網址: [MS MARCO](https://microsoft.github.io/msmarco/) --- ### PIQA(Physical Interaction: Question Answering) 簡介:物理常識相關的QA 網址:[PIQA](https://github.com/ybisk/ybisk.github.io/tree/master/piqa) ### Fermi 簡介:費米問題 網址:[Fermi](https://github.com/allenai/fermi) ### BoolQA 簡介:回答為Yes/No的問題 網址:[BoolQA](https://huggingface.co/datasets/google/boolq) ### CommonsenseQA 簡介:需要不同種類的常識的資料集,是選擇題 網址:[CommonsenseQA](https://huggingface.co/datasets/tau/commonsense_qa) ### SocialIQA 簡介:測試社會常識的資料集 網址:[SocialIQA](https://leaderboard.allenai.org/socialiqa/submissions/get-started) ### AmbigQA 簡介:包含 NQ-OPEN 裡面不同種類的有歧異的問題 網址:https://huggingface.co/datasets/sewon/ambig_qa ### NarrativeQA 簡介:有英文故事和相對應的問題,用來測試閱讀理解,特別是長篇文章 網址:https://huggingface.co/datasets/deepmind/narrativeqa ### nlp_chinese_corpus > [name=簡體中文] 簡介:中文資料集,有維基百科資料、新聞資料、百科問答、社群問答、中英翻譯 網址:https://github.com/brightmart/nlp_chinese_corpus?tab=readme-ov-file ### huatuo_encyclopedia_qa > [name=簡體中文] 簡介:中文的醫療問答,包含中西醫 網址:https://huggingface.co/datasets/FreedomIntelligence/huatuo_encyclopedia_qa/tree/main ### rag-dataset-12000 簡介:每個資料都包含上下文、問題以及答案 網址:https://huggingface.co/datasets/neural-bridge/rag-dataset-12000 ## 開放域問答資料集 ### WebQuestions: 簡介: 包含從Google Suggest中收集的問題,答案來自Freebase。 網址: [WebQuestions](https://huggingface.co/datasets/Stanford/web_questions) ### QuAC(Question Answering in Context): 簡介: 包含開放域問答的對話資料集。 網址: [QuAC](https://quac.ai/) ### TREC QA: 簡介: 來自TREC問答賽的資料集,包括各種問題和答案。 網址: [TREC QA](https://trec.nist.gov/data/qa.html) --- ### WikiQA 簡介:維基百科上的問題和句子對,用於開放域問答 網址:https://huggingface.co/datasets/microsoft/wiki_qa ### PopQA 簡介:大型開放域問答資料集,每個問題都是使用模板將從維基上檢索到的知識轉換而來 網址:https://huggingface.co/datasets/akariasai/PopQA ## 用Ragas評估rag的實驗 1. 較簡易的實驗: https://towardsdatascience.com/evaluating-rag-applications-with-ragas-81d67b0ee31a 2. 較複雜的實驗: https://superlinked.com/vectorhub/articles/retrieval-augmented-generation-eval-qdrant-ragas
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up