# RAG公開資料集整理
### SQuAD(Stanford Question Answering Dataset):
簡介: 包含一組問題和對應的段落,其中答案是段落中的一句話或一個片段。
網址: [SQuAD](https://rajpurkar.github.io/SQuAD-explorer/)


### Natural Questions(NQ):
簡介: 包含由Google收集的實際問題,並附有長文檔和短文檔的答案。
網址: [Natural Questions](https://github.com/google-research-datasets/natural-questions)
### TriviaQA:
簡介: 包含從Web和Wikipedia中收集的問題和答案。
網址: [TriviaQA](https://huggingface.co/datasets/mandarjoshi/trivia_qa)
### MS MARCO(Microsoft Machine Reading Comprehension):
簡介: 包含來自Bing搜索引擎的實際搜索查詢和答案。
網址: [MS MARCO](https://microsoft.github.io/msmarco/)
---
### PIQA(Physical Interaction: Question Answering)
簡介:物理常識相關的QA
網址:[PIQA](https://github.com/ybisk/ybisk.github.io/tree/master/piqa)
### Fermi
簡介:費米問題
網址:[Fermi](https://github.com/allenai/fermi)
### BoolQA
簡介:回答為Yes/No的問題
網址:[BoolQA](https://huggingface.co/datasets/google/boolq)
### CommonsenseQA
簡介:需要不同種類的常識的資料集,是選擇題
網址:[CommonsenseQA](https://huggingface.co/datasets/tau/commonsense_qa)
### SocialIQA
簡介:測試社會常識的資料集
網址:[SocialIQA](https://leaderboard.allenai.org/socialiqa/submissions/get-started)
### AmbigQA
簡介:包含 NQ-OPEN 裡面不同種類的有歧異的問題
網址:https://huggingface.co/datasets/sewon/ambig_qa
### NarrativeQA
簡介:有英文故事和相對應的問題,用來測試閱讀理解,特別是長篇文章
網址:https://huggingface.co/datasets/deepmind/narrativeqa
### nlp_chinese_corpus
> [name=簡體中文]
簡介:中文資料集,有維基百科資料、新聞資料、百科問答、社群問答、中英翻譯
網址:https://github.com/brightmart/nlp_chinese_corpus?tab=readme-ov-file
### huatuo_encyclopedia_qa
> [name=簡體中文]
簡介:中文的醫療問答,包含中西醫
網址:https://huggingface.co/datasets/FreedomIntelligence/huatuo_encyclopedia_qa/tree/main
### rag-dataset-12000
簡介:每個資料都包含上下文、問題以及答案
網址:https://huggingface.co/datasets/neural-bridge/rag-dataset-12000
## 開放域問答資料集
### WebQuestions:
簡介: 包含從Google Suggest中收集的問題,答案來自Freebase。
網址: [WebQuestions](https://huggingface.co/datasets/Stanford/web_questions)
### QuAC(Question Answering in Context):
簡介: 包含開放域問答的對話資料集。
網址: [QuAC](https://quac.ai/)
### TREC QA:
簡介: 來自TREC問答賽的資料集,包括各種問題和答案。
網址: [TREC QA](https://trec.nist.gov/data/qa.html)
---
### WikiQA
簡介:維基百科上的問題和句子對,用於開放域問答
網址:https://huggingface.co/datasets/microsoft/wiki_qa
### PopQA
簡介:大型開放域問答資料集,每個問題都是使用模板將從維基上檢索到的知識轉換而來
網址:https://huggingface.co/datasets/akariasai/PopQA
## 用Ragas評估rag的實驗
1. 較簡易的實驗: https://towardsdatascience.com/evaluating-rag-applications-with-ragas-81d67b0ee31a
2. 較複雜的實驗: https://superlinked.com/vectorhub/articles/retrieval-augmented-generation-eval-qdrant-ragas