1. [LP-KG: A System for Exploratory Search of Scientific Literature in
Natural Language Processing](https://arxiv.org/pdf/2406.15294)
- 應用場景: 一個針對自然語言處理領域科學文獻探索的問答系統,使用RAGAS框架評估對話搜索功能,以及與其他學術文獻檢索系統的比較。RAG技術主要應用於對話搜索和特定文獻查詢兩個功能:
a. 對話檢索:
- 檢索(Retrieval):接收到用戶查詢後,LLM生成搜索詞,這些詞被用於通過語義搜索模塊檢索相關文獻,並把前五相關的文獻內容全部轉成文字餵給LLM。
- 生成(Generation):檢索到的前五篇文獻的全文被反饋給LLM,LLM生成基於這些文獻的回應,並提供內嵌引用以標明知識來源。
b. 特定文獻查詢:檢索(Retrieval):用戶可以對特定文獻進行查詢,LLM使用文獻全文生成可驗證的答案,並附加支持性的聲明和引用。生成(Generation):LLM生成回答後,還會根據對話歷史生成三個後續問題,供用戶進一步探索
- Dataset: 使用GPT-4生成50個與NLP相關的隨機問題,例如「在語言模型的上下文中定義困惑度(perplexity)」。只有query,沒有ground truth(因為評估的指標不需要)。
- Ragas指標: Faithfulness, Answer Relevancy

2. [Searching for Best Practices in Retrieval-Augmented Generation](https://arxiv.org/pdf/2407.01219)
- Faithfulness, Context Relevancy, Answer Relevancy, Answer Correctness, cosine similarity
- 比較不同chunk方式對模型的影響


3. [Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese](https://arxiv.org/pdf/2407.01080)
- 引用以下四種評估標準,此處的Ragas應該是Aspect Critique,評價事實一致性並輸出二元結果(是或否)

4. [AI in Automotive Repair: Building a Data Driven Chatbot for Enhanced Vehicle Diagnostics](https://www.divaportal.org/smash/get/diva2:1872964/FULLTEXT01.pdf)
- 應用場景:製作汽車維修診斷的chatbox,問問題-檢所產生context-LLM產生response
訓練資料集:用來訓練汽車相關知識的chat機器人,Volvo application containing repair orservice records of the vehicles. The database is known as Vehicle Service Records (VSR)。
- Dataset: 未提供
- 10筆,丟10個query給chatbox,包含query & gt
- 10個query的GT(ground_truth)製作方式是透過LLM,因為他們缺乏汽車知識領域的專家
retrieve context 數:3
- 外部資料集: 77K
- Ragas指標: Faithfulness, Answer Relevancy, Context Precision, Context Recall
- 
5. [Towards a RAG-based summarization for the Electron Ion Collider](https://iopscience.iop.org/article/10.1088/1748-0221/19/07/C07006/pdf)
- 應用場景:也是在做特定領域的chatbot
- Dataset: [50筆](https://smith.langchain.com/public/a0fb3ae5-c878-4626-b8e4-1c45cc5fa566/d?tab=2&paginationState=%7B%22pageIndex%22%3A0%2C%22pageSize%22%3A10%7D),每個question有3個claims
- 製作過程如下:
a. 該資料集的qa pairs 皆是利用 Gpt4.0生成
b. 問題除了query以外,每個query還會搭配指定數量的claims,[source](https://github.com/ai4eic/EIC-RAG-Project/blob/main/streamlit_app/Resources/ARXIV_SOURCES_DETAILED.csv)
c. 使用者選擇一篇arXiv的論文,定好要生成的question數量,定好每個query的claims數量,丟給Gpt, Gpt根據模板生成指定數量之qa pairs
d. 每個q都有N個claims,每個claims都會有一個詳細的解答,此外還會有一個針對全部claims的統整解答,並以json檔除存
e. 後續生成的資料就繼續merge上去
- 這裡有規定retrieval context的數量為20,但答案的篇幅往往低於context的長度,因此
Context Relevancy的分數較低
- 外部資料集: EIC arXiv dataset(都是論文),細分為PDF file、Source.txt file,
- [模型輸出參考](https://github.com/ai4eic/EIC-RAG-Project/tree/main/streamlit_app)

6. [Evaluating and Enhancing Custom AI Chat Services](https://uia.brage.unit.no/uia-xmlui/bitstream/handle/11250/3141895/no.uia%3ainspera%3a222274016%3a128446466.pdf?sequence=1&isAllowed=y)
- 用 RAGAS 的 context precision, context recall, and context relevancy 來評估 embeding model
- 
7. [Evaluation of RAG Metrics for Question Answering in the Telecom Domain](https://arxiv.org/pdf/2407.12873)
- 應用場景:也是在做特定領域的llm問答
- Dataset: A telecom domain QA dataset derived from 3GPP Release 15 documents([Sample](https://anonymous.4open.science/r/ragas_updated-FFC6/input_files/sample_questions.json)),切分成training 5167筆,testing 715筆
- 來源: 3GPP. 3GPP release 15. Technical report, 3GPP, 2019. Accessed: 2024-05-19.
- 格式: QA Dataset,皆包含Q、A(GT)、context
- Ragas指標: Faithfulness, Answer Relevance, Context Relevance, Answer Similarity, Factual Correctness, Answer Correctness
- 
8. [RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems](https://arxiv.org/pdf/2407.11005)
- RAGBench 中包含 RAGAS 中的 Context Relevance, answer faithfulnes
- 
9. [Luna: An Evaluation Foundation Model to Catch Language Model Hallucinations with High Accuracy and Low Cost](https://arxiv.org/pdf/2406.00975)
- Datasets: 都是用現成的
- customer support: 600筆
- DelucionQA
- EManual
- TechQA
- finance: 5000筆
- FinQA
- TAT-QA
- biomedical research: 3000筆
- PubmedQA
- CovidQA
- legal: 500筆
- Cuad
- general knowledge: 2000筆
- HotpotQA
- MS Marco
- HAGRID
- ExpertQA
- Ragas指標: Faithfulness
- 
- 
10. [GastroBot: a Chinese gastrointestinal disease chatbot based on the retrieval-augmented generation](https://www.frontiersin.org/journals/medicine/articles/10.3389/fmed.2024.1392555/full)
- 應用場景:GastroBot,一個基於檢索增強生成(RAG)技術的中文胃腸疾病聊天機器人
- Dataset: 20 QA-pairs
- 問題形式: simple, inference, multi-context, conditional
- 蒐集方式:
a. 將處理過的PDF文件載入
b. 使用 SimpleDirectoryReader 從文件中提取數據,生成文檔列表
c. 利用 SimpleNodeParser 從文檔中提取節點信息,並將其封裝在 load_corpus 函數中
d. 生成問答對(方式有三種,見下表)
e. 將模型生成的問答對進行人工審核
| 生成問答對方式 | 套件 |
| -------- | -------- |
| 根據提取的文本點生成問答對 | lamaIndex, generate_qa_embedding_pairs|
| 定義Context和Query以生成答案 | gpt-3.5-turbo |
| 基於Context,生成相關的問題和答案 | gpt-3.5-turbo |
- Ragas指標: Faithfulness, Answer Relevance, Context Recall

- 模型base model: 使用GPT-3.5-Turbo,[Code](https://github.com/hujili007/ragbot)
11. [From Questions to Insightful Answers: Building an Informed Chatbot for University Resources](https://arxiv.org/pdf/2405.08120)
- 應用場景:BARKPLUG V.2,一個基於大型語言模型(LLM)的聊天機器人系統,使用檢索增強生成(RAG)管道來改善大學設置中的用戶體驗和信息訪問。該系統利用大學數據作為外部數據庫,並將其引入RAG管道中以完成特定領域的問答任務。
- Dataset: 手動設置QA pairs
- 內容: 根據工程項目、一般查詢、研究機會和其他大學資源設置了一組query & GT (沒有說GT是人工設的還是用LLM)
- 外部資料集:是從密西西比州立大學的各種校園資源中收集的,包括學術部門、財務援助、獎學金、住房、餐飲、停車和警察等資源,共計42個項目。這些資源經由爬蟲儲存在json檔中。對知識資料集的詳細處理可以閱讀論文第5頁右下角。
- Ragas指標: Context precision, Context recall, Faithfullness, Answer relevance

12. [ARIA-QA: AI-Agent based Requirements Inspection and Analysis through Question Answering](https://assets-eu.researchsquare.com/files/rs-4399368/v1_covered_ed89d388-3829-4b7d-88f4-f809ada58912.pdf?c=1716311817)
- Dataset: [PURE](https://www.researchgate.net/publication/320028192_PURE_A_Dataset_of_Public_Requirements_Documents)
- 內容: A Dataset of Public Requirements Documents
- 形式: 使用 PURE 數據集(共79個子數據集)中的七個進行評估
- QA-pairs筆數:共約3000個
- 蒐集方式:
a. 將一個大型的需求文檔分割成小的段落
b. 將這些段落分別輸入到 Claude 3-opus 模型中
c. 使用提示引導模型基於段落內容生成相關的問題和答案
d. 生成的問題-答案對會進行人工審核和校驗,去除任何不相關或冗餘的問題-答案對
- Ragas指標: Faithfulness 、Answer relevancy、Context recall、Context precision

13. [Hybrid Context Retrieval Augmented Generation Pipeline: LLM-Augmented Knowledge Graphs and Vector Database for Accreditation Reporting Assistance](https://arxiv.org/pdf/2405.15436)
- 應用場景: 研究用於協助認證AACSB流程的混合RAG。「AACSB」為全球三大商管學院評鑑指標之首,全世界只有5%商管學院能通過認證,由此代表著教學品質、課程設計及學術研究水平獲得國際認證,因此必須經過嚴格、耗時的報告和評審流程。
:::spoiler AACSB也有index來對應每間學校是否符合該指標,可能可以作為ESG data轉換的參考,轉換Standards以建立知識圖譜的參考流程請點開
1. 從[AACSB Business Accreditation Standards](https://www.aacsb.edu/-/media/documents/accreditation/_2020-aacsb-business-accreditation-standards-_final--july-1-2024.pdf?rev=e40931bf2adc4e37a3074c0e88453e5c&hash=D6C8A21B021E62F9E088471EDFE3539D)中提取「Standard」和「Section」文本,並將它們組織成 CSV 文件
2. 使用Python腳本對文字進行預處理以標準化大小寫、刪除停用詞並刪除特殊字元。
3. 腳本的輸出是結構化的JSON檔案。
4. 使用JSON結構化資料建立知識圖譜
:::
- Dataset: 手動建立,未提供
- 內容: 收集了 15 個機構的 17 份認證文件。機構資料包含美國各地商學院不同課程規模的認證報告和附錄,日期範圍為 2016 年至 2023 年。
- 格式: 使用knowledge graph(知識圖譜)形式建構資料庫
- Ragas指標: Faithfulness, Answer Relevancy, Context Relevance, Context Recall, Answer Correctness

14. [Towards a copilot in BIM authoring tool using a large language model-based agent for intelligent human-machine interaction](https://mediatum.ub.tum.de/doc/1743921/document.pdf)
- 應用場景: BIM(建築資訊模型)為了能夠涵蓋所有專業學科,使用門檻逐漸提高,近年來Word, Excel等應用程式中運作時成功利用LLMs和資料上下文協助完成起草文件、總結電子郵件和繪製表格等任務,因此本篇論文提出了一種與設計軟體互動的新方式,並為在BIM創作工具中實現自動化奠定了基礎。
*技術中使用了先前學長提到的Whisper*
- Dataset: [Example Github](https://github.com/VectorworksDeveloper/SDKExamples/tree/master)
- 測試資料: 讓ChatGPT冒充用戶,詢問20個有關Vectorworks的問題,涵蓋基本使用、高級功能、故障排除等。
- 格式:
`Query`: BIM工具函數的輸入參數,或是使用者對軟體使用問題提出的問題。
`Answer`: 工具的回傳值,或對軟體使用問題的文字回答。
- 範例:

- Ragas指標: Faithfulness, Context utilization(Context precision), Answer Relevancy
- 
15. [Evaluation of Orca 2 Against Other LLMs for Retrieval Augmented Generation](https://link.springer.com/chapter/10.1007/978-981-97-2650-9_1)
- [Github](https://github.com/inflaton/Evaluation-of-Orca-2-for-RAG)
- 應用場景:
- Dataset:
- Ragas指標: Faithfulness、Answer Relevancy

16. [Facilitating Industrial B2B e-Auctions through Multi-Agent and Retrieval
Augmented Large Language Models](https://essay.utwente.nl/98821/1/Mansour_MA_EEMCS.pdf)
- 應用場景: 希望透過LLM優化**電子拍賣**策略、自動化設計拍賣會流程及產生客製化的拍賣設計建議,進一步達成利潤最佳化,這涉及了拍賣理論、賽局理論等專業領域。
- Dataset: 未提供
- 來源: 對2020至2023歐洲大型汽車OEM進行的4731次線上反向電子拍賣的大樣本進行了實證二次資料分析,進行統計分析後保留了重要的資料關係。
- 內容: 將蒐集到的資料透過一連串複雜流程轉換成QA-pair,因為在設計問題時涉及許多經濟理論,在此就不細舉流程,最後問題會被分成三類,分別是*拍賣理論問題*、*拍賣推薦問題*、*拍賣理論與推薦討論*
- 格式: Question, Answer
- 範例

- Ragas指標: Context Relevance, Answer Relevance, Faithfulness

- 基於相似性的指標ROUGE不適合評估拍賣設計建議以及對檢索到的文件和資料的內容進行事實檢查,因為缺乏單一的正確答案。
17. [GRAMMAR: Grounded and Modular Methodology for Assessment of Closed-Domain Retrieval-Augmented Language Models](https://arxiv.org/pdf/2404.19232)
- 應用場景: 提出了一個RAG的評估框架-[GRAMMAR](https://github.com/xinzhel/grammar),檢測RAG模型的穩健性(Robustness)。
- Dataset: 未提供
- 本文說明了如何利用關聯式資料庫和LLMs來透過SQL查詢提取QA-pair,但沒有提供那個**現有的關聯式資料庫**。

- 外部資料集: 本論文的案例研究主題為**工業項目問答**,外部資料集為虛構公司Aurp的專案文件,包含商業案例198例(12個屬性,共11行)和綜合場景的942例(14個屬性,共49行)。
- Ragas指標: Precision, Recall

18. [PrivComp-KG: Leveraging Knowledge Graph and Large Language Models for Privacy Policy Compliance Verification](https://arxiv.org/pdf/2404.19744)
- 應用場景: 開發了「隱私權政策合規性驗證知識圖譜」(PrivComp-KG),結合RAG系統,可以查詢供應商是否遵守相關政策法規的**隱私權**政策,以有效地將隱私權政策與監管標準保持一致。
- Dataset - [OPP-115](https://aclanthology.org/P16-1126/)
- 內容: 是一個與隱私政策相關的問答資料集,包含了115個線上隱私政策的 23,000 多筆資料,來源涵蓋社交媒體、電子商務網站和app。此資料集經過結構化和註釋,使其適合隱私權政策分析和評估語言模型,包括隱私權政策中概述的資料收集、使用、共享和保留做法的分類。
- 外部資料集: 430篇GDPR(一般個人資料保護規則)文章
- Ragas指標: Answer correctness

19. [LOCALINTEL: Generating Organizational Threat Intelligence from Global and Local Cyber Knowledge](https://arxiv.org/pdf/2401.10036)
- 應用場景: 建立一個自動化的知識上下文化系統(LOCALINTEL),它從全球威脅庫中檢索情報,同時從本地知識庫中檢索相關知識,嘗試解決SoC分析師需要手動從全球威脅數據庫和本地知識庫中定制威脅應對和緩解策略的問題。
- Dataset: 未提供,資料集準備分成以下三個部分
- Prompt: 問題,即RAG中的Query,根據每個問題蒐集本地和全球知識的文本描述
- Global CTI repository(全球CTI儲存庫): 從網站([CVE](https://cve.mitre.org/), [NVD](https://nvd.nist.gov/), [CWE](https://cwe.mitre.org/)) 、安全部落格和公告、社交媒體等地方獲取外部資料
- Local knowledge database(本地資料庫): 安全分析師研究組織指定的知識庫,提供了全球網路攻擊的詳細分析和見解
- Dataset範例
- Ragas指標: Answer Relevancy

- 框架較naive RAG複雜,data format有待確認
20. [From RAG to QA-RAG: Integrating Generative AI for Pharmaceutical Regulatory Compliance Process](https://arxiv.org/pdf/2402.01717)
- 應用場景: 解決**制藥行業中複雜的監管合規性問題**,提出了一種基於RAG技術建構的聊天機器人模型,能夠根據使用者的查詢搜索相關的指南文件,並提供答案。
- Dataset - [FDA_QA](https://huggingface.co/datasets/Jaymax/FDA_Pharmaceuticals_FAQ):
- 內容: FDA的官方問答資料集,總計 1681 個問答集,其中85%的數據用於training,10%用於validation,其餘5%用於testing。
- 格式: question, answer
- 外部資料庫: 編制了1,263份有關製藥業的 FDA(美國食品藥物管理局)指南文件的最終有效版本,以及141份 ICH(人用藥品技術要求國際協調委員會)指南文件,總計1,404個文檔作為外部參考資料。
- Ragas指標: Content precision, Context recall

- 提到了BLUE和ROUGE的限制,也稍微描述了一下LLMs-as-judges方法的可行性,認為其是與人為評價最相似的作法。
21. [MedInsight: A Multi-Source Context Augmentation Framework for Generating Patient-Centric Medical Responses using Large Language Models](https://arxiv.org/pdf/2403.08607)
- 應用場景: 提出一個名為 MedInsight 的框架,從患者的醫療記錄和醫學知識資料庫中提取訊息,提供適合患者的醫療診斷、治療建議和患者教育等醫療應用的特定患者客製化資訊。
- Dataset - [MTSamples](https://mtsamples.com/):
- 內容: 是一個完全合成的資料集,不包含真實的患者資訊,其包含了5000多份醫療報告的轉錄,涵蓋 40 多個醫學專業,本論文選擇了10個具體專業進行重點分析。
- QA-pair生成方式: 情境分析將資料集內容分成三大類別後,採用GPT-3.5-Turbo的零樣本提示策略,為下表專業中不同情境的患者(年齡從0-93歲,男女皆有,確保資料多樣性)產生問題,收集了大約 100 個問題,每個問題都是針對個別患者量身定制的。

- 外部資料庫: 從教科書和可信任網路平台(例如 Mayo Clinic、WebMD)等權威來源檢索的相關醫學知識。
- 選擇 RAGAS 和 TruLens 框架,使用綜合指標做為評估基準

- 認為BLEU主要用來評估翻譯(translation)任務,而ROUGE則是強在評估摘要(summarization)任務,這兩項任務的評估都強調**response(RAG生成的答案)與ground-truth之間的相關性**;但本模型只要**語意**相同即可,句子結構相似與否沒有太大意義,故不適用。
22. [Improving Retrieval for RAG based Question Answering Models on Financial Documents](https://arxiv.org/pdf/2404.07221)
- 目的: 探討如何增進檢索到的Context的品質,並提出幾種優化retriever的方法。
- Dataset - [FinanceBench: A New Benchmark for Financial Question Answering](https://arxiv.org/abs/2311.11944):
- 內容: 包含有關美國上市公司的 10,231 個財務問題,涵蓋一系列財務文件,例如2015 年至 2023 年期間發布的收益報告。這個資料集曾用於評估16個SOTA LLM models,並發現現有LLM模型在金融領域的回答較具侷限性。
- 格式: question, answer(ground-truth), context, page number from the relevant documen
- Ragas指標: Context Relevancy(Context Precision), Faithfulness
23. [A RAG-based Medical Assistant Especially for Infectious Diseases](https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10544639&casa_token=s-jFpLiH2UAAAAAA:uqK4is6Hvo9CFuBYKit2lM4BpyTJ01PM1HlY5fwQ85R_tB8w7jcRwfkfuvVcrjF0WpSe1OAZTg&tag=1)
- 應用場景: 建立一個RAG系統回答Covid-19的預防和治療提相關問題。
- Dataset: 未提供,採用graph database儲存資料在node中,這種儲存格是可以讓檢索更有效。
- 外部資料集建立方式: 使用的原始資料來自如Elsevier, the New York Times等多個可信任來源的PDF或txt形式,利用自動+手動的方式擷取涵蓋Covid-19的內容,再透過ELT(提取、轉換、載入)管道轉換成knowledge graph的格式。

- evaluation dataset format: question, answer, context, and ground truth,使用GPT-4生成,沒有提供生成的過程。
- Ragas指標:
- Faithfulness, Answer relevancy, Answer correctness
- 沒有提供結果,但論文中說有用到: Context precision, Context recall, Answer similarity
- 比較架構: 評估不同**RAG結構**或不同**資料預處理**方式的RAG

24. [RAGAS: Automated Evaluation of Retrieval Augmented Generation](https://arxiv.org/abs/2309.15217)