Introduction to IR-IE

# Introduction to IR-IE ###### tags: `Information Retrieval and Extraction` ## Text Information Retrieval ### Architecture of IR Systems ![](https://i.imgur.com/gg52O7b.png) ### Information Retrieval Models * Boolean model [[1]](/rCAXfaG0RwKSY2mJiP8ZeQ) * Vector model [[2]](/B6RlFoXdTjK23MVw5Yy6cw) * Probabilistic model [[3]](/49SxQomqSYmqMMy24RzZFg) * Language Model [[4]](/c3mb4r6aTQSMljysMuYM9g) * Topic Model [[5]](/Y-qNVayLTAeovtUSjqlfsw) * Deep Learning Model [[6]](/H6yyQNSJSkmOh92YhfDGMQ) ![](https://i.imgur.com/Giw1ujC.png) ## Multilingual Information Retrieval ### Multi- & Cross- Lingual Information Access ![](https://i.imgur.com/RXeXLBT.png) ### Enhancing Traditional Information Retrieval Systems ![](https://i.imgur.com/3267nZr.png) (1): text translation (2): vector translation (3): query translation (4): term vector translation (1) and (2), (3) and (4): interlingual form ## Multimedia Information Retrieval ### Semantic Gap ![](https://i.imgur.com/p9Agk0M.png) 以前從圖像中去擷取隱含的Semantic content是有困難的，但現在由於CV技術進步，處理能力提高 ### Image Retrieval Black Box ![](https://i.imgur.com/GQZPPCD.png) ## Web Information Retrieval #### The big challenge Meet the user needs given the heterogeneity of web pages 從龐大的資料中萃取所需資訊是很困難的，像是網站的一直性（heterogeneity of web pages），且會根據不同背景的人，輸入的搜尋關鍵字(poorly made queries)也會不同（成年人、小孩） ## Context-Aware Information Retrieval ### Definitions of Context for IR * IR: location and delivery of documents which satisfy a user information need. * IR takes place in “context”, but this context is generally ignored in IR models and system design. * The definition of context in IR is widely interpreted. ## Information Extraction Automatic extraction of structured information from unstructured sources * entities * relationships between entities * attributes describing entities ### What is “Information Extraction” Information Extraction = segmentation + classification + clustering + association ![](https://i.imgur.com/VzUKu3i.png) ## Information Extraction vs. Information Retrieval 哪一個要先做其實不一定，像是ＱＡ問題會先做IR > IE ![](https://i.imgur.com/Fq23YNo.png) ## Search Scenario ![](https://i.imgur.com/JCB3Efh.png) ### Elements in the Search Scenario * Users * Users of Different Backgrounds, Expression , Contexts Naïve Users or Expert Users * Queries * Gaps between Information need and queries * Same information need expressed in different queries * Manual vs. Automatic (term suggestion, concept recommendation, relevance feedback) ### Elements in the Retrieval Scenario * IR Systems * Evaluation Metrics * Results * 檢索結果會根據不同人的認定會有不同的好或壞