NLP常見處理技術

# NLP常見處理技術 ###### tags: `NLP` :::info 論文轉成向量，並依過去喜好進行文本相似度排名，可從ref尋找優先比較的相似論文。 - 作者: #citation, #top cof. - 摘要: TF-IDF (考慮去除停用詞) - 頁數 - 收入的會議RANK 方法 - LDA: 為每個文檔貼標籤，進而用標籤進行篩選 - SVMRank: 記錄過去看過的論文，進而推斷可能感興趣的文章 - BM25: 用來比對query和哪一篇論文最相近 ::: ## TF-IDF TF可以计算在一篇文档中词出现的频率，而IDF可以降低一些通用词的作用。因此对于一篇文档我们可以用文档中每个词的TF−IDF组成的向量来表示该文档，再根据余弦相似度这类的方法来计算文档之间的相关性。 ![](https://i.imgur.com/gYgqBl8.png) ## Cosine similarity 給出的相似性範圍從-1到1：-1意味著兩個向量指向的方向正好截然相反，1表示它們的指向是完全相同的，0通常表示它們之間是獨立的，而在這之間的值則表示中間的相似性或相異性。對於文本匹配，屬性向量A 和B 通常是文檔中的詞頻向量。餘弦相似性，可以被看作是在比較過程中把文件長度正規化的方法。在信息檢索的情況下，由於一個詞的頻率（TF-IDF權）不能為負數，所以這兩個文檔的餘弦相似性範圍從0到1。並且，兩個詞的頻率向量之間的角度不能大於90°。 ![](https://i.imgur.com/kb6Szzv.png) ## BM25 BM25 算法通常用来做搜索相关性评分的，通常用来计算query和文本集合D中每篇文本之间的相关性。(相似度計算方法) ![](https://i.imgur.com/ZA6S58V.png) 参数b的作用主要是调节文本长度对相关性的影响。 ## TextRank :::info * 如果一个网页被很多其他网页链接到的话说明这个网页比较重要，也就是PageRank值会相对较高 * 如果一个PageRank值很高的网页链接到一个其他的网页，那么被链接到的网页的PageRank值会相应地因此而提高 ::: TextRank是受到google團隊發展的PageRank演算法啟發，原先是使用在計算網頁的相關性與重要程度上，作為排序搜尋結果的依據。然而相似概念可用於計算文章中句子的重要程度(用以摘要)。在TextRank的概念中，能夠作為摘要的句子條件為**與文章中其他句子相似度最高**，在使用上可以特別注意任務特性是否也符合這個假設。常用於 - Extractive summarization - keyword extraction ### 計算過程 #### 句子排名的話，會先進行斷句，每個句子成為一個節點 1. 計算任兩個節點的相似度 2. 只保留相似度高於門檻的邊 3. 一直迭代textrank的公式，直到收斂為止 ![](https://i.imgur.com/yYX1zit.png) 針對每一個其他的節點 j ，計算節點 i 與此節點 j 的權重所占比例，再乘上節點 j 的TextRank分數。代表其他節點所貢獻的重要程度(節點 j 本身越重要或是彼此之間的連結權重比例越高，提供的數值就越高) #### 關鍵字抽取的話，會先進行斷詞，每個詞成為一個節點 1. 設定一個window size，若該詞和其他詞有共現關係，則建立兩點之間的邊。(邊即代表共現的次數) 2. 只保留相似度高於門檻的邊 3. 一直迭代textrank的公式，直到收斂為止与TF-IDF需要在语料库上计算IDF(逆文档频率)不同，TextRank利用一篇文档内部的词语间的共现信息(语义)便可以抽取关键词。 ## Latent Dirichlet Allocation :::info LDA(隱含狄利克雷分布)有兩個基本原則: - 每篇文件都是由數個「主題 (Topic)」所組成。 - 每個主題都可以使用數個重要的「用詞 (Word)」來描述，且相同的用詞可同時出現在不同的主題之間。 ::: ## 參考 [TF-IDF, BM25](https://www.cnblogs.com/jiangxinyang/p/10516302.html)