# NLP常見處理技術 ###### tags: `NLP` :::info 論文轉成向量,並依過去喜好進行文本相似度排名,可從ref尋找優先比較的相似論文。 - 作者: #citation, #top cof. - 摘要: TF-IDF (考慮去除停用詞) - 頁數 - 收入的會議RANK 方法 - LDA: 為每個文檔貼標籤,進而用標籤進行篩選 - SVMRank: 記錄過去看過的論文,進而推斷可能感興趣的文章 - BM25: 用來比對query和哪一篇論文最相近 ::: ## TF-IDF TF可以计算在一篇文档中词出现的频率,而IDF可以降低一些通用词的作用。因此对于一篇文档我们可以用文档中每个词的TF−IDF组成的向量来表示该文档,再根据余弦相似度这类的方法来计算文档之间的相关性。  ## Cosine similarity 給出的相似性範圍從-1到1:-1意味著兩個向量指向的方向正好截然相反,1表示它們的指向是完全相同的,0通常表示它們之間是獨立的,而在這之間的值則表示中間的相似性或相異性。 對於文本匹配,屬性向量A 和B 通常是文檔中的詞頻向量。餘弦相似性,可以被看作是在比較過程中把文件長度正規化的方法。 在信息檢索的情況下,由於一個詞的頻率(TF-IDF權)不能為負數,所以這兩個文檔的餘弦相似性範圍從0到1。並且,兩個詞的頻率向量之間的角度不能大於90°。  ## BM25 BM25 算法通常用来做搜索相关性评分的,通常用来计算query和文本集合D中每篇文本之间的相关性。(相似度計算方法)  参数b的作用主要是调节文本长度对相关性的影响。 ## TextRank :::info * 如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高 * 如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高 ::: TextRank是受到google團隊發展的PageRank演算法啟發,原先是使用在計算網頁的相關性與重要程度上,作為排序搜尋結果的依據。然而相似概念可用於計算文章中句子的重要程度(用以摘要)。 在TextRank的概念中,能夠作為摘要的句子條件為**與文章中其他句子相似度最高**,在使用上可以特別注意任務特性是否也符合這個假設。 常用於 - Extractive summarization - keyword extraction ### 計算過程 #### 句子排名的話,會先進行斷句,每個句子成為一個節點 1. 計算任兩個節點的相似度 2. 只保留相似度高於門檻的邊 3. 一直迭代textrank的公式,直到收斂為止  針對每一個其他的節點 j ,計算節點 i 與此節點 j 的權重所占比例,再乘上節點 j 的TextRank分數。代表其他節點所貢獻的重要程度(節點 j 本身越重要或是彼此之間的連結權重比例越高,提供的數值就越高) #### 關鍵字抽取的話,會先進行斷詞,每個詞成為一個節點 1. 設定一個window size,若該詞和其他詞有共現關係,則建立兩點之間的邊。(邊即代表共現的次數) 2. 只保留相似度高於門檻的邊 3. 一直迭代textrank的公式,直到收斂為止 与TF-IDF需要在语料库上计算IDF(逆文档频率)不同,TextRank利用一篇文档内部的词语间的共现信息(语义)便可以抽取关键词。 ## Latent Dirichlet Allocation :::info LDA(隱含狄利克雷分布)有兩個基本原則: - 每篇文件都是由數個「主題 (Topic)」所組成。 - 每個主題都可以使用數個重要的「用詞 (Word)」來描述,且相同的用詞可同時出現在不同的主題之間。 ::: ## 參考 [TF-IDF, BM25](https://www.cnblogs.com/jiangxinyang/p/10516302.html)
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up