# NLP常見處理技術 ###### tags: `NLP` :::info 論文轉成向量,並依過去喜好進行文本相似度排名,可從ref尋找優先比較的相似論文。 - 作者: #citation, #top cof. - 摘要: TF-IDF (考慮去除停用詞) - 頁數 - 收入的會議RANK 方法 - LDA: 為每個文檔貼標籤,進而用標籤進行篩選 - SVMRank: 記錄過去看過的論文,進而推斷可能感興趣的文章 - BM25: 用來比對query和哪一篇論文最相近 ::: ## TF-IDF TF可以计算在一篇文档中词出现的频率,而IDF可以降低一些通用词的作用。因此对于一篇文档我们可以用文档中每个词的TF−IDF组成的向量来表示该文档,再根据余弦相似度这类的方法来计算文档之间的相关性。  ## Cosine similarity 給出的相似性範圍從-1到1:-1意味著兩個向量指向的方向正好截然相反,1表示它們的指向是完全相同的,0通常表示它們之間是獨立的,而在這之間的值則表示中間的相似性或相異性。 對於文本匹配,屬性向量A 和B 通常是文檔中的詞頻向量。餘弦相似性,可以被看作是在比較過程中把文件長度正規化的方法。 在信息檢索的情況下,由於一個詞的頻率(TF-IDF權)不能為負數,所以這兩個文檔的餘弦相似性範圍從0到1。並且,兩個詞的頻率向量之間的角度不能大於90°。  ## BM25 BM25 算法通常用来做搜索相关性评分的,通常用来计算query和文本集合D中每篇文本之间的相关性。(相似度計算方法)  参数b的作用主要是调节文本长度对相关性的影响。 ## TextRank :::info * 如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高 * 如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高 ::: TextRank是受到google團隊發展的PageRank演算法啟發,原先是使用在計算網頁的相關性與重要程度上,作為排序搜尋結果的依據。然而相似概念可用於計算文章中句子的重要程度(用以摘要)。 在TextRank的概念中,能夠作為摘要的句子條件為**與文章中其他句子相似度最高**,在使用上可以特別注意任務特性是否也符合這個假設。 常用於 - Extractive summarization - keyword extraction ### 計算過程 #### 句子排名的話,會先進行斷句,每個句子成為一個節點 1. 計算任兩個節點的相似度 2. 只保留相似度高於門檻的邊 3. 一直迭代textrank的公式,直到收斂為止  針對每一個其他的節點 j ,計算節點 i 與此節點 j 的權重所占比例,再乘上節點 j 的TextRank分數。代表其他節點所貢獻的重要程度(節點 j 本身越重要或是彼此之間的連結權重比例越高,提供的數值就越高) #### 關鍵字抽取的話,會先進行斷詞,每個詞成為一個節點 1. 設定一個window size,若該詞和其他詞有共現關係,則建立兩點之間的邊。(邊即代表共現的次數) 2. 只保留相似度高於門檻的邊 3. 一直迭代textrank的公式,直到收斂為止 与TF-IDF需要在语料库上计算IDF(逆文档频率)不同,TextRank利用一篇文档内部的词语间的共现信息(语义)便可以抽取关键词。 ## Latent Dirichlet Allocation :::info LDA(隱含狄利克雷分布)有兩個基本原則: - 每篇文件都是由數個「主題 (Topic)」所組成。 - 每個主題都可以使用數個重要的「用詞 (Word)」來描述,且相同的用詞可同時出現在不同的主題之間。 ::: ## 參考 [TF-IDF, BM25](https://www.cnblogs.com/jiangxinyang/p/10516302.html)
×
Sign in
Email
Password
Forgot password
or
Sign in via Google
Sign in via Facebook
Sign in via X(Twitter)
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
Continue with a different method
New to HackMD?
Sign up
By signing in, you agree to our
terms of service
.