# 文件和web探勘 ###### tags: `Data Mining` ## 概論 ### 文件探勘(文字挖掘) * 文件探勘是指將資料探勘技術應用在大量的文件集合上,發現其中隱含的知識的過程。 * 大致相當於文字分析,一般指文字處理過程中產生高品質的資訊。高品質的資訊通常通過分類和預測來產生,如圖型識別。文字挖掘通常涉及輸入文字的處理過程(通常進行分析,同時加上一些衍生語言特徵以及消除雜音,隨後插入到資料庫中) ,產生結構化資料,並最終評價和解釋輸出。 * 文字分析包括了資訊檢索、詞典分析來研究詞語的頻數分布、圖型識別、標籤注釋、資訊抽取,資料探勘技術包括連結和關聯分析、視覺化和預測分析。 * 本質上,首要的任務是,通過自然語言處理(NLP)和分析方法,將文字轉化為資料進行分析 ### Web探勘 * 「網路探勘(Web Mining)」顧名思義是利用「資料探勘(Data Mining)」的技術於全球資訊網上,用以探勘網頁內容、網站架構、使用者行為的方法。 ## 文件探勘技術 ### 介紹 * 文字探勘(Text Mining)被視為是資料探勘(Data Mining)的一環,其中有個關鍵的差別,在於傳統資料探勘所處理的資料,都是「結構性」的資料,也就是說,資料本身具有明確的結構,例如,像是一個固定結構的表格,每個欄位有其明確的定義及值。 * 為什麼要用數字表示呢?因為電腦只能理解數字,不論在後續的演算法處理,亦或是近期火紅的深度學習,都必須使用數字來表示文字,讓電腦讀懂意涵,畢竟電腦還是看不懂文字的! * **TF-IDF** 演算法包含了兩個部分:**詞頻**(term frequency,TF)跟**逆向文件頻率**(inverse document frequency,IDF) * 詞頻指的是某一個給定的詞語在該文件中出現的頻率,第t個詞出現在第d篇文件的頻率記做$tf_{t,d}$, * 舉例來說,如果文件 1 總共有100個字,而第 1 個字在文件 1 出現的次數是12次,因此$tf_{t,d}=12/100$ * 逆向文件頻率則是用來處理常用字的問題。 * 假設詞彙t總共在$d_t$篇文章中出現過,則詞彙$t$的 IDF 定義成$idf_t=log{\frac{D}{d_t}})$ * 比如說,假設文字 1 總共出現在 25 篇不同的文件,則 $idf_t=log{\frac{D}{25}})$。如果詞彙 在非常多篇文章中都出現過,就代表$d_t$很大,此時$idf_t$就會比較小 * TF-IDF 時常被用來作資訊檢索 (information retrieval) ### 如何提取 * 將沒有結構的文字資料,轉換成為結構性的數值性資料,而且還要易於查詢。 1. 要先對輸入的字串進行斷字 * 我愛吃香蕉 : 我 愛 吃 香蕉 * 我愛吃蘋果 : 我 愛 吃 蘋果 2. 從句子中抓取不重複的詞 3. \["我", "愛", "吃", "香蕉", "蘋果", "好"\] 4. 使用該詞在文件中所出現的次數作為權重來表示 *  5. 使用反向索引的方式來記錄,採用反向索引的表示方式後,所用的空間可以降低。此外,你可以留意到,反向索引的結構也有利於查詢。 *  * 對搜尋引擎來說,這樣的結構可以滿足最基本的需求。 6. 搜尋引擎便可以拿關鍵詞去比對反向索引左方的表,接著沿著指向右方表格的連結,找出含有該詞的所有文件。 7. 若關鍵詞有多個,可以綜合多個查詢結果做集合運算,即可得到最後的結果。 ## Web資料探勘技術 ### 介紹 * 網路探勘可分為三類,分別 * 「==網站內容探勘(Web Content Mining)==」 * 強調從全球資訊網上檢索資訊,根據網站本身的內容進行資料探勘,其內容包括有網頁內容文字、連結文字及目錄結構文字 * 從網頁的文字、圖片、以及各種組成網頁的內容中挖掘資訊。 * 應用「網站內容探勘」可以協助「搜尋引擎」、「智慧型代理程式」、「推薦機制」能夠更有效的幫助網友在茫茫網海中找尋想要的內容。 * 「==網站結構探勘(Web Structure Mining)==」 * 利用圖形的方式來描述網站結構以及表示連結的模式,而並不描述連結的網頁內容,可以利用此種模式來將網站進行分類 * 主要的目的是發掘網頁連結架構下的連結模型。 * 這個模型是根據超連結所構成的拓樸,因此可以有效地分類並且產生網站之間關聯性的資訊 * 「==網站使用度探勘(Web Usage Mining)==」 * 重視找出使用者在全球資訊網上的瀏覽及存取型別,以網頁的日誌檔(web log file)為資料來源進行網頁使用探勘。 * 從使用者應用瀏覽器閱讀頁面的行為中挖掘資訊 
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up