---
# System prepended metadata

title: 文件和web探勘
tags: [Data Mining]

---

# 文件和web探勘
###### tags: `Data Mining`

## 概論

### 文件探勘(文字挖掘)
* 文件探勘是指將資料探勘技術應用在大量的文件集合上，發現其中隱含的知識的過程。
* 大致相當於文字分析，一般指文字處理過程中產生高品質的資訊。高品質的資訊通常通過分類和預測來產生，如圖型識別。文字挖掘通常涉及輸入文字的處理過程（通常進行分析，同時加上一些衍生語言特徵以及消除雜音，隨後插入到資料庫中） ，產生結構化資料，並最終評價和解釋輸出。
* 文字分析包括了資訊檢索、詞典分析來研究詞語的頻數分布、圖型識別、標籤注釋、資訊抽取，資料探勘技術包括連結和關聯分析、視覺化和預測分析。
* 本質上，首要的任務是，通過自然語言處理（NLP）和分析方法，將文字轉化為資料進行分析


### Web探勘

* 「網路探勘(Web Mining)」顧名思義是利用「資料探勘(Data Mining)」的技術於全球資訊網上，用以探勘網頁內容、網站架構、使用者行為的方法。


## 文件探勘技術

### 介紹
* 文字探勘（Text Mining）被視為是資料探勘（Data Mining）的一環，其中有個關鍵的差別，在於傳統資料探勘所處理的資料，都是「結構性」的資料，也就是說，資料本身具有明確的結構，例如，像是一個固定結構的表格，每個欄位有其明確的定義及值。
* 為什麼要用數字表示呢？因為電腦只能理解數字，不論在後續的演算法處理，亦或是近期火紅的深度學習，都必須使用數字來表示文字，讓電腦讀懂意涵，畢竟電腦還是看不懂文字的！
* **TF-IDF** 演算法包含了兩個部分：**詞頻**（term frequency，TF）跟**逆向文件頻率**（inverse document frequency，IDF）
    * 詞頻指的是某一個給定的詞語在該文件中出現的頻率，第t個詞出現在第d篇文件的頻率記做$tf_{t,d}$，
        * 舉例來說，如果文件 1 總共有100個字，而第 1 個字在文件 1 出現的次數是12次，因此$tf_{t,d}=12/100$
    * 逆向文件頻率則是用來處理常用字的問題。
        * 假設詞彙t總共在$d_t$篇文章中出現過，則詞彙$t$的 IDF 定義成$idf_t=log{\frac{D}{d_t}})$
        * 比如說，假設文字 1 總共出現在 25 篇不同的文件，則 $idf_t=log{\frac{D}{25}})$。如果詞彙 在非常多篇文章中都出現過，就代表$d_t$很大，此時$idf_t$就會比較小
* TF-IDF 時常被用來作資訊檢索 (information retrieval)


### 如何提取

* 將沒有結構的文字資料，轉換成為結構性的數值性資料，而且還要易於查詢。
1. 要先對輸入的字串進行斷字
    * 我愛吃香蕉 : 我 愛 吃 香蕉
    * 我愛吃蘋果 : 我 愛 吃 蘋果
2. 從句子中抓取不重複的詞
3. \["我", "愛", "吃", "香蕉", "蘋果", "好"\]
4. 使用該詞在文件中所出現的次數作為權重來表示
    * ![](https://i.imgur.com/5RtMLty.png)
5. 使用反向索引的方式來記錄，採用反向索引的表示方式後，所用的空間可以降低。此外，你可以留意到，反向索引的結構也有利於查詢。
    * ![](https://i.imgur.com/RIjsW9g.png)
    * 對搜尋引擎來說，這樣的結構可以滿足最基本的需求。
6. 搜尋引擎便可以拿關鍵詞去比對反向索引左方的表，接著沿著指向右方表格的連結，找出含有該詞的所有文件。
7. 若關鍵詞有多個，可以綜合多個查詢結果做集合運算，即可得到最後的結果。

## Web資料探勘技術

### 介紹

* 網路探勘可分為三類，分別
    * 「==網站內容探勘(Web Content Mining)==」
        * 強調從全球資訊網上檢索資訊，根據網站本身的內容進行資料探勘，其內容包括有網頁內容文字、連結文字及目錄結構文字
        * 從網頁的文字、圖片、以及各種組成網頁的內容中挖掘資訊。
        * 應用「網站內容探勘」可以協助「搜尋引擎」、「智慧型代理程式」、「推薦機制」能夠更有效的幫助網友在茫茫網海中找尋想要的內容。
    * 「==網站結構探勘(Web Structure Mining)==」
        * 利用圖形的方式來描述網站結構以及表示連結的模式，而並不描述連結的網頁內容，可以利用此種模式來將網站進行分類
        * 主要的目的是發掘網頁連結架構下的連結模型。
        * 這個模型是根據超連結所構成的拓樸，因此可以有效地分類並且產生網站之間關聯性的資訊
    * 「==網站使用度探勘(Web Usage Mining)==」
        * 重視找出使用者在全球資訊網上的瀏覽及存取型別，以網頁的日誌檔(web log file)為資料來源進行網頁使用探勘。
        * 從使用者應用瀏覽器閱讀頁面的行為中挖掘資訊

![](https://i.imgur.com/StaXMBb.jpg)