## 介紹 Naïve Bayes 貝氏分類器(Naïve Bayes) 是一組基於 貝葉斯定理(Bayes' Theorem) 的分類演算法,適用於處理分類問題。它之所以被稱為「Naive」(單純的),是因為該模型假設所有特徵之間是條件獨立的,即每個特徵對目標類別的影響相互獨立,若要進行分類,我們需要使用特徵 X 來預測類別 Y。 由於其數學基礎簡潔,Naïve Bayes 在處理高維數據時仍能保持較快的運算速度。此外,它對小型數據集表現良好,在文本分類、垃圾郵件檢測和情感分析等取得了廣泛的成功,儘管其獨立性假設在某些情況下不完全成立,Naïve Bayes 仍是一種強大且易於解釋的分類方法。 ### 貝氏定理 貝氏定理提供了一種計算條件機率的方式,其公式如下: $P(C_k | X) = \frac{P(X | C_k) P(C_k)}{P(X)}$ 其中: * $P(C_k | X)$:在給定特徵 $X$ 的情況下,數據屬於類別 $C_k$ 的後驗機率。 * $P(X | C_k)$:在類別 $C_k$ 下,觀察到特徵 $X$ 的機率。 * $P(C_k)$:類別 $C_k$ 出現的先驗機率,代表該類別的基本出現頻率。 * $P(X)$:特徵 $X$ 出現的邊際機率,是所有可能類別的總體機率。 ## Naïve Bayes 模型  ### 假設特徵間互相獨立 Naïve Bayes 假設特徵之間是條件獨立的,即特徵彼此之間沒有相互影響,這意味著在給定類別 Y 的條件下,每個特徵 xᵢ 的出現概率僅依賴於類別 Y,與其他特徵無關,因此可以將條件機率拆解為: $P(X | C_k) = \prod_{i=1}^{n} P(x_i | C_k)$ ### 預測階段 Naïve Bayes 採用最大後驗機率(MAP, Maximum A Posteriori),透過計算每個類別 $C_k$ 的先驗機率 $P(C_k)$ 與條件機率的乘積,最終選擇機率最高的類別作為預測結果。 $C^* = \arg\max_{C_k} P(C_k) \prod_{i=1}^{n} P(X_i | C_k)$ ## 案例-垃圾郵件分類 假設我們希望根據某人的電子郵件內容判斷它是垃圾郵件(Spam)還是正常郵件(Ham),Naïve Bayes 透過計算特定單詞在不同類別中出現的機率來進行分類,例如,如果一封郵件包含 "免費(free)" 這個詞,那麼該郵件是垃圾郵件的可能性可能較高。 $P(\text{Spam} | \text{words}) = \frac{P(\text{words} | \text{Spam}) P(\text{Spam})}{P(\text{words})}$ 如果這個機率比 $P(\text{Ham} | \text{words})$ 更大,則我們將該郵件分類為垃圾郵件。 ## 總結 Naïve Bayes 具有 計算高效、適用於小型數據集、不易過擬合 等優點,但由於假設特徵獨立,可能在某些應用場景下表現不佳,例如,在影像識別中,像素之間通常具有高度相關性,而 Naïve Bayes 無法有效處理這類問題。 --- :::info 以上就是這篇文章「貝氏分類器(Naïve Bayes)」的所有內容,第一次看的人會花比較多時間消化吸收,這是很正常的事情,若有任何問題,歡迎在下方與我聯繫、討論,接下來也會繼續分享相關文章,敬請期待。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up