輸入X(x1,x2…xn) –> 計算每個x與神經元的距離(越小 = 刺激越大) –> 更新權重
優點
具有神經網路的特性與優勢,如平行處理、分散式儲存、容錯力等
透過競爭學習,訓練權重係數後,自動得出各分群的中心
不須事先指定分群數目(應該說可以設大一點的群數,不用太精準)
支援大數量的分群結果,有效找出異常資料類且網路訓練收斂速度快
缺點
輸入資料少時,分群結果與資料輸入先後順序有關
與 adaptive resonance theory network (art) 不同,在學習完成前,不能加入新的類別
下載kohonen並引入
先觀察一下data
發現總共有177筆wine的資料,每筆資料又有13個不同屬性
因為SOM model需要訓練,所以開始分割訓練跟驗證集(8:2)
訓練集採用140筆(177x0.8 = 141.x ~ 140)
訓練集&驗證集&scaling
mean distance 越小越好
code : 看每個cluster中的屬性貢獻(權重)分布
mapping : 看每個cluster中的資料與cluster中心的距離
counts : 看每個cluster中有幾筆資料
quality : 顯示每個cluster內的資料與cluster中心的平均距離(越小越好 = 越集中 = 與其他cluster有較大差距)
dist.neighbours : 與其他鄰居資料的距離總和
code
counts
quality
mapping
changes
dist.neighbours
R
beginner
cat
tutorial