DBSCAN
- Idea
- Algorithm
- Advantage
- Disadvantage
- Reference
返回 Clustering
Idea
返回 DBSCAN
返回 Clustering
透過設定的半徑()及最少資料點數(MinPts)將資料分成三類:
- 核心點(core points)
對於給定點P,如果以為半徑張開的圓中包含至少MinPts個資料點(包括P自己),則稱P為核心點。
- 邊界點(border points)
對於給定點P,如果以為半徑張開的圓中包含小於MinPts個資料點(包括P自己),但P包含於某個核心點張出的圓中,則稱P為邊界點。
- 雜訊(Noise)
對於給定點P,如果以為半徑張開的圓中包含至少MinPts個資料點(包括P自己),且P不包含於任意核心點張出的圓中,則稱P為雜訊。
Algorithm
返回 DBSCAN
返回 Clustering
翻譯成白話文就是:
Advantage
返回 DBSCAN
返回 Clustering
- 不需事先指定群數
- 可以找出任何形狀的聚類
- 能分辨Noise
- 如果對資料有足夠的瞭解,可以選擇適當的參數來達到好的分類效果
Disadvantage
返回 DBSCAN
返回 Clustering
- 不同的資料順序可能會有不同的分群結果(幸運的是,這種情況不常見)
- 在高維度中,受到「維度災難」的影響,很難找出合適的
- 如果資料庫裡的點有不同的密度,則無法得到好的分群結果
Reference
返回 DBSCAN
返回 Clustering
- Wiki - DBSCAN
- 台灣人工智慧學校 Clustering method 1