###### tags: `clusting` # 特徵提取 ## BOW辭袋模型 - 提取文字 - 將文件中的**詞彙獨立**並**忽略順序以及文法等要素**,如果每個詞彙與其他詞彙不相干就直接放進袋子中 -> 一個袋子代表一個文件 - 並將每一個袋子轉換成向量 ### 流程 #### 先建好辭典 -> 計算文件中符合的詞彙 -> 建立N個詞彙的辭典 -> 每個文件皆由N維的向量表示 ## SIFT - 圖像特徵提取 進化->SURF(加速 - 尺度不變特徵轉換(**S**cale-**I**nvariant **F**eature **T**ransform) - 一種機器視覺的演算法用來偵測與描述影像中的局部性特徵 - 在空間尺度中尋找極值點,並提取出其位置、尺度、旋轉不變數 - 對於光線、雜訊、些微視角改變的容忍度也相當高 ### 老師的做法: 先將shot疊成GEI -> GEI再用SIFT做特徵提取 -> 統整出現次數(用直方圖表示) -> 用CNN將特徵更凸出&用BOW辭袋模型表示視覺特徵並將其變成向量 -> 將向量輸入到SVM