這個主題的目的在於如何快速從龐大的高維特徵空間查找到與 query vector 最相似的 ID。
特徵降維 (PCA, LDA)、最近鄰居演算法(KD-Tree, LSH, Product/Vector quant)、分層辨識 (利用年齡、性別等顯性特徵分層儲存特徵) 都是常見的方法
KD-Tree
常見的 tree-based search algo,是這個領域的經典演算法。他透過不斷地找出變異數最大的維度來將整個特徵空間用一個超平面分割成兩塊來使得特徵空間變成一個二元樹,每一個特徵空間的點都對應到二元樹中的節點,以此來搜尋到 nearest point。但是,K-D tree 在高維度的線性搜尋的時候效率就會變差,因為高維空間的資料分布非常稀疏會導致搜尋的準度下降很多。現在已經不太會用這個方法來做了。
截圖 2023-03-29 上午11.57.27 1
Quantization