**字串比對模型** # 資料 **資料範圍** 上市、上櫃、興櫃、前2000大、醫護 **正確資料** 1. full name 2. 上市興櫃short name 3. 人工產出的醫護資料 4. 真實資料(未加入) **假資料** 1. 順序打亂*2組 2. 多字*3組 (多1、3、5字) 3. 上市興櫃+醫護資料 VS 錯誤資料 # Jaro Distance exact match : 0 completely dissimilar : 1 # Q-garm Cosine **GNN** node classification - 先針對每一個節點node做分類,再根據未知節點與已知節點的互動,預測未知節點的分類。 - 常見應用 : covid-19、輿論、線上廣告分眾 Link prediction - 是否認識此好友? - user-item graph : 根據好友喜歡的商品(影片)類型,推薦商品。 作法 1. Hand craft feature Matrix - 特徵工程 : 針對每個節點,產出特徵欄位,一個節點一row,形成特徵矩陣。EX : 此節點有幾個相鄰的連線。 2. Learned Latent Feature Matrix - Feature Learning : 演算法學習出來的節點的特徵表示向量(graph representation or Embeding vector),形成特徵矩陣。 - graph representation learning (GRL) : 若想建立2維的特徵矩陣,就把每個節點頭影到二維空間,且保持節點與節點之間的距離遠近。