[資料探勘project3報告](https://hackmd.io/@qq21629489/BJweIJz3t) === P96104112 製造所 碩一 蘇冠瑜 ## HITS * auth: 表示有多少個node**連向**他 * hub: 表示有多少個node**連到**他 ### Graph1 ![](https://i.imgur.com/kX0QLWo.png) * result * auth: 0.000 0.200 0.200 0.200 0.200 0.200 * hub: 0.200 0.200 0.200 0.200 0.200 0.000 * node1的auth為0,因為沒有任何一個node連到node1。 * node6的hub為0,因為node6沒有連到其他node。 ### Graph2 ![](https://i.imgur.com/dMFk8ft.png) * result * auth: 0.200 0.200 0.200 0.200 0.200 * hub: 0.200 0.200 0.200 0.200 0.200 * 因為是環狀graph,所有node的auth及hub皆一樣(一進一出)。 ### Graph3 ![](https://i.imgur.com/ixMGfha.png) * result * auth: 0.191 0.309 0.309 0.191 * hub: 0.191 0.309 0.309 0.191 * node2及node3的auth、hub比較高,因為他們同是連進2個node及連出2個node。 * node1及node4則相反,因為他們只連進1個node及連出1個node。 ### Graph4 ![](https://i.imgur.com/aVskE2b.png) * result * auth: 0.139 0.178 0.201 0.140 0.201 0.084 0.056 * hub: 0.275 0.048 0.109 0.199 0.184 0.069 0.117 ### Graph5、Graph6、IBM * result: 結果皆放在output資料夾中 ## Page Rank ### Graph1 ![](https://i.imgur.com/kX0QLWo.png) * result: 0.061 0.112 0.156 0.193 0.225 0.252 * 因為graph是單向(1>2>...>6),因此rank洽為低到高(累加in_node)。 ### Graph2 ![](https://i.imgur.com/dMFk8ft.png) * result: 0.200 0.200 0.200 0.200 0.200 * 因為是環狀graph,因此所有node的rank皆一樣。 ### Graph3 ![](https://i.imgur.com/ixMGfha.png) * result: 0.175 0.325 0.325 0.175 * 因為node2及node3在graph的中間(node1與node4中間),因此得到比較高的rank。 ### Graph4 ![](https://i.imgur.com/aVskE2b.png) * result: 0.280 0.159 0.139 0.108 0.184 0.069 0.061 * node6及node7的rank不高,原因在於他們位於graph的邊緣。 * node1及node5擁有相同數量的in_node,但rank node1 > node5,原因次node5的in_node包含node6、node7兩個邊緣的node。 ### Graph5、Graph6、IBM * result: 結果皆放在output資料夾中 ## Sim Rank ### Graph1 ![](https://i.imgur.com/kX0QLWo.png) * result: ![](https://i.imgur.com/FsphHHZ.png) * 因為沒有任何一個node的擁有相同的out_node,因此rank皆為0。 ### Graph2 ![](https://i.imgur.com/dMFk8ft.png) * result: ![](https://i.imgur.com/9rXZ14b.png) * 因為沒有任何一個node的擁有相同的out_node,因此rank皆為0。 ### Graph3 ![](https://i.imgur.com/ixMGfha.png) * result: ![](https://i.imgur.com/DJekO3v.png) * node1、node3有相同的out_node: node2 * node2、node4有相同的out_node: node3 ### Graph4 ![](https://i.imgur.com/aVskE2b.png) * result: ![](https://i.imgur.com/Za4y3or.png) ### Graph5 * result: 結果放在output資料夾中 ## Find a way (e.g., add/delete some links) to increase hub, authority, and PageRank of Node 1 in first 3 graphs respectively. ### HITS * graph1: * auth: add(3, 1) 任何node指向node1 * hub: add(1, 3) node1指向任何node * graph2: * auth: add(3, 1) node2~4指向node1 * hub: add(1, 3) node1指向任何node2~4 * graph3: * auth: add(4, 1) * hub: add(1, 4) ### Page Rank * graph1: add(4, 1) 任何node指向node1 * graph2: add(4, 1) node2~4指向node1 * graph3: add(4, 1) or del(1, 2) ## Other Discussion * 效率(以graph5為例):PageRank > HITS > SimRank * HITS: ![](https://i.imgur.com/OlGEEaJ.png) * PageRank: ![](https://i.imgur.com/KFMNe2L.png) * SimRank: ![](https://i.imgur.com/k5iTaR5.png) * 公平性:PageRank >= SimRank > HITS * HITS容易因為某個node擁有高的hub而導致這個node指向的node擁有高的auth,因此我認為較不公平。 * 又PageRank中有random jumping的機制,因此我認為PageRank >= SimRank。