[資料探勘project3報告](https://hackmd.io/@qq21629489/BJweIJz3t)
===
P96104112 製造所 碩一 蘇冠瑜
## HITS
* auth: 表示有多少個node**連向**他
* hub: 表示有多少個node**連到**他
### Graph1

* result
* auth: 0.000 0.200 0.200 0.200 0.200 0.200
* hub: 0.200 0.200 0.200 0.200 0.200 0.000
* node1的auth為0,因為沒有任何一個node連到node1。
* node6的hub為0,因為node6沒有連到其他node。
### Graph2

* result
* auth: 0.200 0.200 0.200 0.200 0.200
* hub: 0.200 0.200 0.200 0.200 0.200
* 因為是環狀graph,所有node的auth及hub皆一樣(一進一出)。
### Graph3

* result
* auth: 0.191 0.309 0.309 0.191
* hub: 0.191 0.309 0.309 0.191
* node2及node3的auth、hub比較高,因為他們同是連進2個node及連出2個node。
* node1及node4則相反,因為他們只連進1個node及連出1個node。
### Graph4

* result
* auth: 0.139 0.178 0.201 0.140 0.201 0.084 0.056
* hub: 0.275 0.048 0.109 0.199 0.184 0.069 0.117
### Graph5、Graph6、IBM
* result: 結果皆放在output資料夾中
## Page Rank
### Graph1

* result: 0.061 0.112 0.156 0.193 0.225 0.252
* 因為graph是單向(1>2>...>6),因此rank洽為低到高(累加in_node)。
### Graph2

* result: 0.200 0.200 0.200 0.200 0.200
* 因為是環狀graph,因此所有node的rank皆一樣。
### Graph3

* result: 0.175 0.325 0.325 0.175
* 因為node2及node3在graph的中間(node1與node4中間),因此得到比較高的rank。
### Graph4

* result: 0.280 0.159 0.139 0.108 0.184 0.069 0.061
* node6及node7的rank不高,原因在於他們位於graph的邊緣。
* node1及node5擁有相同數量的in_node,但rank node1 > node5,原因次node5的in_node包含node6、node7兩個邊緣的node。
### Graph5、Graph6、IBM
* result: 結果皆放在output資料夾中
## Sim Rank
### Graph1

* result: 
* 因為沒有任何一個node的擁有相同的out_node,因此rank皆為0。
### Graph2

* result: 
* 因為沒有任何一個node的擁有相同的out_node,因此rank皆為0。
### Graph3

* result: 
* node1、node3有相同的out_node: node2
* node2、node4有相同的out_node: node3
### Graph4

* result: 
### Graph5
* result: 結果放在output資料夾中
## Find a way (e.g., add/delete some links) to increase hub, authority, and PageRank of Node 1 in first 3 graphs respectively.
### HITS
* graph1:
* auth: add(3, 1) 任何node指向node1
* hub: add(1, 3) node1指向任何node
* graph2:
* auth: add(3, 1) node2~4指向node1
* hub: add(1, 3) node1指向任何node2~4
* graph3:
* auth: add(4, 1)
* hub: add(1, 4)
### Page Rank
* graph1: add(4, 1) 任何node指向node1
* graph2: add(4, 1) node2~4指向node1
* graph3: add(4, 1) or del(1, 2)
## Other Discussion
* 效率(以graph5為例):PageRank > HITS > SimRank
* HITS: 
* PageRank: 
* SimRank: 
* 公平性:PageRank >= SimRank > HITS
* HITS容易因為某個node擁有高的hub而導致這個node指向的node擁有高的auth,因此我認為較不公平。
* 又PageRank中有random jumping的機制,因此我認為PageRank >= SimRank。