# 資料探勘 Project 1
Support, Confidence 分析
---
* #### **High Support, low Confidence:**
較高的 support 會讓生成 frequent itemsets 的條件變嚴苛(需要於資料集出現較多次),較低的 confidence 代表在 antecedent 的出現次數中,consequent 不需出現太多次就能形成 association rule,條件較為寬鬆。
較高的 support 也能使演算法應用在大型的資料時,大幅減少運算量,留下較具有探索價值的 frequent itemsets(含有該itemset 的 Transactions 筆數較多,分析較有價值)。
* #### **High Support, High Confidence:**
較高的 support 使 item 需要於資料集中出現較多次才能形成 frequent itemset,而較高的 confidence 代表一項 frequent item 中 antecedent 發生時,consequent需要同時出現較多次,才能形成 association rule。
此時若能計算出較高的 lift 值,代表 antecedent 和 consequent 間較有關聯性(例如互為 complement)。
* #### **Low Support, Low Confidence:**
在 low support 的情形下,item 不需同時出現太多次就能形成frequent itemset,較低的 confidence 也代表 frequent itemset 中,antecedent 和 consequent 不需同時出現太多次就能形成 association rule。
這種資料探勘的價值較低,因為鬆散的條件使得資料間較容易形成關聯法則。
* #### **Low Support, High Confidence:**
low support 使資料較容易形成 frequent itemset,而 high confidence 使 antecedent 和 consequent 需同時出現較多次才能形成 association rule。
這樣的條件能得到較多的 frequent itemsets ,並得到較多具有關聯性的組合。
Kaggle 資料集測試
---
* kaggle 資料集「Bolleywood Movies Datasets」:
[https://www.kaggle.com/datasets/rishidamarla/bollywood-movies-dataset](https://)
* 資料摘要:此資料包含 1638 部,從 2005~2017 年間,以印度語拍攝的寶萊塢電影,進而探討寶萊塢電影於印度國內的營收趨勢。
* **Attributes** :
1. **Movie Name(電影名稱)**:
電影名稱較無關聯,因此刪除這項feature
2. **Released Period(發布時期)** :
「Normal」 -> 「A」
「Holiday」 -> 「B」
3. **Whether Remake(是否重製)** :
「Yes」 -> 「C」
「No」 -> 「D」
4. **Whether Franchise(是否為一系列續集)** :
「Yes」 -> 「E」
「No」 -> 「F」
5. **Genre(種類)** :
「Drama」 -> 「G」
「Comedy」 -> 「H」
「Thriller」 -> 「I」
「Action」 -> 「J」
「Love Story」 -> 「K」
「Others」 -> 「L」
6. **New Actor(是否有新演員)** :
「Yes」 -> 「M」
「No」 -> 「N」
7. **New Director(是否為新導演所做)** :
「Yes」 -> 「O」
「No」 -> 「P」
8. **New Music Director(是否為新的音樂總監)** :
「Yes」 -> 「Q」
「No」 -> 「R」
9. **Lead Star(領航明星)** :
「Akshay Kumar」 -> 「S」
「Ajay Devgn」 -> 「T」
「others」 -> 「U」
10. **Director(導演為)** :
「Ram Gopal Verma」 -> 「V」
「Vikram Bhatt」 -> 「W」
「others」 -> 「X」
11. **Music Director(音樂總監為)** :
「Pritam」 -> 「Y」
「Himesh Reshammiya」 -> 「Z」
「Others」 -> 「AA」
12. **Number of Screens(包含多少印度語場景)** :

長條圖顯示大部分資料集中在 0~460,因此將 460 視為分界
「< 460」 -> 「AB」
「> 460」 -> 「AC」
13. **Revenue(總營收)** :

同理,將 210,292,500 視為分界線
「< 210,292,500」 -> 「AD」
「> 210,292,500」 -> 「AE」
14. **Budget(預算)** :

同理,將 801,618,525 視為分界線
「< 801,618,525」 -> 「AF」
「> 801,618,525」 -> 「AG」
* 分析結果
由於資料量龐大,生成的 frequent itemsets 數量極多,因此使用 min_support = 0.5。由於想要知道眾特徵對於營收高低的關聯性,因此將 min_confidence 設為0.8,並關注 consequent 為 「AD」、「AE」 的關聯法則(營收相關)。
1. 關聯法則顯示,當電影的上映日在平日、無系列續集、無明星領航時,預算低等等的情形下,獲得的總營收較少
* 假期期間為電影院的人流高峰,因此電影於假期間上映時,通常能獲得較高的營收
* 當電影無重製和續集、無重量級明星、導演時,電影預算較低,相反的,重製、聘請重量級人物時,預算會大幅提升。
2. 從規則也可看出,若寶萊塢電影出現的印度語場景較少,總營收也會降低,這代表電影含有的印度場景數量,對於人民的觀看意願有顯著的影響。
小結 & 心得
---
這份作業我花了非常多時間完成,由於目前為大一,對於資料結構還不太熟悉,因此在 FP-Tree 的部分做了很多前置功課,也從建樹和 mine tree 中,從 trial and error 中得到很多實作經驗和概念。在案例分析的部分我閱覽過很多資料集,也很高興能夠藉由關聯法則生成的規則,對數據集進行分析,學到很多東西。