資料探勘 Project 1

# 資料探勘 Project 1 Support, Confidence 分析 --- * #### **High Support, low Confidence：** 較高的 support 會讓生成 frequent itemsets 的條件變嚴苛（需要於資料集出現較多次），較低的 confidence 代表在 antecedent 的出現次數中，consequent 不需出現太多次就能形成 association rule，條件較為寬鬆。較高的 support 也能使演算法應用在大型的資料時，大幅減少運算量，留下較具有探索價值的 frequent itemsets（含有該itemset 的 Transactions 筆數較多，分析較有價值）。 * #### **High Support, High Confidence：** 較高的 support 使 item 需要於資料集中出現較多次才能形成 frequent itemset，而較高的 confidence 代表一項 frequent item 中 antecedent 發生時，consequent需要同時出現較多次，才能形成 association rule。此時若能計算出較高的 lift 值，代表 antecedent 和 consequent 間較有關聯性（例如互為 complement）。 * #### **Low Support, Low Confidence：** 在 low support 的情形下，item 不需同時出現太多次就能形成frequent itemset，較低的 confidence 也代表 frequent itemset 中，antecedent 和 consequent 不需同時出現太多次就能形成 association rule。這種資料探勘的價值較低，因為鬆散的條件使得資料間較容易形成關聯法則。 * #### **Low Support, High Confidence：** low support 使資料較容易形成 frequent itemset，而 high confidence 使 antecedent 和 consequent 需同時出現較多次才能形成 association rule。這樣的條件能得到較多的 frequent itemsets ，並得到較多具有關聯性的組合。 Kaggle 資料集測試 --- * kaggle 資料集「Bolleywood Movies Datasets」: [https://www.kaggle.com/datasets/rishidamarla/bollywood-movies-dataset](https://) * 資料摘要：此資料包含 1638 部，從 2005~2017 年間，以印度語拍攝的寶萊塢電影，進而探討寶萊塢電影於印度國內的營收趨勢。 * **Attributes** : 1. **Movie Name（電影名稱）**: 電影名稱較無關聯，因此刪除這項feature 2. **Released Period（發布時期）** : 「Normal」 -> 「A」「Holiday」 -> 「B」 3. **Whether Remake（是否重製）** : 「Yes」 -> 「C」「No」 -> 「D」 4. **Whether Franchise（是否為一系列續集）** : 「Yes」 -> 「E」「No」 -> 「F」 5. **Genre（種類）** : 「Drama」 -> 「G」「Comedy」 -> 「H」「Thriller」 -> 「I」「Action」 -> 「J」「Love Story」 -> 「K」「Others」 -> 「L」 6. **New Actor（是否有新演員）** : 「Yes」 -> 「M」「No」 -> 「N」 7. **New Director（是否為新導演所做）** : 「Yes」 -> 「O」「No」 -> 「P」 8. **New Music Director（是否為新的音樂總監）** : 「Yes」 -> 「Q」「No」 -> 「R」 9. **Lead Star（領航明星）** : 「Akshay Kumar」 -> 「S」「Ajay Devgn」 -> 「T」「others」 -> 「U」 10. **Director（導演為）** : 「Ram Gopal Verma」 -> 「V」「Vikram Bhatt」 -> 「W」「others」 -> 「X」 11. **Music Director（音樂總監為）** : 「Pritam」 -> 「Y」「Himesh Reshammiya」 -> 「Z」「Others」 -> 「AA」 12. **Number of Screens（包含多少印度語場景）** : ![](https://i.imgur.com/H7VL4MN.png) 長條圖顯示大部分資料集中在 0~460，因此將 460 視為分界「< 460」 -> 「AB」「> 460」 -> 「AC」 13. **Revenue（總營收）** : ![](https://i.imgur.com/q0ZphU9.png) 同理，將 210,292,500 視為分界線「< 210,292,500」 -> 「AD」「> 210,292,500」 -> 「AE」 14. **Budget（預算）** : ![](https://i.imgur.com/XcvCWJ1.png) 同理，將 801,618,525 視為分界線「< 801,618,525」 -> 「AF」「> 801,618,525」 -> 「AG」 * 分析結果由於資料量龐大，生成的 frequent itemsets 數量極多，因此使用 min_support = 0.5。由於想要知道眾特徵對於營收高低的關聯性，因此將 min_confidence 設為0.8，並關注 consequent 為「AD」、「AE」的關聯法則（營收相關）。 1. 關聯法則顯示，當電影的上映日在平日、無系列續集、無明星領航時，預算低等等的情形下，獲得的總營收較少 * 假期期間為電影院的人流高峰，因此電影於假期間上映時，通常能獲得較高的營收 * 當電影無重製和續集、無重量級明星、導演時，電影預算較低，相反的，重製、聘請重量級人物時，預算會大幅提升。 2. 從規則也可看出，若寶萊塢電影出現的印度語場景較少，總營收也會降低，這代表電影含有的印度場景數量，對於人民的觀看意願有顯著的影響。小結 & 心得 --- 這份作業我花了非常多時間完成，由於目前為大一，對於資料結構還不太熟悉，因此在 FP-Tree 的部分做了很多前置功課，也從建樹和 mine tree 中，從 trial and error 中得到很多實作經驗和概念。在案例分析的部分我閱覽過很多資料集，也很高興能夠藉由關聯法則生成的規則，對數據集進行分析，學到很多東西。