# 資料探勘 Project 1 Support, Confidence 分析 --- * #### **High Support, low Confidence:** 較高的 support 會讓生成 frequent itemsets 的條件變嚴苛(需要於資料集出現較多次),較低的 confidence 代表在 antecedent 的出現次數中,consequent 不需出現太多次就能形成 association rule,條件較為寬鬆。 較高的 support 也能使演算法應用在大型的資料時,大幅減少運算量,留下較具有探索價值的 frequent itemsets(含有該itemset 的 Transactions 筆數較多,分析較有價值)。 * #### **High Support, High Confidence:** 較高的 support 使 item 需要於資料集中出現較多次才能形成 frequent itemset,而較高的 confidence 代表一項 frequent item 中 antecedent 發生時,consequent需要同時出現較多次,才能形成 association rule。 此時若能計算出較高的 lift 值,代表 antecedent 和 consequent 間較有關聯性(例如互為 complement)。 * #### **Low Support, Low Confidence:** 在 low support 的情形下,item 不需同時出現太多次就能形成frequent itemset,較低的 confidence 也代表 frequent itemset 中,antecedent 和 consequent 不需同時出現太多次就能形成 association rule。 這種資料探勘的價值較低,因為鬆散的條件使得資料間較容易形成關聯法則。 * #### **Low Support, High Confidence:** low support 使資料較容易形成 frequent itemset,而 high confidence 使 antecedent 和 consequent 需同時出現較多次才能形成 association rule。 這樣的條件能得到較多的 frequent itemsets ,並得到較多具有關聯性的組合。 Kaggle 資料集測試 --- * kaggle 資料集「Bolleywood Movies Datasets」: [https://www.kaggle.com/datasets/rishidamarla/bollywood-movies-dataset](https://) * 資料摘要:此資料包含 1638 部,從 2005~2017 年間,以印度語拍攝的寶萊塢電影,進而探討寶萊塢電影於印度國內的營收趨勢。 * **Attributes** : 1. **Movie Name(電影名稱)**: 電影名稱較無關聯,因此刪除這項feature 2. **Released Period(發布時期)** : 「Normal」 -> 「A」 「Holiday」 -> 「B」 3. **Whether Remake(是否重製)** : 「Yes」 -> 「C」 「No」 -> 「D」 4. **Whether Franchise(是否為一系列續集)** : 「Yes」 -> 「E」 「No」 -> 「F」 5. **Genre(種類)** : 「Drama」 -> 「G」 「Comedy」 -> 「H」 「Thriller」 -> 「I」 「Action」 -> 「J」 「Love Story」 -> 「K」 「Others」 -> 「L」 6. **New Actor(是否有新演員)** : 「Yes」 -> 「M」 「No」 -> 「N」 7. **New Director(是否為新導演所做)** : 「Yes」 -> 「O」 「No」 -> 「P」 8. **New Music Director(是否為新的音樂總監)** : 「Yes」 -> 「Q」 「No」 -> 「R」 9. **Lead Star(領航明星)** : 「Akshay Kumar」 -> 「S」 「Ajay Devgn」 -> 「T」 「others」 -> 「U」 10. **Director(導演為)** : 「Ram Gopal Verma」 -> 「V」 「Vikram Bhatt」 -> 「W」 「others」 -> 「X」 11. **Music Director(音樂總監為)** : 「Pritam」 -> 「Y」 「Himesh Reshammiya」 -> 「Z」 「Others」 -> 「AA」 12. **Number of Screens(包含多少印度語場景)** : ![](https://i.imgur.com/H7VL4MN.png) 長條圖顯示大部分資料集中在 0~460,因此將 460 視為分界 「< 460」 -> 「AB」 「> 460」 -> 「AC」 13. **Revenue(總營收)** : ![](https://i.imgur.com/q0ZphU9.png) 同理,將 210,292,500 視為分界線 「< 210,292,500」 -> 「AD」 「> 210,292,500」 -> 「AE」 14. **Budget(預算)** : ![](https://i.imgur.com/XcvCWJ1.png) 同理,將 801,618,525 視為分界線 「< 801,618,525」 -> 「AF」 「> 801,618,525」 -> 「AG」 * 分析結果 由於資料量龐大,生成的 frequent itemsets 數量極多,因此使用 min_support = 0.5。由於想要知道眾特徵對於營收高低的關聯性,因此將 min_confidence 設為0.8,並關注 consequent 為 「AD」、「AE」 的關聯法則(營收相關)。 1. 關聯法則顯示,當電影的上映日在平日、無系列續集、無明星領航時,預算低等等的情形下,獲得的總營收較少 * 假期期間為電影院的人流高峰,因此電影於假期間上映時,通常能獲得較高的營收 * 當電影無重製和續集、無重量級明星、導演時,電影預算較低,相反的,重製、聘請重量級人物時,預算會大幅提升。 2. 從規則也可看出,若寶萊塢電影出現的印度語場景較少,總營收也會降低,這代表電影含有的印度場景數量,對於人民的觀看意願有顯著的影響。 小結 & 心得 --- 這份作業我花了非常多時間完成,由於目前為大一,對於資料結構還不太熟悉,因此在 FP-Tree 的部分做了很多前置功課,也從建樹和 mine tree 中,從 trial and error 中得到很多實作經驗和概念。在案例分析的部分我閱覽過很多資料集,也很高興能夠藉由關聯法則生成的規則,對數據集進行分析,學到很多東西。