# Final Project Analysis ## Info - ![](https://i.imgur.com/LbE7cDr.png) - ![](https://i.imgur.com/L0gU7bP.png) ## Motivation 我們在從事 NLP 研究時發現了立場檢測(Stance Detection)這個有趣的應用。 而所謂了立場即是,說話者對事物、事件、個體或目標的看法與想法。 常見的立場會被概括成 3 個分類分別是 **支持(Favor)、反對(Against)或 無意見(None)**。 而立場檢測任務就是要檢測說話者的立場,其任務大都是給予一個說話者討論的**目標(target)** 與 說話者對目標的**陳述(statement)**,而該任務就是檢測說話者對目標的陳述後,判斷其對目標的**立場(stance)**。 > ![](https://i.imgur.com/B85Xgo0.png) > 上圖則為該任務的典型資料集 典型的立場檢測任務僅給予目標與陳述即要求判斷出立場,而近年的研究開始著手於先前這些特徵以外的網路上下文特徵(network context feature),他不僅收集了貼文的文字特徵還有利用發文者與留言者等眾多特徵。 因此我們使用著能讓我們收集更多特徵的立場檢測資料集。 ## Background Knowledge 我們使用 wtwt 立場分類資料集,來實作立場分類任務,該資料集中有數個子資料集,我們挑選一個較大的子資料集來使用。 資料集內已有標記好的立場標籤(stance label)與相對應的貼文id(tweet id),意指該貼文的立場為何。因此我們可以透過該id來收集我們所需的資訊來實作立場分析。 從 tweet id 中可以收集到 User, Text or Tweet features,因此選擇哪個特徵來實作為本次專題的重點。 ## Feature Analysis ### User features (用戶特徵) User features 是指收集用戶的資訊後而產生的特徵,因此可以蒐集到的用戶資訊皆可以轉化成特徵來表示某一個用戶。 以下列舉可能的用戶特徵, 1. 追隨數(Following) 2. 被追隨數(Followers) 3. 性別(Sex) 4. 年齡(Old) 5. 追隨者 ### Text features (文字特徵) 文字特徵即為推文內的文字 ### Tweet features (推文特徵) 推文特徵即為以下特徵 1. 分享數(Retweets): 僅分享該推文,無發表自己意見 2. 引用數(Quote Tweets): 引用原始推文並額外發表想法 3. 讚數(Likes): 對該推文的喜好 4. 回文數(Reply): 回覆該推文的數量 5. 發文者: 發表該貼文的用戶 6. 回文者: 回覆該推文的用戶 ## Methodology 我們舉例出幾個可能會使用的方法 ### 1. 收集用戶特徵來建構 GCN 並達到立場分析 收集用戶的特徵並建構出用戶間的互通關係(舉例有無在同一篇文章發表意見;為追隨關係),接著將這些資訊構成一張 Graph,以此生成某位用戶的特徵表示,該表示會受到相關聯的用戶影響。 取得某位用戶表示後,該表示會淺在地表達出該用戶的立場資訊(源於與其他用戶間的關聯,例如追隨者與被追隨者的立場可能相近)。 ### 2. 利用 GCN 強化 word embedding 並用於立場分析 此部分會思考 GCN 與 word embedding 的關係。 我們嘗試利用 GCN 來微調 word embedding,微調的方向是帶入更多有用於立場的資訊,並將微調後的 word embedding 用於文字的立場檢測任務。 而我們使用 GCN 的原因,乃是因為可以自定義詞與詞的關係(例如利用外部情感字典來建構字詞間的情感資訊),而該關係我們相信會是一個圖狀結構,因此適合使用 GCN。 ## Expectation 我們預期能實作出不輸於一些 Baseline 的方法。 ## 2022_4_5_討論 1. 以 Word 的方向建 Graph 2. 未來的project方向是加入 User features 3. 資料欄位使用 tweet text 即可 4. 這週三 8 點過後(或是週四 9 點後) 5. 期中 PTT: [LINK](https://docs.google.com/presentation/d/1qTcGiDyH28TN4RuiFGagpqH3sRq0j_KZytbpkXSjulc/edit?usp=sharing)