# Sentiment Analysis - Chinese ## Traditional Ways ```mermaid graph LR A[輸入句子] -->|preprocessing| B{切詞} B --> |載入詞典|C{訓練sentiment詞典} G[否定詞&程度副詞] --> |加入| C C -->|分類| D[情感分類] ``` ## Motivation 網路上的社群文章情感分析可以幫助我們: 1. 網民輿情分析 2. 判斷消費意圖與趨勢 3. 財務金融預測(股票,期貨[2010]) 4. 使用者回饋 往往具有不同別名: - Sentiment analysis - Opinion extraction - Opinion mining - Sentiment mining - Subjectivity analysis 根據不同的granuality 可以分成: - 詞語級 - 短語級 - 句子級 - 篇章級 ## 情感分析 1. 詞典匹配 : 直接計算文中的情感詞,得出情感分數。 2. 機器學習 : 由標記資料中學習出情感分類器。 本project由於我們沒有標記資料故用詞典分配和預先訓練好的情感模型做分類。 ### 詞典匹配法: 這裡我們使用哈大辭典,一個已經標注過情感的簡體中文辭典。該辭典取重要部份示意如下 | 詞語|情感分類|強度| 極性| | -----|---| ----| ----| | 脏乱 | NN | 7.0 | 2.0| | 糟报 | NN | 5.0 | 2.0| | 早衰 | NE | 5.0 | 2.0| 其中極性為: 1. 2 - 負面 2. 1 - 正面 3. 0 - 中立 4. 3 - 正面負面都有 根據[Twitter sentiment analysis](http://www.cs.cmu.edu/~nasmith/papers/oconnor+balasubramanyan+routledge+smith.icwsm10.pdf)作法,透過情感辭典中的極性數量來決定此文的情感程度。哈大的辭典多了強度故可以當作總和的權重。針對正面負面都有的詞,由於計算關係一正一負抵銷結果上會視作中立。針對強度權重後的句子可以依序排列出最負面與最正面的文章。 ### Preprocessing 1. 去除標點符號 2. 去除emoji 3. 去除stopping words 4. 去除重複文章 --- ### Microblog Data Analysis - 。Pak 與 Paroubek(2010)建立了一個能夠自動從 Twitter 微網誌上收集及分類包含正向字、負向字與只有中立事實的情感語料庫,進而他們也利用了這個語料庫及貝氏分類法建立了一個能分辨正、負意見傾向的分類器。 - Weng 等(2011)則提出了一個能摘要微網誌文章的系統 - Kontopoulos 等(2013)利用知識本體技術與OpenDover 情感服務將微網誌上關於特別商品的內容進行情感分類 #### Rule-based VS Learning-based - 相對地,學習式的分析法則不需要預先定義的字典;它乃經由每次輸入已經被標記好結果的訓練資料去自我調整內部的學習參數,經過多次、全面的學習及正確率評估之後,便得到一個有預測能力的模型(Pang et al. 2002; Li & Wu2010)。學習式演算法雖然通常需要較大量的時間和被打好分類的訓練資料來進行訓練,但因為其不需要專家先定義好的字典就可以進行分析 - 規則式的分析法通常需要一個專家定義好的情感字典,經由分析句子或文章與這些情感字的關係,預測出作者的意見傾向(Wiebe & Riloff 2005);也就是說它須掃描句子來確定是否符合特定情感特徵以找出意見傾向。 #### Learning-based data annotation  - 利用此網站,配合從作者的社群網站進行傳播,收集了二個星期的資料後。系統共收集了 7431 筆的意向資料,其中社群網站傳播上共有 1120 位被系統視為的不同受測者,共完成了 3021 筆完整的意向資料;大學生受測者共有具名者 128 人,共完成了 4410 筆完整的意向資料。 - ConceptNet: ConceptNet 是一個以英語為主的日常生 活常識知識本體;它是一個具有推論能力的一般常識知識庫,可支援現實世界的 實際文字處理與推論工作、情感分析、類比決策(Analogy-Making)、文本摘要、 情境內容擴張、因果投影、冷文件分類和其它語意導向的推論(Liu & Singh 2004)。 - 如果這個字詞和情緒字詞的關係越接近,推論的路徑就會越短。把所有的情緖字都計算一次後,就可以得到 Discount 這個單詞與各情緒間各有多少推論路徑,及每一條路徑的長度。本研究採用如下平均推論距離的方式去計算每一句話的情緒強度 -
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up