# 論文筆記---SenticNet 5: Discovering Conceptual Primitives for Sentiment Analysis by Means of Context Embeddings ### 1. 用於找出概念原始詞語的架構中運用到什麼技術?  文本初期處理先將句子分成左右兩段,並使用現成的word embedding方法--word2vec將數以百萬計的文字以低維度完成詞向量的轉換。 #### word embedding 以向量方式將文字分類供電腦運算,以one-hot encoding介紹,"I like musics."和"I like sports."共有四個單字,形成了[I,like,musics,sports]四種向量,每個單字的向量如下: ||I|like|musics|sports| |-|-|-|-|-| |I|1|0|0|0| |like|0|1|0|0| |musics|0|0|1|0| |sports|0|0|0|1| 雖然簡單暴力,但也代表隨著單字種類增加,維度數量也會持續上升,顯然不是個好方法,因此出現了能夠將高維度的詞向量降低的word2vec,經過word2vec運算後的輸入資料就會得到有關聯的動詞-名詞或形容詞-名詞等單字組。 #### RNN(遞歸神經網路)及LSTM(長短期記憶模型)  RNN藉由保留以前的紀錄來推理以後的發展,但長期記憶能力不足且模式太過固定。網站有舉實際例子:平時吃的和年假時吃的會不一樣,但是RNN沒有記到這麼長遠的資料。[資料來源](https://medium.com/@tengyuanchang/%E6%B7%BA%E8%AB%87%E9%81%9E%E6%AD%B8%E7%A5%9E%E7%B6%93%E7%B6%B2%E8%B7%AF-rnn-%E8%88%87%E9%95%B7%E7%9F%AD%E6%9C%9F%E8%A8%98%E6%86%B6%E6%A8%A1%E5%9E%8B-lstm-300cbe5efcc3) 為克服這個問題而出現了LSTM。RNN與LSTM內部結構比較:  RNN架構中只有tanh神經層,而LSTM由四層函數組成,架構中紅色的運算元素用來傳遞記憶,第一組黃色的用來決定記憶的去留,比如說打賭輸了晚餐加菜是屬於突發案例,不需要向下傳遞。第二組黃色除了記憶去留,還有一步驟是更新主要單元,第三組會經過包含tanh在內的運算,輸出預測結果和帶到下一個節點的資料。 ||| |-|-| ||| RNN和LSTM可以依照i組輸入j組輸出的限制運用在非常多種方向,其中情感理解就可以靠著多組輸入和一組輸出完成。 | | 單輸出 | 多輸出| | - | - | - | |**單輸入**|分類問題|圖片標字| |**多輸入**|情感理解|自動翻譯| #### Encoder-Decoder 各種神經網路都會用到這樣的概念,但主要都以NLP的角度來看待。Encoder-Decoder是能將文字轉換成向量、也能將向量轉換成文字的網路,以翻譯來說,會把輸入的句子轉換為向量,而每種語言都會有同樣向量的文字,他們會被decoder輸出。 #### Attention on biLSTM 處理完詞向量後,將這些資料用biLSTM和Attention Model進行運算,biLSTM是雙向的LSTM,對於處理上下文關係較LSTM更為有效,論文中提到Attention Model(注意力模型)是由記憶加強神經網路和softmax組成的,它的功用簡單來說就是對文字加上權重,讓電腦更能抓到重點。 #### Negative Sampling(負採樣) 訓練一個神經網路必須輸入訓練的樣本,然後不斷地更新神經元的權重,進而提高對目標的預測,每經過一個訓練樣本的訓練,各個神經元的權重就要進行一次調整。神經元的數量通常都不小,也就代表將耗費龐大的運算資源和時間。 Negative sampling 便是為了解決這個問題,對於每個訓練樣本,只更新一部分的權重,而非整個神經網路的權重都被更新。 #### Similarity Index(相似指數) 對已經整理好的單字組,想要找出與他們相同源頭的字詞,好在之後換為原始詞語,作者尋找擁有相似上下文的單字組互相替換後計算餘弦距離,越相近的單字在字義上也越接近。 ### 2. 將概念與實體連接 第一節的架構讓我們能讓語義相近的詞語自動分類在同一群體,只不過每一群體的統稱需要經過手動設定或是選擇最典型常見的單字。 #### 三層架構:原始層、概念層、實體層  原始層用來存放帶有極性狀態和動作;概念層將常識概念以語義關係連接,也將原始層相關的詞語連接;實體層則將命名實體與常識概念以"Is-a"關係連接。 這樣的結構因為僅依靠間單關係建立起來,他們不再需要用到龐大的語意網路來推測極性,單靠著原始層能完成這件事。如果我們將INTACT定義為正面,與之相聯的所有單元都會被跟著定義出極性,BREAK因為改變了INTACT的狀態而成為負面,FIX則會被設為正面,而它的相反詞!INTACT相關的詞語也會做出類似變化。 原始詞語除了能將概念一般化,還能用代數相乘來動態推斷單字組的極性。EX: 單字組INCREASE-LOSS是由正面乘上負面,所以是負面的單字組。 #### AffectiveSpace 要讓電腦自動標註概念原始詞語的正負極,並檢查分類的一致性,論文使用了2015年發表的AffectiveSpace,藉由隨機投影(降維)建立的情感知識向量空間。對於向量組的距離和角度能夠更輕鬆計算出來,同樣越相近的概念在向量空間就越是接近。 ###### tags:`論文`
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up