# 文字與自然語言分析(下) Our Recent Text Mining and NLP Research ###### tags: `20200822` 王釧茹 中央研究院資訊科技創新研究中心 / 助理研究員 https://cfda.csie.org/ ## Textual Data Analytics in Finace ### 背景 Quant 衍生性金融商品的分析師 2013年起,Data scientist的需求打趴了Quant 在財務與會計的領域,2012年以前是很少在財務領域做文字的研究的 ### Text Analytics 就是利用NLP把文章中的非結構化資料轉為結構化資料,然後用AI分析 ### Textual Sentiment Analysis for Financial Risk Prediction 在財務中會有Soft information & Hard information Soft info:文字訊息,例如財報中的文字、財經新聞、網路評論、影音訊息 用regresion與ranking來做 #### Risk proxy: Stock Return Volatility Stock Return 股票的報酬 Stock Return Valatility 一段時間內一家公司股票報酬的波動度 Stock Return Valatility是一個很好的、label data,因為只要市場過了,就會有答案 #### Financial Sentiment Analysis 在財經文章中,對文字做情緒分析,知道文章中的文字對財務的預測 >Financial Sentiment Lexicon 財務情緒字典 不能用一般的情緒字典來做財務分析 因為財務用字與一般的用字不同 >國外投資商,也使用Financial Sentiment >Lexicon >point72 fund (做trading、純投資) >Cube systematic (分析structured data) >RavenPack (分析unstructured data) #### problem formulation predict target: 未來股票的報酬波動率(regression) 未來股票的相對風險(ranking) #### 好快... #### 結論 Ranking比較好 有一些情緒字比較重要,只要用比較少的字就可以得到好的結果 ### Financial Keyword Expansion via Continuous Word Vector Representations 語言的resource > 字典 > 工具 > labeled data 字典大多是semi-manually來做,有辦法自動化的擴展財務的關鍵字嗎? 詞性的分類,可以有利於預測 ### Can we understand language? 因為前面做的都是單一個字的分析,這些字很難針對一段文章的意思去了解他的語意 最近是在做"句字"的分析 ## ICE: Item Concept Embedding via Textual Information 就是給一個關鍵字,然後可以找到一些與這個關鍵字相關的其他字 (diverse and relevant) 有一個很重要的觀念:你要知道要把那些東西找在一起 ### 圖像的相關性分析 DeepWalk 點與點的網路關係、每一個點會是一個64維或200維的danse vactor,然後去算點的空間距離。兩點之間的連線,可以給權重 LINE 應該用一階或二階的關係來做分類 PTE 文字與文字/文字與文件/文字與標記等的關係 ### Item Concept Embedding (ICE) 歌跟字的鄰居都是字 ConceptNet 是一個在學習語意很重要的資源 ### UGSD: User Generated Sentiment Dictionaries from Online Customer Reviews --- (回家作業好難) (無法在下課前完成了)
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up