# Listening-to-Chaotic-Whishpers--Code ###### tags: `LCW` `code` `note` `畢專` `ML` [LCW不專業整理](https://hackmd.io/W6V7BP2BRKWHVVhGSI_IXg) [LCW PPT](https://docs.google.com/presentation/d/1HQHjc-gaF0TVvuk5zoGtwQnjDK65IRGNXBEv4jhBLtk/edit?usp=sharing) ![](https://i.imgur.com/FWEM1pD.png) ### fim_csv_folder_old: 裡面裝的是 哪些天各公司在哪些文章被提到(csv,pkl) ![](https://i.imgur.com/6fNipFR.png) - 3M 在第615天被 0615_822 文章提到 - 3M 在第406天被 0406_333 文章提到 - 3M 在第492天被 0492_489,0492_816 文章提到 ### pickle 裝各股的漲跌(每一天的值為0,-1,1,天編號為0000~1095) ### pickle_article 裡面裝的是 哪些天各公司在哪些文章被提到(pkl) ### sample_of_scrap 爬下來的txt(尚未被編號) ### stock_values 每家公司每天股價 ##### pickle_stock_value - 序列化過的 ##### stock_move(csv,pkl) - 各公司股價漲跌狀態 - **SP500_nasdaq100.csv** : csv 包含所有 S&P 500 和 Nasdaq 的公司 ``` // Attribute id (empty) 公司縮寫(Symbol) 公司名子(Name1) 公司部門(Sector) ``` - **extract_reuters.py** : 從路透社(reuters.com)平行抓取資料 - **extract_wsj.py** : 從華爾街抓資料 - **data_process.py** : 對收集到的資料進行處理 - **doc2vec.py** : 將文章向量化 - **list_firm.csv** : 所有公司對應的 csv ( 對應的 csv 在 firm_csv_folder_old 資料夾 ) - **create_dataset.py** : A script to create our 4 dimensions dataset for each company - **picklizer** : A script to make pickle file of all press articles for each firm $\tilde{h}$ ### 報告總結Attention 很重要! * Attention 很重要! * 用beta賺?(大盤趨勢圖) * 兩類三類: 我們(HAN)的accuracy:0.52,他們是0.47(HAN), 0.48(HAN-SPL),可能是他們還有考慮到preserve,所以accuracy比較低 * 資料來源? * 不一定挑accuracy高,挑未來成長期望最高(高成長率) *