# 訊息常見詞文字雲 以 2019 Nov 訊息為資料進行處理重要字詞判別。 * color_list * 'black':正常 * 'green':涉政 * 'red':辱罵 * 'yellow':違禁 * 'blue':色情 * 'orange':廣告 * 'purple':人工禁詞 可以有兩種模式: 1. token_mode(使用字詞的語言) * 所有字元都保留 * 只保留中文字元 2. mode(計算重要次詞依據) * 以每則訊息TF-IDF最高的前五個字詞 * 僅計算出訊息中出現次數最多的字詞 輸出結果 1. 只保留中文字元 & 僅計算出訊息中出現次數最多的字詞 ![](https://i.imgur.com/MWtbetn.png) 1. 只保留中文字元 & 以每則訊息TF-IDF最高的前五個字詞 ![](https://i.imgur.com/mzZIVQX.png) 1. 所有字元都保留 & 僅計算出訊息中出現次數最多的字詞 ![](https://i.imgur.com/CYpMfzT.png) 1. 所有字元都保留 & 以每則訊息TF-IDF最高的前五個字詞 ![](https://i.imgur.com/VMyHIpf.png)