# 好讀版 ## 自殺防治 很感謝本篇計畫書花費一半以上的篇幅幫大家詳細科普了防治自殺的重要性以及防治自殺的困難。 根據本計畫的陳述方式,我預期其目的是製作機器學習模型,供廣大群眾使用,以協助解決自殺防治最大的難題之一,也就是遠低於預估盛行率的就醫率。這也是這類AI模型在各種應用中最大的助益:由AI代替人力,在茫茫大海中撈針;因為事實上任何形式的人力都不可能一個個把民眾抓來評估自殺風險。 依照計畫中陳述的執行方式,會在正式收案後,藉由此系統協助監測這些病患。也就是說能夠比起現在多幫助到多少人,取決於收案的量體(假設模型運作良好),在這種情況下,我會覺得可以把目標設定的更宏大一點。 雖然,本計畫的對象是被選中的人們,可以集中資源對其進行觀察,因此研究使用到EKG Holter讓個案配戴。仍然比較有疑義的是EKG Holter的數量是否充足,以及是否有必要用這種程度的生活介入方式來輔助研究: ![](https://www.maximintegrated.com/content/dam/images/design/tech-docs/6951/6951fig01.png =300x) 我相信這會是執行面上的一大難題。 研究中數度提到使用手機App協助收集個案資訊以及作為與個案聯繫的管道。在此情況下,App本身的UI/UX 與效能表現(如:會不會常常卡頓沒反應)實為計畫的成敗所在,正如中途島海戰中的日軍密碼一樣。不過研究中並沒有提到如何去設計UI/UX,增加個案使用的意願(有,我知道它叫做"緊急救生包")。 研究將會使用maching learning的random forest,以及deep learning的LSTM。計畫有解釋為何使用random forest,卻沒有解釋為何選擇LSTM, BERT。BERT這個選擇無庸置疑,但把LSTM這個等級不太一樣的東西並列就有點特別。 另外BERT有遷移學習的功能,所以文中擔心個案使用字彙與一般人不一樣的部分,稍顯杞人憂天。 ... ## 情感廣播電台 這個計畫名稱是"情感廣播電台",其目的是藉由家用機器人這樣的載體分析話語,計算出使用者的情緒狀況,再透過機器人做出適當的回應。 計畫最主要的工作,以現有的語言-情緒辭典分析語句,並利用k-means法得到語句的情緒,再讓機器人做出適當的回應。 關於第一個部分,也就是獲取資料,計畫中提到的BeautifulSoup, requests等module,之前我也在一些小作品使用過,對於提取社群網站或評論類的網站資訊來說相當合適。 第二個部分是把這些資料餵到k-means裡面,產生對情緒的理解。k-means我不算熟但大概知道原理。據計畫書內容,提供給k-means的資料只有2個維度,k-means在有適度多元的維度上表現可能會更好,所以我認為這個方法可以,但或許應該增加更多的資料維度,或者直接用deep learning的sequence model搭配word2vec甚至更新的word embedding model,或許會有品質更好的分析結果。 另外本計畫是使用社群網站上爬到的語句作為分析用資料。不過當然實際使用的對象應該是一般生活環境,接收到的訊息是口語而不是貼文,而這兩種資訊的語氣、長短甚至使用習慣都一定會有差異(我們打的字通常跟講的話,結構和用詞上都會不太一樣),所以計劃書裡面的應該也不是實際使用場域,我想應該只是一個demo而已。 關於data distribution,我稍微查了一下資料,jieba是中國開發的工具,其資料應該是基於中國的中文使用方式,對於繁體中文世界來說,會有文化差異問題,可能造成誤差;而且jieba的資料庫應該是根據文本資料建置,在口語資料上會不會有偏差也是要考慮的問題。 不過jieba確實相當好入手,功能齊全,使用上的便利性無庸置疑。而根據jieba的readme,除了這類工具常應用的markov model,它使用了動態規劃、DAG等經典的演算法技術,也再次提醒我們演算法基本功的應用非常廣泛、非常重要。 最後我認為目前凱比機器人(去年該公司有推出新版的第二代,不過計畫中提到的應該是第一代)可能仍受限於硬體性能,對於真的有"人的感覺",還嫌不足,不過這樣的載體搭配軟體的力量,確實對人來說,會比單純文字對談帶來更多一點溫度。