2017 資料科學年會

# 2017 資料科學年會 [講者上傳投影片](https://drive.google.com/drive/u/0/folders/19o7JDMZID8E4PgI_grlJtvf3ag4EdMbF) [年會共筆](https://hackmd.io/CwRgzAbAJgxmCGBaAnDAHAVkcMAjCiaATEbthMgKYAMG1RskQA==) ## Day1 ### ==Deeper Text Mining== 高宏宇成功大學資訊工程系 / 教授 * 中文領域不一定需要斷詞 * taiwan biobank - precision medicine * 醫療資料常遇到法規或是道德隱私問題限制 * 資料收集常常已經花了研究非常大的時間比重 * auto generation crf featue * caraceter base 的方法在 cnn 的方法表現甚至更好，但很難解釋 * 拿別人train好的model來用可以很快的 first try run * supervise data 的取得還是非常重要 ### ==Optimizing for User Experience with Data Science and Machine Learning== 紀懷新 * FB 和 Twitter 差別在 FB 是一個雙向（使用者之間需要同意交朋友），一個是單向（可以隨意追蹤） * 要在 G+ 推一鍵翻譯時，遇到困難是如何定義一個語言 * 使用者在不同時間地點會想要不同的推薦結果 * 推薦系統 RNN model with time * sequential past -> recommendation -> sequential future * train -> predict * 推薦的稀疏問題，可以改用 focus 的方法，縮小真正有用的 dataset * 對模型加上一些 regularizer 的方法，可以讓模型有這樣的能力（focus L2, unfocus L2） * 電影觀看分佈有 power law * 對不同市場分別設計 validation data * Reference Paper: * Latent Cross: Making Use of Context in Recurrent Recommender Systems (WSDM 2018) (還沒發佈) * [Beyond Globally Optimal: Focused Learning for Improved Recommendations](https://research.google.com/pubs/pub45939.html) ### ==Recent advances of deep learning in Google== 邱中鎮 Google Brain / Software Engineer * 先講了影像辨識，提供了讓機器自己學習架構的方法 https://arxiv.org/abs/1707.07012 * 再來講 sequential data，最後講到 [attention is all you need](https://arxiv.org/abs/1706.03762) 這篇 * tf 新出了一個叫 [eager](https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/eager) 的東西，測試的時候非常方便，不再需要 `session.run()` 了 * 一開始想要加深 DNN 層數，發現效果更差 * 做癌症的影像辨識應用，即使請專家來標記資料，彼此之間差異仍高達 4X% * 做 robotic ，讓 robotic 從人的示範行為來學習。 ### ==從資料競賽看應用實務 - KKV data game 17.06 1st place winner solution== * 題目：提供用戶看劇的瀏覽資料。參賽者將利用前四個月的資料，推測用戶在接下來一個月花最長時間觀看的是哪部劇。 * 資料探索hen重要 => 提交用戶上一部看的劇就可以進top 10了 * 很多時候是需要解釋模型的："hot dog or not hot dog" v.s. 預測熱狗銷量(後者需要解釋模型並改進讓銷量變好) * Model 演進：最後一部看了什麼 -> 加上轉移矩陣 -> 加上classifier * 講者的winner solution post: https://medium.com/@kstseng/kkbox-data-game-17-06-1st-place-solution-2baa14aee5f4 ### ==Real Time Human Body Segmentation on Mobile Device with Deep Learning== 張宴晟雪豹科技 / Senior Software Engineer * convolution network <-> deconvolution network * cnn太多層降維 feature map 維度太小 * tensorflow android library * 百度有提供套件，可以把現有train好的model，reduce到更小的size，去符合 mobile device 使用 * 目前在手機上可以跑的，效果好的會非常lag ### ==Representation Learning on Big and Small Data== 張智威 HTC Research & Healthcare / President * 不同的演算法，在不同的資料量，performance ranking也不同。整體來說，more data beter than excellent algorithm。 * why need bigdata -> complex problem need more parameter -> more parameter need more equation -> more equation need more data * DeepQ 疾管家 https://deepq.com/product * ask minimum question with maximum accuracy (chatbot 問診系統) * hierarchical reinforcement learning (把問題 divide and conqer 每個part的準確度大大提升) * 只要 7.24 次問診可以達到不錯效果 ### ==為 AI 打造系統、用 AI 設計系統== 洪士灝台灣大學資訊工程學系 / 教授 * 需要花時間瞭解工作特性，找到效能瓶頸，設計系統架構 * 運用平行處理，分散式計算，異質計算，優化資料流 * 多張 GPU 上，效能關鍵在於參數的存取，同步和更新。 * 系統、網路架構、演算法架構 * CPU 更新指令集，也可能在 deep learning 做到類似 GPU 的效果 * 加速矩陣運算的技巧 * 降低精準度 FP32 -> FP16 * 近似計算 log(1+x) = x for x in [0,1]、用log把加法變乘法 * 用稀疏特性降低運算量（去掉矩陣裡0的計算，在記憶體裡將資料排好） * 先以軟體和暴力運算實現，分析特性，再進行優化 ### ==AI Technologies for Embedded Devices== 林宗瑤聯發科技 / AGM * AI at edge 極大化效率，power 功耗，隱私保護 * 目前 CPU 加入 vector 運算單元，就功耗來說比 GPU 好 * DLA(deep learning accelerater) 功耗好上 10 幾倍，但是缺少彈性，只能適用特定 NN 架構 ### ==深度學習環境建置與模型訓練實務== 宋政隆 HTC Research & Healthcare / Sr. Manager * HTC的Team感覺蠻完整的，直接做一個platform，幫depeloper在跑model時做好資源分配甚至調參數 * 用 etcd 取代 zoo keeper 作為 service discovery * ai.deepq.com * research.htc.com * parallel learning platform 原本是內部使用，最近開始與學界合作 * parameter server 的網路頻寬會是 bottleneck，如果單一台 parameter server，情形較簡單，多台時較複雜 * check bottleneck: load, prepare, transfer(to gpu), computer, update weights * mini-batch size 越大 tf throughput 較好，mini-batch size 小的時候 mxnet 較佳 ### ==Deep Learning for Computational Photography== 莊永裕台灣大學資訊工程系 / 教授 * 計算攝影學 * 影像本身是計算的結果，不在是物理定律的結果 * 處理攝影師的不完美(ex. 晃動，模糊) * 場景的不完美 (ex. 下雨，霧) * 構圖的不完美 (ex. 人物增加，刪除) * 相機的問題 * sensor array 會受到雜訊影響 * 解析度的限制（不完整的取樣） * 色階 * Non-linear response(各家廠商憑經驗和感覺去調整符合人類視覺) ### ==Project Mynah 九官鳥計畫：AI 幫你接電話== 郭建甫 Gogolook / CEO * 各部門人員合作，閉關一個月，思考要解決的用戶痛點 * 幫忙皆無法接的來電 (用傳送簡訊取代語音留言) * 給出正確回應 * 甚至產生訂單 * 46 種 caller feature 濃縮成 20 種最有效的（取近期的3~10通電話行為） * use xgboost or spark ml gradient-boosted * 根據每一個人的接聽習慣客製化各自的 offline DB * 採用 ms bing stt (比較好聽 XD) * 科大訊飛 ### ==電腦有 freestyle 嗎？談音樂分析與創作的人工智慧== 蘇黎中央研究院資訊科學研究所 / 助研究員 * 聲音 -> 頻譜 -> 音符的辨識 * 音高偵測函數為一個二是以上的傅立葉變換 * 只有週期的訊號可以在不斷的傅立葉轉換後保留下來 * free style is a style. free style is not really free. -> auto-generation 其實也是一種模仿。 ## Day2 ### ==AlphaGo－深度學習與強化學習的勝利== 黃士傑Google DeepMind Research Scientist * 此 Project 的目地在於探索人工智慧的極限 * 加入 tpu 後，棋力大幅提升 * reinforcement learning 是非常強大的 * zero 是從完全不具任何為期知識開始學習，所以相同方法套用在其他類型遊戲也可以適用(但不會是立刻可用) * strong ai is very far away * About 10 years ago, some were claiming that we did not need smart algorithms and math anymore: “All you need is data”, they said. However, Alpha Go Zero proves (under some constraints) we don’t need data at all! _(quotes from Xavier Amatriain's Quora post)_ ### ==文字分析在財務上的應用－以股價預測為例== 楊立偉台灣大學工商管理學系 / 教授 opview 意藍 * 營業報告是非結構性的 + 網友 + 新聞 * opview 每天收 60 億中文字，且爬蟲提供api，資料庫30分鐘更新一次，有上萬隻爬蟲機器人 * 自動標記人事時地物 * 不用結巴，自己掌握斷詞 * 台灣積體電路、台積電、tsmc * 讓領域的特定字詞浮現是關鍵，採無詞庫方法 * 有一半金融業都是意藍客戶 * 社群反應速度是最快的 * 社群風險評估 * 產業風險排行榜金融風險、法務風險、資安風險... * 無詞庫，先用ngram 2-4，挑出活躍字詞。從新聞 -> 產業level -> 公司 level (tf-idf 卡方檢定卡方排序) * knn, svm, rf (500顆樹)，預測隔天最準 ### ==Smart Sensing and Continuous Monitoring== 李育杰交通大學應數系 / 教授 * The last mile of IOT: AI * 有和學生做一個研究室透過偵測開門的動作，辨識是誰開門 * 單一 sensor 辨識率約7、8成，結合更多sensor 可達到更高的辨識率 * 開發 sensor 用於馬達上，偵測馬達運作狀況 * 使用三軸加速器偵測 * 透過 PCA 降維 : 3->1 * define 不同區間訊號的高峰值和低峰值 ### ==交大 CGI&CGI== * Agenda : http://datasci.tw/icwu/ * GO 才是 AI 的果蠅 * monte carlo reinforcement learning 是目前的主流，也是 Alpha GO 主要使用的演算法 * 每下一步棋就使用最後輸贏作為修正的來源 * TD Learning:2048 * online game : http://2048game.com/ * CNN 在 2048 不 work ... * 與 Alpha Go 的設計原理是類似，訓練的目標是產出 (Policy,Value) ### ==GAN== ### * 李弘毅 : http://speech.ee.ntu.edu.tw/~tlkagk/ * 基本介紹 * Structure Learning / Prediction * Gan 的概念也被運用於 Reinforce Learning * Structure Learning 是一個很未知的新領域，Gan 這項技術只是剛剛引進門而已 * 什麼是 Gan * Generator 是學生，正在學習畫畫。Discrimator 是老師用來判斷是否為為好圖劃 * 其中一個用途是創造先前沒有人產生過的 * Condition Gan * 如果不使用 Gan 的話，會很容產生 average image * 課堂作業 : https://docs.google.com/presentation/d/1Ea4ywtR5jwiGs-LLkKaaKazxZA37l88vBpjRg7meTB8/edit#slide=id.g215e8b7a35_0_10 * Cycle Gan * 負面的句字可以變成正面的句字 * Abstractive Summarization * 傳統採用 Seq2Seq，但是需要大量的 Labeled Data * 所以採用 (Seq2Seq -> Seq2Seq) + (Seq2Seq + discrimator) * 如何判別哪此圖片或文章是由機器所產生的 * 目前沒有什麼作法可以判別是否由機器所產生 * 但是李教授提出一個想法是，以後 Gan 的作法在 Release Genator 時，也一定要 Release Discrimator ### ==AI and ME: 智慧人機互動== 許永真臺灣大學資訊工程學系 / 教授 * 假牙裡面裝 sensor 可以辨識使用者現在是在講話、喝水、還是吃東西 * 掃描照片，辨識並且用文字做indexing，更方便尋找照片 * 不只人機互動，機器也可以輔助人跟人的互動，簡短每天早上20分鐘的出門時間。家長對玩具輸入指令，由玩具與小朋友互動。 * ntu iagents lab ### ==人工智慧第三波革命== 林守德台灣大學資工系 / 教授 * 第一波 ai : 把專家的知識，變成一條一條的規則 * 第二波 ai : big-data + ml，在deep learning 達到高峰 * 第三波 ai : non-convex optimization，整合資料及知識，ai進入生活 * 技術瓶頸 * 依賴大量標籤資料 * 尚缺乏創造力 * 缺乏邏輯判斷力 * ai 安全性、隱私性、道德問題、社會責任 * 讓人類了解 AI 內部的判斷的邏輯是相當重要的，因為人們比較容易接受他可以理解的事務（如同公司內部的經營人員） * secured distributed recommender system：personal model + public model (網路只傳輸model 的 gradient，攔截並無法取得個資)，真正推薦是在 user 端執行 * prevent unethical decision * 過去的作法是人工定義一些 unethical 的 rule * ethics shaping: 假設大部分的人，在大部分狀況下，行為是符合道德的 * 使用 kl divergence，判斷agent的行為是否符合一般人的正常舉動(就不需要特別定義rule) > 李飛飛：我們處在的年代，不是ai的起點，也不是ai的終點，而是ai啟蒙階段的終點 ### ==使用少量標記資料訓練聊天機器人的語意模型== 朱柏憲優拓資訊 / Data Scientist Lead * 一個 chatbot 背後可能需要好幾種不同的 model，label data 也無法共用 * 以下談的都是 intent-classification，優拓的NER也是用類似transfer learning做的，但其他的NLG或State tracking等，講者坦承說實務上還沒想到很好的解法，所以目前還是用rule based * bow + lr : 訓練快、系統穩定。準確率低，字面代換不易辨識。 * word2vec + LR, random forest, multi-layer perceptron：同義字辨識清楚、複雜語句結構不易辨識 * bag of words無法分辨 "不要香菜要加蔥" or "要加香菜不要蔥" * 複雜的模型，需要更多資料，overfitting越嚴重，失去盡量用少量資料的初衷 * self-taught learning * 斷詞用character based * utterance-level embedding (seq2seq, rnn, attention, skip-thought 效果較差不易訓練) * seq2seq (bi-directional) 的結果再進去 DNN classifier 效果最好（用 top-1 acc） * [Semi-supervised sequence tagging with bidirectional language models](https://arxiv.org/abs/1705.00108) * [openai: Unsupervised Sentiment Neuron](https://blog.openai.com/unsupervised-sentiment-neuron/) * [Curiosity-driven Exploration by Self-supervised Prediction](https://arxiv.org/abs/1705.05363) * 善用潛在的監督式訊息：大量 unsupervised data + 小量 supervised data * 一個 class 大概 10~20 個資料，一個 task 大概 10~20 個 class * 更長篇的文章要 encode 可以用今年出來的 [doc2vec C](https://arxiv.org/pdf/1707.02377.pdf) ### ==Machine Learning and Signal Processing for Assistive Hearing and Speaking Devices== 曹昱資創中心 / 副研究員 * Chatbot (distance talking) * 指有距離的聲音 * 距離遠近聲音影響辨識 * 能不能用裝置協助殘障人士聲音辨識，發出聲音 * SmartHear : https://play.google.com/store/apps/details?id=com.smarthear.test2pair * 聲音除噪和放大 * 使用傅立葉轉換，設定 filter ### ==深度學習實作上的各種卡關== 蔡炎龍政治大學應用數學系 / 副教授 * 玩過深度學習的應該要可以秒答28x28等於多少ＸＤ * 深度學習就是學個函數 * 把想問的問題化為函數 * 建立第一個神經網路是最難的 * 資料輸入問題 * 不願意實作 * 無止盡評估 * 訓練資料學不成 * 增加學習次數 * 更換優化方式 * 用複雜一點的架構 * 增加學習資料 * 重新問你的問題 * learning rate 改小 * 測試資料學不成 * 使用 dropout * regularation (限制參數大小) * 簡化神經網路 ### ==大數據情緒分析的經驗分享== 陳宜欣清華大學資工系 / 副教授 * 用 twitter 的 hashtag 情緒字眼當作人工標記答案 * 中心字在情緒字跟社區字之間 * 分析哪些字常常跟中心字一起使用 -> 社區字 * 中文corpus取臉書粉專資料，跟情緒 react * 中文詞彙合併，短詞要剪掉長辭次數 * word2vec dependency2vec * 找到中心字跟社區字，套用到句型，帶入情緒的label。就可以預測出其他隱含情緒的句型組合。 ### ==認知神經科學 x人工智慧== 黃從仁臺灣大學心理學系 / 助理教授 * AI->認知科學 * 把心智歷程類比成電腦的計算歷程 * 機器學習 -> 認知神經科學 * 幫助了解哪個腦區儲存/處理哪些資訊 * CNN 在許多層面上仿製人類物體辨識系統 ### ==深度學習於遊戲影像上的應用== 魏澤人東華大學應用數學系 / 副教授 * cycle-gan [直播換臉](https://www.youtube.com/watch?v=Fea4kZq0oFQ)[github](https://github.com/tjwei/GANotebooks) * * ## Day3 ### ==Big Data Visualization== 馬匡六 University of California at Davis / Professor * 主要 demo 一些很炫的醫學跟物理學視覺化，也沒講用什麼技術做，沒啥好筆記的 XDD * deep learning 模型可視化：tensor board, [acivis](https://www.nextplatform.com/2017/04/12/look-facebooks-interactive-neural-network-visualization-system/), cnnvis * cpu 系統資源可視化，可以把 job 分類，優化系統執行及運用 * customer click stream 可視化，可以把顧客行為模式分類，找出流程問題 ### ==An Economist's Random Walk in the Data Forest== 林明仁台灣大學經濟系 / 教授兼系主任 * correlation is not causation * 搜尋 Nigger 頻率越高的地方，川普得票率越高 * 台灣報稅資料，前百分之一人收入佔所有收入的 12%，top 0.1% 則為 4% * 父親收入在台灣前百分之一的話，上台大的機率為6%。而其他人上台大的機率為 1% * 分析報社員工跟政黨人士的交友互動關係，可大致得知報導政治傾向 * 八卦報導是極少數可以讓不同政黨同溫層互動的話題 ### ==Agri-Weather: 阿龜的微氣候資料科學== 吳君孝阿龜微氣候天眼通 / 資料科學家 * 氣象局的 open data 問題很多，很難接。所以需要農業資料基礎建設 * 想要回答的問題「我的田有沒有下雨？」 * 氣象局觀測站少，缺少的地區透過網格推算出來。 * 對農民來說，可信度低 * 微氣候資料科學成功要素 * 農業環境數據 * 田間紀錄 * 專家知識 ### ==精準醫學時代: 探索健康檢查數據，啟動個人化健康促進== 陳璿宇中央研究院統計科學研究所 / 博士 * 新生兒出生缺陷須補出葉酸，但是以中國南北方不同族群實驗，發現在北方是顯著的，在南方卻影響不大 * 調查顯示，北方基因有葉酸代謝缺陷 * 南方人卻無此缺陷，因此不需要多作補充 * 基因解碼一個人為30億長度的sequence * ExAC 收錄6萬多筆沒有親屬關係的 sequence * LDCT 可以找出早期肺癌 * 肺癌小於兩公分時，影像誤判的機率非常高 * mri 可以看出骨髓密度及血流速度 * 生化檢驗、基因檢驗 -> health menagement * 先把人分類，再給予不同醫療、生活習慣建議 ### ==鄉民帶你去旅行：日本篇== 鄭中平成功大學心理系 / 副教授 * 心理學替代性滿足 -> 想去日本無法去 -> 逛日本旅遊版 * 材料：PTT 日本旅遊板 8萬篇左右 * 方法：文字探勘，類聚分析，關聯規則分析 * ex. 我之所以不去東京晴空塔，是因為大阪通天閣比較吸引我 (容易產生錯誤關聯) * 只做斷詞的話：文字雲太多沒有information的詞 * 人工對斷詞做分類 * 過多同義詞：ex. 紅葉楓葉賞楓楓紅 ... * 日本景點類聚分析、日本食物類據分析 * https://stackoverflow.com/questions/21410441/pretty-dendrograms-in-r * 關聯規則分析去哪裡的人也去了哪裡 * `特色並不是在描述行為上常見` 而是專屬性 * 分析京都特定形象 * https://mplab.twgogo.org/shiny/DSC2017/ * 關聯規則 (Association Rules) * 關聯規則的目的就是在一個數據集中找出項與項之間的關係，也被稱為購物藍分析 (Market Basket analysis) * Minimum Support 最少要發生幾次 * Confidence 一個規則預測強度 * Boolean association rule, multi dimensional association rules * Apriori Algorithm * https://ithelp.ithome.com.tw/articles/10187244 * ### ==記憶體內巨量資料探勘：從有效率的摘要擷取到記憶體友善的演算法設計== 葉彌妍中央研究院資訊科學研究所 / 副研究員 * 資料探勘：利用人工智慧、機器學習、統計學等技術，從資料庫中找出隱藏的關連性及特徵。 * 在 big data 名詞出現之前：資料串流（Data Stream） * 資料像水一樣不斷流出 * 資料大量累積 * 擷取具代表性的摘要 * 資料來源分散各處 * 設計節省傳輸量的方式 * 快速且即時的演算法 * 社群網路資料摘要 * 統計參數摘要 * closeness centrality * 意義摘要 * Ego-centric abstraction * 結構摘要 * Find the basic generation units ### ==經典科學 vs 資料科學== * 如果評估偽陽性是非常重要的 ### ==心理學與文字探勘(內隱探測)== ### * 例如: 女生適合唸數學系嗎 * 通常自我報告會有社會期許的問題 * 更進一步的作法，詞與內部的心理連結。e.q 同性戀在你自已的憯意識是好的事還是壞的事？？？ * 哈佛有作類似的研究 * 有一個網站在收集使用者對議題與詞之間連結的關係 * * 可以透過點選的速度可以知道 * 語意到語感 * 內容詞比較不可靠 * 改用功能詞來測試 or 代名詞 * 使用代名詞使用的頻率(e.q 憂鬱中的人　I 的代名詞使用次數會比較高) * 991 事件攻擊，造成 We 的使用頻次變高 * PTT 的憂鬱版，自我代名稱使用度很高 * LSM (Language Style Matching) * 不是單純看說話的內容，而是看說話的內容 * 看風格詞是比較準 * LSM 快速聯誼的關係，高適配約會的成功率會比較高 * 功能詞也是手動整理 * 結論 : 代名詞(功能詞)是比較下意識所產生的 ### ==A SOP for Accurate and Efficient Analysis of Large-Scale Network Data== 潘建興中央研究院統計科學研究所 / 副研究員 * systematic method for understanding community structure * graph partition * community detection via scan statistic * center verification via focus centrality * shape fine tune via metaheuristics * graph partition * four color theorem * graph coloring 可以考慮到 distance 3 * 去對圖形的 complement 著色，distance越高圖形越清晰 -> 就可以把分群做出來，還可以做出分群連線的強弱 * 透過此方法可以把臉書的分群大致正確畫出來 (ego-network) [ref, the facebook network complied 2012] * community detection * use adjacent matrix based method * high-modularity subgraph does not imply ture community * 缺乏統計顯著性 * scan statistic * scanning window * A scanning method for detecting clustering pattern of both attribute and structure in social networks * 包成公開 r package `Package ‘SNscan’` * focus degree centrality * 隨便把一點設為中心，檢測degree的p-value ### ==Data and AI @ E.SUN bank== 林鉦育玉山銀行 CRV / 襄理 * 應用面相：風險模型/交易異常偵測/產品/顧客服務 * 在資料 ETL 的過程中加上資料更新時間與正確性的驗證 * 資產盤點，供使用者查詢 * 資料定義、欄位邏輯 * 衝擊分析，收集 input data, output data可立刻找出受影響的資料 * 信用卡消費行為預測（時間、地理、商品）、信用徵信 * ### ==Learning and Using Statistics Liberally－Exploratory and Elaborate Ways== 張源俊中研院統計所 / 研究員 * what is statistics * economic statistics in 1830 * biological statistics in 19xx * big data present * music is about rule, literature is about life ### ==課堂資料學：到底有沒有在上課== 曾俊雄元智大學通訊工程系 / 助理教授 * qq 踩到雷 ## Day4 ### ==貓都學得會的手機送修資料分析== 孔令傑台灣大學資訊管理學系 / 助理教授 * 最大宗 sony xperia z 防水膠圈 * 傳統方法：use moving average * 問題 * 客戶：可以幫我們改進準確度嗎 * 教授：請問有多不準嗎 * 客戶：我也不知道... * 衡量方式 * 單一料件 mae * 料件相比 mape * 預測趨勢結果最佳：es exponential smothing * [指數平滑法](http://wiki.mbalib.com/zh-tw/%E6%8C%87%E6%95%B0%E5%B9%B3%E6%BB%91%E6%B3%95) * 總共嘗試的方法 * 單純預設料件 * 先預測銷售，在看料件比例 * 從銷售+送修資料，一起做預測 * 資料量越大的item，適合用較複雜的方法。數量少的用簡單方法即可。 ### ==我在 Kaggle 數海獅== 周培廉 kaggle 業餘玩家 * 廢話hen多 * object detect 反而有局限性，從其他角度出發 * 詳盡的研究training set 與 test set 的差異，調整預測的結果比例 ### ==社群大數據中的江湖事== 胡筱薇東吳大學巨量資料管理學院 / Assistant Professor * fb magic number is 7 (7個朋友讓你留下來) > Data 就是拿鞭子打他，而他總是能吐出些什麼 * 最理想的工具是給第一線人員使用，而不是給 it rd * 媒體抄文是現象，但是立場會改變 * 各行各業看目的，對粉絲的定義也會不一樣 (商品品牌的粉絲不會每天互動, 但偶像的粉絲可能會) * 社群資料跟傳統資料的屬性不一樣 * 2-mode matrix -> 1-mode matrix * 用 page-rank 可以找到誰在帶風向 * 候選人反而不在意風向，在意對手有沒有新的可以攻擊的點 * aoi : area of interest ### ==手機資料如何輔助臨床診斷與治療？== 林煜軒國家衛生研究院/台大醫院 / 主治醫師 * 精神醫學整段位階 * 診斷性會談 -> 自填量表 -> 量化指標 * 網路成癮、手機成癮是研究人機互動領域的 `果蠅` ### ==Computational Design Thinking - 數據取向的產品設計思維與案例== 溫明輝臺北商業大學商業設計管理系 / 助理教授 * design thinking * 同理心 * 定義問題 * ideate * prototype * test * 智慧增強 intellignce Augmentation * 提高人類的潛能——通過與機器合作提高人生產力 * line 推播造成用戶增加，但封鎖率也增加 * 用軟體跑素材視覺熱點，看效果是否符合設計時預期 * http://pansci.asia/archives/111786 ### ==資料視覺化與使用者經驗設計== 彭其捷卡米爾股份有限公司 / 數據專案經理 * 資料導向 + 設計導向 * google sprint + 資料視覺化 * understand -> diverge -> decide -> prototype -> validate * 士兵心態：透過攻擊或防禦觀點，鞏固自己價值 * pair design