# 2017 資料科學年會
[講者上傳投影片](https://drive.google.com/drive/u/0/folders/19o7JDMZID8E4PgI_grlJtvf3ag4EdMbF)
[年會共筆](https://hackmd.io/CwRgzAbAJgxmCGBaAnDAHAVkcMAjCiaATEbthMgKYAMG1RskQA==)
## Day1
### ==Deeper Text Mining==
高宏宇 成功大學資訊工程系 / 教授
* 中文領域不一定需要斷詞
* taiwan biobank - precision medicine
* 醫療資料常遇到法規或是道德隱私問題限制
* 資料收集常常已經花了研究非常大的時間比重
* auto generation crf featue
* caraceter base 的方法在 cnn 的方法表現甚至更好,但很難解釋
* 拿別人train好的model來用可以很快的 first try run
* supervise data 的取得還是非常重要
### ==Optimizing for User Experience with Data Science and Machine Learning==
紀懷新
* FB 和 Twitter 差別在 FB 是一個雙向(使用者之間需要同意交朋友),一個是單向(可以隨意追蹤)
* 要在 G+ 推一鍵翻譯時,遇到困難是如何定義一個語言
* 使用者在不同時間地點會想要不同的推薦結果
* 推薦系統 RNN model with time
* sequential past -> recommendation -> sequential future
* train -> predict
* 推薦的稀疏問題,可以改用 focus 的方法,縮小真正有用的 dataset
* 對模型加上一些 regularizer 的方法,可以讓模型有這樣的能力(focus L2, unfocus L2)
* 電影觀看分佈有 power law
* 對不同市場分別設計 validation data
* Reference Paper:
* Latent Cross: Making Use of Context in Recurrent Recommender Systems (WSDM 2018) (還沒發佈)
* [Beyond Globally Optimal: Focused Learning for Improved Recommendations](https://research.google.com/pubs/pub45939.html)
### ==Recent advances of deep learning in Google==
邱中鎮 Google Brain / Software Engineer
* 先講了影像辨識,提供了讓機器自己學習架構的方法 https://arxiv.org/abs/1707.07012
* 再來講 sequential data,最後講到 [attention is all you need](https://arxiv.org/abs/1706.03762) 這篇
* tf 新出了一個叫 [eager](https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/eager) 的東西,測試的時候非常方便,不再需要 `session.run()` 了
* 一開始想要加深 DNN 層數,發現效果更差
* 做癌症的影像辨識應用,即使請專家來標記資料,彼此之間差異仍高達 4X%
* 做 robotic ,讓 robotic 從人的示範行為來學習。
### ==從資料競賽看應用實務 - KKV data game 17.06 1st place winner solution==
* 題目:提供用戶看劇的瀏覽資料。參賽者將利用前四個月的資料,推測用戶在接下來一個月花最長時間觀看的是哪部劇。
* 資料探索hen重要 => 提交用戶上一部看的劇就可以進top 10了
* 很多時候是需要解釋模型的:"hot dog or not hot dog" v.s. 預測熱狗銷量(後者需要解釋模型並改進讓銷量變好)
* Model 演進:最後一部看了什麼 -> 加上轉移矩陣 -> 加上classifier
* 講者的winner solution post: https://medium.com/@kstseng/kkbox-data-game-17-06-1st-place-solution-2baa14aee5f4
### ==Real Time Human Body Segmentation on Mobile Device with Deep Learning==
張宴晟 雪豹科技 / Senior Software Engineer
* convolution network <-> deconvolution network
* cnn太多層降維 feature map 維度太小
* tensorflow android library
* 百度有提供套件,可以把現有train好的model,reduce到更小的size,去符合 mobile device 使用
* 目前在手機上可以跑的,效果好的會非常lag
### ==Representation Learning on Big and Small Data==
張智威 HTC Research & Healthcare / President
* 不同的演算法,在不同的資料量,performance ranking也不同。整體來說,more data beter than excellent algorithm。
* why need bigdata -> complex problem need more parameter -> more parameter need more equation -> more equation need more data
* DeepQ 疾管家 https://deepq.com/product
* ask minimum question with maximum accuracy (chatbot 問診系統)
* hierarchical reinforcement learning (把問題 divide and conqer 每個part的準確度大大提升)
* 只要 7.24 次問診可以達到不錯效果
### ==為 AI 打造系統、用 AI 設計系統==
洪士灝 台灣大學資訊工程學系 / 教授
* 需要花時間瞭解工作特性,找到效能瓶頸,設計系統架構
* 運用平行處理,分散式計算,異質計算,優化資料流
* 多張 GPU 上,效能關鍵在於參數的存取,同步和更新。
* 系統、網路架構、演算法架構
* CPU 更新指令集,也可能在 deep learning 做到類似 GPU 的效果
* 加速矩陣運算的技巧
* 降低精準度 FP32 -> FP16
* 近似計算 log(1+x) = x for x in [0,1]、用log把加法變乘法
* 用稀疏特性降低運算量(去掉矩陣裡0的計算,在記憶體裡將資料排好)
* 先以軟體和暴力運算實現,分析特性,再進行優化
### ==AI Technologies for Embedded Devices==
林宗瑤 聯發科技 / AGM
* AI at edge 極大化效率,power 功耗,隱私保護
* 目前 CPU 加入 vector 運算單元,就功耗來說比 GPU 好
* DLA(deep learning accelerater) 功耗好上 10 幾倍,但是缺少彈性,只能適用特定 NN 架構
### ==深度學習環境建置與模型訓練實務==
宋政隆 HTC Research & Healthcare / Sr. Manager
* HTC的Team感覺蠻完整的,直接做一個platform,幫depeloper在跑model時做好資源分配甚至調參數
* 用 etcd 取代 zoo keeper 作為 service discovery
* ai.deepq.com
* research.htc.com
* parallel learning platform 原本是內部使用,最近開始與學界合作
* parameter server 的網路頻寬會是 bottleneck,如果單一台 parameter server,情形較簡單,多台時較複雜
* check bottleneck: load, prepare, transfer(to gpu), computer, update weights
* mini-batch size 越大 tf throughput 較好,mini-batch size 小的時候 mxnet 較佳
### ==Deep Learning for Computational Photography==
莊永裕 台灣大學資訊工程系 / 教授
* 計算攝影學
* 影像本身是計算的結果,不在是物理定律的結果
* 處理攝影師的不完美(ex. 晃動,模糊)
* 場景的不完美 (ex. 下雨,霧)
* 構圖的不完美 (ex. 人物增加,刪除)
* 相機的問題
* sensor array 會受到雜訊影響
* 解析度的限制(不完整的取樣)
* 色階
* Non-linear response(各家廠商憑經驗和感覺去調整符合人類視覺)
### ==Project Mynah 九官鳥計畫:AI 幫你接電話==
郭建甫 Gogolook / CEO
* 各部門人員合作,閉關一個月,思考要解決的用戶痛點
* 幫忙皆無法接的來電 (用傳送簡訊取代語音留言)
* 給出正確回應
* 甚至產生訂單
* 46 種 caller feature 濃縮成 20 種最有效的(取近期的3~10通電話行為)
* use xgboost or spark ml gradient-boosted
* 根據每一個人的接聽習慣客製化各自的 offline DB
* 採用 ms bing stt (比較好聽 XD)
* 科大訊飛
### ==電腦有 freestyle 嗎?談音樂分析與創作的人工智慧==
蘇黎 中央研究院資訊科學研究所 / 助研究員
* 聲音 -> 頻譜 -> 音符 的辨識
* 音高偵測函數為一個二是以上的傅立葉變換
* 只有週期的訊號可以在不斷的傅立葉轉換後保留下來
* free style is a style. free style is not really free. -> auto-generation 其實也是一種模仿。
## Day2
### ==AlphaGo-深度學習與強化學習的勝利==
黃士傑Google DeepMind Research Scientist
* 此 Project 的目地在於探索人工智慧的極限
* 加入 tpu 後,棋力大幅提升
* reinforcement learning 是非常強大的
* zero 是從完全不具任何為期知識開始學習,所以相同方法套用在其他類型遊戲也可以適用(但不會是立刻可用)
* strong ai is very far away
* About 10 years ago, some were claiming that we did not need smart algorithms and math anymore: “All you need is data”, they said. However, Alpha Go Zero proves (under some constraints) we don’t need data at all! _(quotes from Xavier Amatriain's Quora post)_
### ==文字分析在財務上的應用-以股價預測為例==
楊立偉 台灣大學工商管理學系 / 教授 opview 意藍
* 營業報告是非結構性的 + 網友 + 新聞
* opview 每天收 60 億中文字,且爬蟲提供api,資料庫30分鐘更新一次,有上萬隻爬蟲機器人
* 自動標記人事時地物
* 不用結巴,自己掌握斷詞
* 台灣積體電路、台積電、tsmc
* 讓領域的特定字詞浮現是關鍵,採無詞庫方法
* 有一半金融業都是意藍客戶
* 社群反應速度是最快的
* 社群風險評估
* 產業風險排行榜 金融風險、法務風險、資安風險...
* 無詞庫,先用ngram 2-4,挑出活躍字詞。從新聞 -> 產業level -> 公司 level (tf-idf 卡方檢定 卡方排序)
* knn, svm, rf (500顆樹),預測隔天最準
### ==Smart Sensing and Continuous Monitoring==
李育杰 交通大學應數系 / 教授
* The last mile of IOT: AI
* 有和學生做一個研究室透過偵測開門的動作,辨識是誰開門
* 單一 sensor 辨識率約7、8成,結合更多sensor 可達到更高的辨識率
* 開發 sensor 用於馬達上,偵測馬達運作狀況
* 使用三軸加速器偵測
* 透過 PCA 降維 : 3->1
* define 不同區間訊號的高峰值和低峰值
### ==交大 CGI&CGI==
* Agenda : http://datasci.tw/icwu/
* GO 才是 AI 的果蠅
* monte carlo reinforcement learning 是目前的主流 ,也是 Alpha GO 主要使用的演算法
* 每下一步棋就使用最後輸贏作為修正的來源
* TD Learning:2048
* online game : http://2048game.com/
* CNN 在 2048 不 work ...
* 與 Alpha Go 的設計原理是類似,訓練的目標是產出 (Policy,Value)
### ==GAN== ###
* 李弘毅 : http://speech.ee.ntu.edu.tw/~tlkagk/
* 基本介紹
* Structure Learning / Prediction
* Gan 的概念也被運用於 Reinforce Learning
* Structure Learning 是一個很未知的新領域,Gan 這項技術只是剛剛引進門而已
* 什麼是 Gan
* Generator 是學生,正在學習畫畫。Discrimator 是老師用來判斷是否為為好圖劃
* 其中一個用途是創造先前沒有人產生過的
* Condition Gan
* 如果不使用 Gan 的話,會很容產生 average image
* 課堂作業 : https://docs.google.com/presentation/d/1Ea4ywtR5jwiGs-LLkKaaKazxZA37l88vBpjRg7meTB8/edit#slide=id.g215e8b7a35_0_10
* Cycle Gan
* 負面的句字可以變成正面的句字
* Abstractive Summarization
* 傳統採用 Seq2Seq,但是需要大量的 Labeled Data
* 所以採用 (Seq2Seq -> Seq2Seq) + (Seq2Seq + discrimator)
* 如何判別哪此圖片或文章是由機器所產生的
* 目前沒有什麼作法可以判別是否由機器所產生
* 但是李教授提出一個想法是,以後 Gan 的作法在 Release Genator 時,也一定要 Release Discrimator
### ==AI and ME: 智慧人機互動==
許永真 臺灣大學資訊工程學系 / 教授
* 假牙裡面裝 sensor 可以辨識使用者現在是在講話、喝水、還是吃東西
* 掃描照片,辨識並且用文字做indexing,更方便尋找照片
* 不只人機互動,機器也可以輔助人跟人的互動,簡短每天早上20分鐘的出門時間。家長對玩具輸入指令,由玩具與小朋友互動。
* ntu iagents lab
### ==人工智慧第三波革命==
林守德 台灣大學資工系 / 教授
* 第一波 ai : 把專家的知識,變成一條一條的規則
* 第二波 ai : big-data + ml,在deep learning 達到高峰
* 第三波 ai : non-convex optimization,整合資料及知識,ai進入生活
* 技術瓶頸
* 依賴大量標籤資料
* 尚缺乏創造力
* 缺乏邏輯判斷力
* ai 安全性、隱私性、道德問題、社會責任
* 讓人類了解 AI 內部的判斷的邏輯是相當重要的,因為人們比較容易接受他可以理解的事務(如同公司內部的經營人員)
* secured distributed recommender system:personal model + public model (網路只傳輸model 的 gradient,攔截並無法取得個資),真正推薦是在 user 端執行
* prevent unethical decision
* 過去的作法是人工定義一些 unethical 的 rule
* ethics shaping: 假設大部分的人,在大部分狀況下,行為是符合道德的
* 使用 kl divergence,判斷agent的行為是否符合一般人的正常舉動(就不需要特別定義rule)
> 李飛飛:我們處在的年代,不是ai的起點,也不是ai的終點,而是ai啟蒙階段的終點
### ==使用少量標記資料訓練聊天機器人的語意模型==
朱柏憲 優拓資訊 / Data Scientist Lead
* 一個 chatbot 背後可能需要好幾種不同的 model,label data 也無法共用
* 以下談的都是 intent-classification,優拓的NER也是用類似transfer learning做的,但其他的NLG或State tracking等,講者坦承說實務上還沒想到很好的解法,所以目前還是用rule based
* bow + lr : 訓練快、系統穩定。準確率低,字面代換不易辨識。
* word2vec + LR, random forest, multi-layer perceptron:同義字辨識清楚、複雜語句結構不易辨識
* bag of words無法分辨 "不要香菜要加蔥" or "要加香菜不要蔥"
* 複雜的模型,需要更多資料,overfitting越嚴重,失去盡量用少量資料的初衷
* self-taught learning
* 斷詞用character based
* utterance-level embedding (seq2seq, rnn, attention, skip-thought 效果較差不易訓練)
* seq2seq (bi-directional) 的結果再進去 DNN classifier 效果最好(用 top-1 acc)
* [Semi-supervised sequence tagging with bidirectional language models](https://arxiv.org/abs/1705.00108)
* [openai: Unsupervised Sentiment Neuron](https://blog.openai.com/unsupervised-sentiment-neuron/)
* [Curiosity-driven Exploration by Self-supervised Prediction](https://arxiv.org/abs/1705.05363)
* 善用潛在的監督式訊息:大量 unsupervised data + 小量 supervised data
* 一個 class 大概 10~20 個資料,一個 task 大概 10~20 個 class
* 更長篇的文章要 encode 可以用今年出來的 [doc2vec C](https://arxiv.org/pdf/1707.02377.pdf)
### ==Machine Learning and Signal Processing for Assistive Hearing and Speaking Devices==
曹昱 資創中心 / 副研究員
* Chatbot (distance talking)
* 指有距離的聲音
* 距離遠近聲音影響辨識
* 能不能用裝置協助殘障人士聲音辨識,發出聲音
* SmartHear : https://play.google.com/store/apps/details?id=com.smarthear.test2pair
* 聲音除噪和放大
* 使用傅立葉轉換,設定 filter
### ==深度學習實作上的各種卡關==
蔡炎龍 政治大學應用數學系 / 副教授
* 玩過深度學習的應該要可以秒答28x28等於多少XD
* 深度學習就是學個函數
* 把想問的問題化為函數
* 建立第一個神經網路是最難的
* 資料輸入問題
* 不願意實作
* 無止盡評估
* 訓練資料學不成
* 增加學習次數
* 更換優化方式
* 用複雜一點的架構
* 增加學習資料
* 重新問你的問題
* learning rate 改小
* 測試資料學不成
* 使用 dropout
* regularation (限制參數大小)
* 簡化神經網路
### ==大數據情緒分析的經驗分享==
陳宜欣 清華大學資工系 / 副教授
* 用 twitter 的 hashtag 情緒字眼當作人工標記答案
* 中心字在情緒字跟社區字之間
* 分析哪些字常常跟中心字一起使用 -> 社區字
* 中文corpus取臉書粉專資料,跟情緒 react
* 中文詞彙合併,短詞要剪掉長辭次數
* word2vec dependency2vec
* 找到中心字跟社區字,套用到句型,帶入情緒的label。就可以預測出其他隱含情緒的句型組合。
### ==認知神經科學 x人工智慧==
黃從仁 臺灣大學心理學系 / 助理教授
* AI->認知科學
* 把心智歷程類比成電腦的計算歷程
* 機器學習 -> 認知神經科學
* 幫助了解哪個腦區儲存/處理哪些資訊
* CNN 在許多層面上仿製人類物體辨識系統
### ==深度學習於遊戲影像上的應用==
魏澤人 東華大學應用數學系 / 副教授
* cycle-gan [直播換臉](https://www.youtube.com/watch?v=Fea4kZq0oFQ)[github](https://github.com/tjwei/GANotebooks)
*
*
## Day3
### ==Big Data Visualization==
馬匡六 University of California at Davis / Professor
* 主要 demo 一些很炫的醫學跟物理學視覺化,也沒講用什麼技術做,沒啥好筆記的 XDD
* deep learning 模型 可視化:tensor board, [acivis](https://www.nextplatform.com/2017/04/12/look-facebooks-interactive-neural-network-visualization-system/), cnnvis
* cpu 系統資源可視化,可以把 job 分類,優化系統執行及運用
* customer click stream 可視化,可以把顧客行為模式分類,找出流程問題
### ==An Economist's Random Walk in the Data Forest==
林明仁 台灣大學經濟系 / 教授兼系主任
* correlation is not causation
* 搜尋 Nigger 頻率越高的地方,川普得票率越高
* 台灣報稅資料,前百分之一人收入佔所有收入的 12%,top 0.1% 則為 4%
* 父親收入在台灣前百分之一的話,上台大的機率為6%。而其他人上台大的機率為 1%
* 分析報社員工跟政黨人士的交友互動關係,可大致得知報導政治傾向
* 八卦報導是極少數可以讓不同政黨同溫層互動的話題
### ==Agri-Weather: 阿龜的微氣候資料科學==
吳君孝 阿龜微氣候天眼通 / 資料科學家
* 氣象局的 open data 問題很多,很難接。所以需要農業資料基礎建設
* 想要回答的問題「我的田有沒有下雨?」
* 氣象局觀測站少,缺少的地區透過網格推算出來。
* 對農民來說,可信度低
* 微氣候資料科學成功要素
* 農業環境數據
* 田間紀錄
* 專家知識
### ==精準醫學時代: 探索健康檢查數據,啟動個人化健康促進==
陳璿宇 中央研究院統計科學研究所 / 博士
* 新生兒出生缺陷須補出葉酸,但是以中國南北方不同族群實驗,發現在北方是顯著的,在南方卻影響不大
* 調查顯示,北方基因有葉酸代謝缺陷
* 南方人卻無此缺陷,因此不需要多作補充
* 基因解碼一個人為30億長度的sequence
* ExAC 收錄6萬多筆沒有親屬關係的 sequence
* LDCT 可以找出早期肺癌
* 肺癌小於兩公分時,影像誤判的機率非常高
* mri 可以看出骨髓密度及血流速度
* 生化檢驗、基因檢驗 -> health menagement
* 先把人分類,再給予不同醫療、生活習慣建議
### ==鄉民帶你去旅行:日本篇==
鄭中平 成功大學心理系 / 副教授
* 心理學 替代性滿足 -> 想去日本無法去 -> 逛日本旅遊版
* 材料:PTT 日本旅遊板 8萬篇左右
* 方法:文字探勘,類聚分析,關聯規則分析
* ex. 我之所以不去東京晴空塔,是因為大阪通天閣比較吸引我 (容易產生錯誤關聯)
* 只做斷詞的話:文字雲太多沒有information的詞
* 人工對斷詞做分類
* 過多同義詞:ex. 紅葉 楓葉 賞楓 楓紅 ...
* 日本景點類聚分析、日本食物類據分析
* https://stackoverflow.com/questions/21410441/pretty-dendrograms-in-r
* 關聯規則分析 去哪裡的人 也去了哪裡
* `特色並不是在描述行為上常見` 而是專屬性
* 分析京都特定形象
* https://mplab.twgogo.org/shiny/DSC2017/
* 關聯規則 (Association Rules)
* 關聯規則的目的就是在一個數據集中找出項與項之間的關係,也被稱為購物藍分析 (Market Basket analysis)
* Minimum Support 最少要發生幾次
* Confidence 一個規則預測強度
* Boolean association rule, multi dimensional association rules
* Apriori Algorithm
* https://ithelp.ithome.com.tw/articles/10187244
*
### ==記憶體內巨量資料探勘:從有效率的摘要擷取到記憶體友善的演算法設計==
葉彌妍 中央研究院資訊科學研究所 / 副研究員
* 資料探勘:利用人工智慧、機器學習、統計學等技術,從資料庫中找出隱藏的關連性及特徵。
* 在 big data 名詞出現之前: 資料串流 (Data Stream)
* 資料像水一樣不斷流出
* 資料大量累積
* 擷取具代表性的摘要
* 資料來源分散各處
* 設計節省傳輸量的方式
* 快速且即時的演算法
* 社群網路資料摘要
* 統計參數摘要
* closeness centrality
* 意義摘要
* Ego-centric abstraction
* 結構摘要
* Find the basic generation units
### ==經典科學 vs 資料科學==
* 如果評估偽陽性是非常重要的
### ==心理學與文字探勘(內隱探測)== ###
* 例如: 女生適合唸數學系嗎
* 通常自我報告會有社會期許的問題
* 更進一步的作法,詞與內部的心理連結。e.q 同性戀在你自已的憯意識是好的事還是壞的事 ???
* 哈佛有作類似的研究
* 有一個網站在收集使用者對議題與詞之間連結的關係
*
* 可以透過點選的速度可以知道
* 語意到語感
* 內容詞比較不可靠
* 改用功能詞來測試 or 代名詞
* 使用代名詞使用的頻率(e.q 憂鬱中的人 I 的代名詞使用次數會比較高)
* 991 事件攻擊,造成 We 的使用頻次變高
* PTT 的憂鬱版,自我代名稱使用度很高
* LSM (Language Style Matching)
* 不是單純看說話的內容,而是看說話的內容
* 看風格詞是比較準
* LSM 快速聯誼的關係,高適配約會的成功率會比較高
* 功能詞也是手動整理
* 結論 : 代名詞(功能詞)是比較下意識所產生的
### ==A SOP for Accurate and Efficient Analysis of Large-Scale Network Data==
潘建興 中央研究院統計科學研究所 / 副研究員
* systematic method for understanding community structure
* graph partition
* community detection via scan statistic
* center verification via focus centrality
* shape fine tune via metaheuristics
* graph partition
* four color theorem
* graph coloring 可以考慮到 distance 3
* 去對圖形的 complement 著色,distance越高圖形越清晰 -> 就可以把分群做出來,還可以做出分群連線的強弱
* 透過此方法可以把臉書的分群大致正確畫出來 (ego-network) [ref, the facebook network complied 2012]
* community detection
* use adjacent matrix based method
* high-modularity subgraph does not imply ture community
* 缺乏 統計顯著性
* scan statistic
* scanning window
* A scanning method for detecting clustering pattern of both attribute and structure in social networks
* 包成公開 r package `Package ‘SNscan’`
* focus degree centrality
* 隨便把一點設為中心,檢測degree的p-value
### ==Data and AI @ E.SUN bank==
林鉦育 玉山銀行 CRV / 襄理
* 應用面相:風險模型/交易異常偵測/產品/顧客服務
* 在資料 ETL 的過程中加上資料更新時間與正確性的驗證
* 資產盤點,供使用者查詢
* 資料定義、欄位邏輯
* 衝擊分析,收集 input data, output data可立刻找出受影響的資料
* 信用卡消費行為預測(時間、地理、商品)、信用徵信
*
### ==Learning and Using Statistics Liberally-Exploratory and Elaborate Ways==
張源俊 中研院統計所 / 研究員
* what is statistics
* economic statistics in 1830
* biological statistics in 19xx
* big data present
* music is about rule, literature is about life
### ==課堂資料學:到底有沒有在上課==
曾俊雄 元智大學通訊工程系 / 助理教授
* qq 踩到雷
## Day4
### ==貓都學得會的手機送修資料分析==
孔令傑 台灣大學資訊管理學系 / 助理教授
* 最大宗 sony xperia z 防水膠圈
* 傳統方法:use moving average
* 問題
* 客戶:可以幫我們改進準確度嗎
* 教授:請問有多不準嗎
* 客戶:我也不知道...
* 衡量方式
* 單一料件 mae
* 料件相比 mape
* 預測趨勢結果最佳:es exponential smothing
* [指數平滑法](http://wiki.mbalib.com/zh-tw/%E6%8C%87%E6%95%B0%E5%B9%B3%E6%BB%91%E6%B3%95)
* 總共嘗試的方法
* 單純預設料件
* 先預測銷售,在看料件比例
* 從銷售+送修資料,一起做預測
* 資料量越大的item,適合用較複雜的方法。數量少的用簡單方法即可。
### ==我在 Kaggle 數海獅==
周培廉 kaggle 業餘玩家
* 廢話hen多
* object detect 反而有局限性,從其他角度出發
* 詳盡的研究training set 與 test set 的差異,調整預測的結果比例
### ==社群大數據中的江湖事==
胡筱薇 東吳大學巨量資料管理學院 / Assistant Professor
* fb magic number is 7 (7個朋友讓你留下來)
> Data 就是拿鞭子打他,而他總是能吐出些什麼
* 最理想的工具是給第一線人員使用,而不是給 it rd
* 媒體抄文是現象,但是立場會改變
* 各行各業看目的,對粉絲的定義也會不一樣 (商品品牌的粉絲不會每天互動, 但偶像的粉絲可能會)
* 社群資料跟傳統資料的屬性不一樣
* 2-mode matrix -> 1-mode matrix
* 用 page-rank 可以找到誰在帶風向
* 候選人反而不在意風向,在意對手有沒有新的可以攻擊的點
* aoi : area of interest
### ==手機資料如何輔助臨床診斷與治療?==
林煜軒 國家衛生研究院/台大醫院 / 主治醫師
* 精神醫學整段位階
* 診斷性會談 -> 自填量表 -> 量化指標
* 網路成癮、手機成癮 是研究人機互動領域的 `果蠅`
### ==Computational Design Thinking - 數據取向的產品設計思維與案例==
溫明輝 臺北商業大學商業設計管理系 / 助理教授
* design thinking
* 同理心
* 定義問題
* ideate
* prototype
* test
* 智慧增強 intellignce Augmentation
* 提高人類的潛能——通過與機器合作提高人生產力
* line 推播造成用戶增加,但封鎖率也增加
* 用軟體跑素材視覺熱點,看效果是否符合設計時預期
* http://pansci.asia/archives/111786
### ==資料視覺化與使用者經驗設計==
彭其捷 卡米爾股份有限公司 / 數據專案經理
* 資料導向 + 設計導向
* google sprint + 資料視覺化
* understand -> diverge -> decide -> prototype -> validate
* 士兵心態:透過攻擊或防禦觀點,鞏固自己價值
* pair design