20210307國立清華大學北美基金會焦點校友訪談 === 國立清華大學北美基金會焦點校友訪談-AI and Machine Learning: Opportunities and Trends 講者介紹 --- [講者介紹](https://www.nthu-na-foundation.org/post/%E5%9C%8B%E7%AB%8B%E6%B8%85%E8%8F%AF%E5%A4%A7%E5%AD%B8%E5%8C%97%E7%BE%8E%E5%9F%BA%E9%87%91%E6%9C%83-%E7%84%A6%E9%BB%9E%E6%A0%A1%E5%8F%8B%E8%A8%AA%E8%AB%87-ai-and-machine-learning-opportunities-and-trends?fbclid=IwAR1Lgcy4w0wa_tJO5HqNljhw61OUWFEKCK_dLFpsAWO3HdtgWPSTSE_kIEk) 宗旨 --- 分享訊息 互相幫助 提攜後進 回饋母校 紀錄 --- 以昱廷提出一個個議題訪談方式進行 #### 議題1: 模型越來越大,參數越來越多 比如 Bert large 350M 參數 Microsoft Turning NLG openAI 175Billions Google switch 1.6Trillion 訓練執行 消耗能源 重複造輪子 GPU TPU運算 沒有這種資源 self training 沒有標注資料取代supervise training 商業獲利大model 知識昇華 細化 refinement overhead隨著模型變大 expomential增加 #### 議題2. model refinement 雲端執行 雲端model部署精度下降 quantization 人工智慧看過資料沒有限制 repretation learning source model downstream fintuning #### 議題3. 趨勢 CNN與LSTM multi-model方式被transformer統一 google transformer文章 attention架構處理sequence attention接近人類學習事物的方式 #### 議題4. performance co-design設計 workload hyper parameter computation communication data layout double, single precision #### 議題5. quantize aware deep learning 微軟ONNX 模型訓練好再去optimization改成co-design方式 #### 議題6.改變模型符合產品 帶口罩的人臉辨識模型解鎖 帶著口罩辨識是本人 不知道ML model學了麼 無法調整操控 #### 議題7.戴口罩模型 市面上帶口罩不給辨識 辨識率不高的model verification 1-N face verification #### 議題8. memorization記憶力很好 basedline capability 進一步extension #### 議題9.機器學習安全性 可解釋性 攻擊性 trust worth maching learning 人類生活密切相關 fairness 教他不正確的東西 AI面試官後面放書櫃比較容易過 #### 議題10.該去學界或產業應用性的研究 在公司做research或product Swee software engineer RS apply research 人臉辨識 Microsoft windows hello 在不同環境下都能login(環境暗, camera種類 影像品質不好) 各種attack antispoofing customize 業界有計算資源 看paper根據有沒有訓練ImageNet判斷是學界還業界 top down #### 議題11. Microsoft 瑞士蘇黎世 #### 議題12.廣告推薦模型 NAS ALLO conversation AI 先問兩三輪 金融預測 training 和 testing 資料是 non IID multi player QA --- 記錄問題 感謝各位學長的分享與回答! #### 1.machine learning 中的bias偏見如何消除? 模型之間會有偏差 比如資料收集時的偏差 標記人員認知的差異 模型架構造成的差異 不同ML框架造成的差異 (data bias, architechure bias collection, labeling bias software bias) 這些bias使得deep learning如戰國時代 如NLP模型 比如開頭提及的微軟Turning google bert large 耗費能源又大家重複造輪子 一個共用model市集的可能性? #### Ans: 品諭學長: 先定義何謂「偏差」 加入regulization uncertainty quatification 資料分區 group fairness, feature fairness 昱廷學長: 微軟也有一些tool在消除bias 人臉模型資料集裡有很多長的跟他很像的人,使得辨識錯誤 尚宏學長: dataset很大時怎麼找出mislabel的問題 #### 2. 在公司內投入新的AI專案在還沒投入前怎麼說服主管說這是可行的? 55%公司無法落地 應用有沒有實際上的revenue 如何在投入前預估可否達到經濟規模 #### Ans: 昱廷學長: 要做功課 比如在微軟就說Google有人在做了! 在不動用外部資源下(extra resources)情況下做出Proof of concept 一新學長: 問CP值,也考量公司到底有沒有資源 心得 --- 1.machine learning 中的bias如何消除? 資料採集的過程中人為所產生的偏見 The data provided by human can be highly-biased 深度學習有一個統計假設前提。 資料的獨立同分佈 (IID, independent and identically distributed) 事實上 非同樣來源資料/標籤,蒐集機器不同 使得資料是都非獨立、同分佈(Non-IID) 比如醫療影像的辨識,A,B醫生對同一張照片有不同解讀,以致標記訓練資料集原本就存在變異。 模型之間會有偏差 資料收集時的偏差 標記人員認知上差異 模型架構造成的差異 不同ML框架造成的差異 軟體工程產生的差異 (data bias, architechure bias collection, labeling bias software bias) 這些系統性偏差有消除的方法? 又因為這些偏差,使得各個公司訓練出來比如人臉辨識模型,產生差異。 像ROS出來之前各個實驗室重複造輪子的情景。 一個共用model市集存在可能性? 回覆: 品諭學長: 先定義何謂「偏差」(Fairness) 加入regulization uncertainty quatification 資料分區 group fairness, feature fairness 昱廷學長: 微軟也有一些tool在消除bias 人臉模型資料集裡有很多長的跟他很像的人,使得辨識錯誤 尚宏學長: dataset很大時怎麼找出mislabel的問題 2.在公司內投入新的AI專案在還沒投入前怎麼說服主管說這是可行的? 如何在投入前預估AI應用能多少產生實際上的收入,以說服決策層。 昱廷學長: 要做功課 業界比如就說Google有人在做了! 在不動用外部資源下(extra resources)情況下做出Proof of concept 一新學長: 問CP值,也考量公司到底有沒有資源 --- 《零散的記錄》 20210307國立清華大學北美基金會焦點校友訪談 https://hackmd.io/_fcUzH-fRQqYDin08OGprg ref: 《A Tutorial on Fairness in Machine Learning》 https://towardsdatascience.com/a-tutorial-on-fairness-in-machine-learning-3ff8ba1040cb 《Bias in Machine Learning》 https://devblogs.microsoft.com/premier-developer/bias-in-machine-learning/ 《独立同分布 independent and identically distributed》 https://zhuanlan.zhihu.com/p/52530189 《若DL没了独立同分布假设,样本不独立的机器学习方法综述》 https://zhuanlan.zhihu.com/p/81726974 《uncertainty quatification 》 https://en.wikipedia.org/wiki/Uncertainty_quantification chi-square test for indepence Z-test https://en.wikipedia.org/wiki/Chi-squared_test https://en.wikipedia.org/wiki/Data_binning ###### tags: `nthu`