Lab Meeting Minutes 2023/10/06

--- title: Lab Meeting Minutes 2023/10/06 - A Review of Neural Networks for Anomaly Detection tags: lab_meeting --- > Outline > [TOC] --- # PERAL Lab Meeting - 時間：112 年 10 月 06 日 20:00 - 地點：線上 - 線上會議連結 : [Online](https://meet.google.com/zfi-zmnc-qfw) - 出席者(14)：吳坤熹老師、謝萬霖、劉怡君、田蕙瑜、沈家正、梁宇騰、紀見如、劉冠伶、林大智、繆亭霄、蘇翊荃、陳嘉璐、陳姿綾、陳姿澖 - 請假: 陳品妤 - 會議主題：[A Review of Neural Networks for Anomaly Detection](https://docs.google.com/presentation/d/1nT6KJVQfYpwfsZA2lwZFmrhiSf-fcAdrvHWEWiajQP0/edit?usp=sharing) - 主講者: 繆亭霄 - 主記: 田蕙瑜 ## 會議內容 ### Anomaly detection introduction - Anomaly detection 異常檢測 - 異常:單純檢測該筆資料是否與訓練資料為相同群 - e.g. 訓練資料為貓 => 則狗為 Anomaly Data - Application - Fraud Detection - Network Security - Healthcare Diagnosis - Problem - It is difficult to define anomaly class in binary classification. - e.g. p.6 訓練資料為貓 => 所有非貓的資料皆為異常 => 難以定義異常資料 - Anomalies are typically rare events compared to normal instances, leading to imbalanced datasets. - e.g. 癌細胞檢測。資料量本身少，故難以訓練。 ### Categories of anomaly detection ![](https://hackmd.io/_uploads/HkT-K_aep.png) - Open Set Recongnition - ![](https://hackmd.io/_uploads/H1VRYOTx6.png) - 若 test data 為沒看過的 class，能回報其為無關資料 - Test with "MNIST" - MNIST 6000 up+ 的手寫數字資料 - Test Result: - ![](https://hackmd.io/_uploads/BkIeq_Tl6.png) ### Neural Networks * Neural Networks Methods * CNN: Convolutional Neural Network * RNN: Recurrent Neural Network (LSTM) * **AE: Autoencoder Neural Network** // 本次報告之重點 * GAN: Generative Adversarial Network * AE * ![](https://hackmd.io/_uploads/Hyvs9_Te6.png) ### Metrics ![](https://hackmd.io/_uploads/SyHfoO6xa.png) - ROC Curve ![](https://hackmd.io/_uploads/Hk5D2dalp.png) > x axis: FPR > y axis: TPR - TPR - 在 positive 的情況下預測正確的機率 - FPR - 在 negative 的情況下預測錯誤的機率。 - Precision-Recall Curve - ![](https://hackmd.io/_uploads/r1vm6dTe6.png) > x axis: Recall > y axis: Precision --- ### 建議&問題 1. [name=嘉璐] p.12 encoder、vector、decoder是固定的值嗎?因為剛剛舉例都是固定的值 Ans: 神經網路其實是個 encoder，根據這個圖與原始資料權重不斷重複調整直到後來的圖片和原本的圖片最相近 2. [name=嘉璐] p.8 MNIST 是如何產生的? Ans: 應該是到處蒐集真人的字跡 3. [name=嘉璐] 請問我們在連線到某個網頁上出現的「請問下列哪些圖片包含腳踏車」是用這個技術嗎? Ans: 是，那叫「re-captcha」 4. [name=Selena]我想問一下學長Anomaly Detection是指機器跑出的最高機率小於某個設定的機率時（剛剛舉例0.7），就會直接把測試圖片放到不認識的資料集裡面是嗎？那這樣如果剛好測試圖片答案是3結果寫的很像2然後結果剛好是0.5 0.5也會被放到不認識的資料集裡面嗎？ Ans: 是，根據threshold分辨 unknown 5. [name=yukino] 沒有 label 的分類? - Unsupervised Method - e.g. KNN 算這張圖與其他圖的遠近，已分群。弊端: 難以控制分群因素 6. [name=Ryan] p.14 圖 ACB 點是調整了甚麼參數來計算的? Ans: 調整 threshold 來計算對應的算 TPR & FPR 7. [name=] p.12 Encoder - 降維是機器學習的 Layer 逐漸壓縮分層，最後得到 feature vector 8. [name=] Pos vs Ne - 結果分二類: - Positive: Anomoly Data - Neg: Normal Data 9. [name=Lawrance] p.7 Open Set Recognition 可以看成是 Classification 再加上一類 Unknown 對嗎? - 是 10. [name=Lawrance] p.11 - 最常被引用的即為這4類。 GAN & AE 皆能生成圖片。 11. [name=Ashley] 異常偵測 vs Classification? - 看信心指數只是其中一種做法。 - 也有拿異常當正常訓練做比較的方法。 12. [name=Ashley] p.12 圖片手動模糊? - Yes 13. [name=Jiazheng] P.10 左上角公式是什麼意思？ - 分類器預測出來每種類別加總起來要等於 1 - 如果預測的分數太分散，他認為每一種都有可能，就會 confidence 最高的那個類別沒超過我們設定的 threshold - c(x) 就是分類器最終預測出來的那個類別(分數最高的)的 confidence 值 14. [name=Miller] Application? - 也可以應用在聲音上的還原，更近一步可以通過紀錄的vector模擬其他人的聲音。 16. [name=Miller] How to increse Recall? - 只要全部預測 positive，FN 就會為 0，Recall 就會是 1 18. [name=Phoebe] 通常 threshold 的決定會參考哪些指標? e.g. Base on the ROC Curse and depend on what kind of Anomoly Detection you do. 19. [name=Phoebe] Auto-encoder Nueral Network 的 "Auto" 是體現在哪裡? - I guess: 因為不用自己上 label - [name=Phoebe] ROC full name? // a.k.a Advice - Receiver operating characteristic curve 20. [name=Angela] p.6 訓練資料為貓 => 所有非貓的資料皆為異常 => 難以定義異常資料 21. [name=Edgar] p.7 近年異常應該還有 self-supervised，此篇是被作者歸類 semi-supervised or not survey? - not survey 23. [name=Edgar] Advice: - p.12 Auto-encorder 可以去除雜訊，因此圖片應該對調。(結果應較清晰) - p.12 提供具體例子，例如：圖片是 `x*y*z` 經過 encoder 逐漸轉換成 `1*1*xyz` 的 vector 24. [name=Solomon] 報告整體清楚。依據:視聽者是否能問出清晰的問題。有這特質的人適合讀博士班！ ## 待追蹤事項 1. [name=] ## 臨時動議 - 請新人在交接後寫下關於職務需要改進的地方 or reveiw，並於 FB 公告。 - 會議記錄在盡量當天整理完，最晚於 24hr 內寄予講者確認，確認無誤後進行 archive and annouce --- 散會結束時間： 21:11