--- title: HITCON x 台科 活動問題整理 --- # HITCON x 台科 人工智慧撞牆經驗談 活動 :::info 人工智慧撞牆經驗談 - 奧義智慧資安研究主任 Ck 雖然機器學習在安全應用中變得越來越重要,許多研究已經集中在這個主題上。然而,許多研究和報告只涵蓋了高層次的概念,缺乏實做與實務應用層面的問題。在本講座中,我們從實做作為主要部分開始,涵蓋了過去在開發ML系統時在實際場域遇到的問題和解決方式。涵蓋從惡意軟件分析、APT調查和網絡流量分析的應用。之後,將解釋整個ML週期,資料收集,資料過濾,特徵選擇和模型調整。最後,將提到ML的共同限制和挑戰。 業界與學界在人工智慧應用上的差異,交流議題如下但不限: 人工智慧應用於資安上的研究趨勢、與業界實務 學界與業界對人工智慧使用的差異 資安、人工智慧的職涯發展 ::: :::success 請隨意提問,可以盡量依照不同的主題提問歐~ 回饋表單:https://forms.gle/eh9UHv6ZRmHgsa8o9 ::: ## 人工智慧撞牆經驗談 - 奧義智慧資安研究主任 Ck * 有看到 AI 應用於資訊安全領域的各項研究越來越多,常見分類不限於 * 語意分析,嘗試過濾出各種混淆的惡意程式 * 利用圖像辨識偵測 memory 中惡意程式的運作佔用位址 * 模型訓練安全性等等 * 但感覺相關議題慢慢飽和了,請問相關的工作市場有沒有飽和(應用端的人),還是也要開始發展專用的模型? * Sensity AI 有提過利用 Deepfake 技術偽裝面孔欺騙臉部辨識系統,這代表實體生物安全已漸漸不再安全,請問這類型的資安議題目前有造成怎樣的影響嗎?公司要如何應對這樣的安全性攻擊? * 最近很多 conference 都有提到 model training security 的相關問題,也有提到其實很多公開資料集也有安全性問題,請問公司要如何確保自己的 model 是有依照公司期望且並沒有被惡意混淆的? * 有聽過 Darktrace 有出一個 Self-Learning AI System 做自適應環境監控系統,個人猜測應該是利用 Time series model 學習環境狀況之後,進行未來下一時間點預測比對來監測是否有異常狀況產生,包含他們資料庫做到惡意偵測辨識。好奇這種自適應系統的發展是有意義且公司會在意的嗎?另外目前防毒系統導入 AI 是不是也是近似類似系統地引入呢? * 看到越來越多防毒系統有說導入 AI 監控,好奇這類型的服務是導入了怎樣類型的 AI? * 現在資安公司在意或者想要的 AI 應用是怎樣方面的,學生可以如何準備讓自己成為公司想要的人? * Black Hat 2022 USA 有提到 GNN model 可以用一些手法被直接 leak 出來整個近似的模型結構跟 dataset,這種問題可能影響防禦方 model 被 leak 跟破解嗎? ## 業界與學界在人工智慧應用上的差異 * 做過數據科學相關工作之後,慢慢意識到 data prepare / preprocess 才是根本,但資安類型的數據感覺很多很雜,請問就目前的資安應用來說,要如何做到 data preprocess ? * 可能是惡意 payload 的整理,我們不可能生出所有可能的 bypass * 可能是 system log ,有很多無意義的 log ,也可能他們有意義但是我們不能確定 * 可能是其他我不知道的 data 們,他們都很龐大且雜 * 學生如果沒有龐大的資源,很難取得完整的 dataset 跟硬體資源來嘗試面對資安 AI,請問有任何辦法取得資源或者怎樣嘗試接觸這個領域? * Black Hat 2022 USA 剛結束,也提到了很多 AI 相關的問題,例如說 Github Copilot 慢慢輔助程式撰寫者撰寫程式們,但其實裡面有很多問題在於它可能會推薦錯誤的有漏洞的程式碼,這是不是代表另類的漏洞環境將越來越多? ## Live Questions * 請問主要是 NLP 嗎? * 好奇對於 model training 之前會盡量做到 data balance,但對於沒有明確 class 的 log data 要如何做到 data balance? > 已經於 ppt 回答到 * model 端的 dataset random 或者一些資料平衡手段對於這樣的問題輔助效果好嗎?還是前期人力投入還是很吃重 > Data exploration 還是必須的, 這需要跟 domain expert 合做 [name=Birdman] > 還好資安還有Enent id 與 Event class.除非必要不用在寫文字解析器 (不確定是不是回答這題) [name=David] * 請問剛開始 train 的話 dataset 會需要抓多大呢? 怎麼評估我需要拿多少去訓練甚至驗證? * outlier 在這裡定義是統計上 feature 表現不一樣嗎? * 一般來說很多問題會直接用 acc 做結果的評估,但有時候往往 F1-score 或者 leak rate 等等其他部分才是我們更在意的,請問這樣的評估方式在資安領域怎樣的問題會被在意? > 我們通常不會用 F1 SCORE or ACC,因為我們很多資料是 log, 不但是離散的甚至都是 categorical data [name=Birdman] * 請問一般人能從virus total抓樣本嗎? > 不行歐 [name=David] > 只能送檔案或送 hash 去問 [name=David] > 付費版好像可以(? * 請問 benign 樣本通常會去哪裡取? > * 請問TSNE分得開就算是可解釋嗎? > 不一定, 這個很看緣分滴 [name=Birdman] * 如果解釋性不佳的模型效果很好,請問還可以使用嗎?或者會影響到對模型使用的信心度? > * 請問有關於DDoS相關的機器學習經驗或是資源嗎? > * 公司比較在意準備的是針對性的模型還是生命週期比較長的模型?(通用性較強的模型或者應用 > - 資安好像常見都是使用 NLP 相關,想知道有什麼時候會使用到 CNN 之類的圖像處理技術嗎?(用 CNN 分析視覺化的 binary 那種以外) * 講者有提到目前雖然有很多人在做惡意程式偵測,但是真正能被應用的不多,講者說是因為拿到的實驗Data 和真實Data 有差,這是代表我們應該在研究很重視資料前處理嗎? * 想請問這樣的 module 投毒問題是否可以納入軟體供應鏈的問題呢? * 請問你們是如何更新資料跟model的?