--- title: 專題海報文案 tags: malexp --- ## 摘要 本研究針對惡意程式分析在面對未知行為特徵時需大量依賴人工比對、查找舊資料等問題,提出以「惡意行為特徵」為核心的 Malware Explorer 平台。系統整合多層次程式碼表示,並採用三階段 RAG 流程:由 LLM 生成行為標籤、透過模糊搜尋檢索候選特徵、再以 LLM 進行語義評分。平台提供特徵結構化管理(YARA、MITRE ATT&CK、行為標籤)與樣本—特徵關聯,使分析成果能標準化並累積為知識庫,提升分析效率並降低重複性工作。 ## 相關研究與文獻 現行惡意程式分析仍多依賴檔案層級特徵(Hash、YARA、模糊雜湊),在面對編譯器優化與代碼混淆時易失效;STIX/TAXII 等情資標準則偏重原子指標,缺乏能描述「行為特徵」的中層次語意。近期研究提出 LLM 可協助程式碼摘要、函式命名與語義理解,但多倚賴昂貴的向量搜尋。本研究採用「混合式檢索架構」,以模糊搜尋搭配 LLM 語義評分,在不增加部署複雜度的前提下提升惡意行為比對的準確度。 ## 研究背景 在實際參與產學合作的惡意樣本分析任務中觀察到:分析師常需反覆確認是否看過相同行為邏輯,然而現行流程缺乏可查詢、可累積的「行為特徵資料庫」,導致分析效率受限於個人經驗。此外,惡意程式變種大量出現,而逆向工程人才短缺,造成分析人力負擔沉重。本研究旨在將「惡意行為特徵」作為分析單位,並透過 LLM 協助語意化的理解與比對,改善這種高重工的工作模式。 ## 研究方法 ## 研究成果 本研究完成 Malware Explorer 平台,成功將非結構化的惡意程式分析資訊轉化為可查詢、可重複使用的行為特徵知識庫。系統可自動生成行為標籤與摘要,並透過三階段 RAG 流程提供語意比對結果,協助分析師更快速識別與既有特徵的關聯。實驗證明此架構能有效降低重複分析成本,提高面對未知樣本時的分析效率與一致性,並為後續導入向量檢索與更深入自動化奠定基礎。 ## 文獻探討 {%preview https://ieeexplore.ieee.org/abstract/document/6128413 %} {%preview https://arxiv.org/html/2406.18379v1 %}