--- GA: UA-34467841-15 --- # 玉山銀行Gen AI SafeGuards安全防護架構與實踐 - 楊益昌(Johnson) ###### tags: `HelloWorld2025` `HWDC2025` `2025` `DE 會議室` `AI 驅動的軟體開發資安新思維` <blockquote> 隨著生成式 AI(GenAI)的快速發展,在金融業也開始積極導入GenAI在各個產品與應用,玉山銀行在這部分也積極投入,而在GenAI導入後,其隨後的安全防護與架構也隨之需要建立,涵蓋從地端的個資保護、顧客輸入的Prompt過濾、及雲端LLM模型回覆的保護,並將其模組化建立後讓其各產品可以立即串接與保護。在這場演講中,將分享玉山銀行在導入生成式 AI(GenAI)安全防護的實戰經驗與架構設計思維,內容涵蓋從理論到實作的完整流程,藉此應對在導入 GenAI 技術時,能夠兼顧創新與安全防護。 🛡️ 背景與動機 與Google GenAI合作案中,探討其在GenAI可能面臨的攻擊與挑戰。包括 Prompt Injection、資料洩漏、模型濫用、回覆非業務相關等問題,並介紹如何建立一套完整的風險辨識與防護思維。 🛡️ GenAI安全防護SafeGuards 架構設計 介紹我們在玉山銀行所設計的 SafeGuards 架構,這是一套針對 GenAI 應用所打造的安全防護機制,涵蓋輸入驗證、回應過濾、角色權限控管、Prompting Protection客製化防禦等模組,確保 AI 回應符合金融業合規與資安要求。 🛡️實戰 Guardrails 攻擊防護實測 導入 Guardrails 技術時的實測結果,包含如何模擬攻擊場景、驗證防護效果,以及如何透過策略設定與模型微調,有效阻擋 Prompt Injection、越權存取等攻擊手法。 🛡️第三方檢驗 為了確保架構的客觀性與安全性,我們也導入第三方資安檢測機制,包含紅隊演練與模型行為測試,並分享在這些檢驗過程中所獲得的洞察與改進方向。 🛡️成效與未來展望 模型優化與穩定性下一階段的防禦功能與服務擴展 這場演講適合對 GenAI 技術導入、資安防護、雲端架構與實務操作有興趣的技術人員、架構師與資安專家。希望透過這次分享,能夠提供大家在導入 GenAI 技術時更全面的安全思維與實戰參考。 聽眾收穫: 當聽眾參與這場演講後,將能夠獲得以下幾項實質收穫: 🔐 建立 GenAI 安全防護的完整觀念 聽眾將深入了解生成式 AI 在企業應用中可能面臨的安全風險,並掌握如何從理論層面建構一套有效的防護思維,為日後導入 GenAI 技術奠定穩固的資安基礎。 🧩 掌握 SafeGuards 架構設計與實作細節 透過實際案例與架構解析,聽眾將學會如何設計一套可落地的 GenAI 安全防護機制,涵蓋輸入驗證、回應過濾、權限控管等模組,並了解各模組在實務中的應用方式。 🛡️ 交流 Guardrails 攻擊防護 </blockquote> {%hackmd @HWDC/announcement-2025 %} ## 會議資訊 **時間:** 16:45 ~ 17:30 **地點:** DE 會議室 **日期:** 2025年10月14日 **語言:** 中文 **難度:** 中階 **相關連結:** - [Hello World Dev Conference 2025 官方網站](https://hwdc.ithome.com.tw/2025) [target=_blank] - [Hello World 2025 議程表](https://hwdc.ithome.com.tw/2025/agenda) [target=_blank] ## 筆記區 > 請從這裡開始記錄你的筆記 ### LLM面臨的問題 - 出現幻覺 - 執行惡意攻擊的程式碼 ### 安全機制的挑戰 - 對不同語言的支援程度不同 玉山銀行2個GenAI產品 投資 i chat AI房貸顧問 Prompt Protection Instruction Sample * 使用Markdown結構化格式(Best Practice) * 隔離指令: 將「安全與完整性檢查 (步驟一)」提升到最高優先級。 * 負面提示:阻止攻擊者透過要求模型解釋其行為,來洩露系統規則 * 列表服務限制,避免超出產品主題之問題回覆。 * 強制文案:使用拒答文案作為唯一回應,避免LLM Model自行解釋。 * 提供多個輸入/輸出的範例,確保其回應的語氣、格式上保持高度一致性。 【主區塊】 ## 1.核心身分 ## 2.回覆協議(嚴格遵守) ## 3.知識領域與限制 ## 4.拒答文案 ## 5.關鍵範例 --- ## 討論區 > 歡迎在此進行討論與 Q&A ## 相關資源 - 投影片連結:(待講者提供) - 相關文件:(待更新)
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up