SafeSpeech: Robust and Universal Voice Protection AgainstMalicious Speech Synthesis

SafeSpeech: Robust and Universal Voice Protection Against Malicious Speech Synthesis https://www.usenix.org/system/files/conference/usenixsecurity25/sec25cycle1-prepub-402-zhang-zhisheng.pdf SafeSpeech。該方法在用戶上傳語音前，於原始語音中嵌入人耳難以察覺的微小擾動，從而阻止高品質的合成語音產生。在 SafeSpeech 中，我們設計了一種穩健且通用的主動防護技術——語音擾動隱藏（Speech PErturbative Concealment, SPEC），利用代理模型產生對各類生成式語音模型都有效的通用擾動。此外，我們還從時間與頻率兩個維度優化了擾動對人耳的感知效果。首次在訓練階段透過嵌入人耳難以察覺的擾動來保護我們的聲音，以對抗未經授權的利用和惡意語音合成。語音擾動隱藏」（Speech PErturbative Concealment）的穩健通用擾動技術，以對抗惡意語音合成。為確保噪聲的不可察覺性，我們引入了一個混合感知函數，結合 STOI 和 STFT 損失，從時間和頻率兩個維度優化人類感知並降低可聽度。對橫跨十個 SOTA 模型和兩個資料集的 SafeSpeech 進行了全面評估。SafeSpeech 對自適應攻擊者具備魯棒性。 SafeSpeech 能在我們的真實世界測試中實現即時保護，僅需 10.606 秒即可產生特定說話人的擾動，並提供持續保護。 ![image](https://hackmd.io/_uploads/Syx8vbFngl.png) 這是 SafeSpeech 的核心技術部分。輸入資料：要產生保護，系統需要三樣東西： * Original Waveform：你的原始聲音波形。 * Texts：這段聲音對應的文字內容。 * Speaker ID：你的說話人身份 ID。代理模型 (Surrogate Model)：SafeSpeech 內部有一個輕量級的語音合成模型，稱為「代理模型」。它會模擬攻擊者可能會用的語音合成模型，用來「試算出」最有效的攻擊擾動應該長什麼樣子。語音擾動隱藏 (SPEC)：這是產生「隱形防護罩」（擾動）的關鍵步驟，它有三個優化目標（可以想像成三個製造規則）： * Lmel (樞紐目標)：這個規則的目標是讓代理模型生成的 Synthetic Audio (合成音訊) 和你的 Real Audio (真實音訊) 之間的差距縮小。但這是一個「陷阱」，因為在縮小差距的過程中，模型學到的是被擾動污染的特徵，而不是你真實的聲音。 * Lnoise (噪聲目標)：這個規則更狠，它會引導代理模型生成的聲音去接近一個隨機的 Gaussian Noise (高斯噪聲)。等於是告訴模型：「別學人聲了，去學雜訊吧！」 * Lperception (感知目標)：這是為了確保加上去的擾動人耳聽不見。它會去計算保護後音訊和原始音訊在聽感上的差異，並盡可能縮小這個差異，讓聲音聽起來自然。這三個規則一起運作，透過「最小化誤差 (Minimize Error)」的過程，最終產生一個既能破壞模型學習，又對人耳友好的保護性擾動。上傳受保護的音訊 (中間區塊) * 這個特製的擾動會被疊加到你的 Original Waveform 上，產生 Protected Audio (受保護音訊)。 * 這個音訊對你來說聽起來跟原來的一樣，於是你放心地把它上傳到 Public Access (公開平台)，如 Twitter、YouTube、WhatsApp 等。攻擊者竊取並訓練模型 (右側區塊) * 攻擊者 (Attacker) 在網路上找到了你的聲音（實際上是已被保護的 Protected Audio）。 * 他把這些音訊拿去餵給他自己的 Synthesis System (語音合成系統)，並進行 training (訓練或微調)，企圖複製你的聲音。 * 由於攻擊者用來訓練的資料是「有毒」的（被 SafeSpeech 保護過），他的模型根本學不到你真實的聲音特徵。結果：Failed Speech Synthesis (語音合成失敗)。 * 失敗場景 1 (欺騙人類)：合成出來的聲音品質極差、充滿雜訊或音色完全不對。圖中顯示，當假語音對「Bob 的父親」說話時，父親立刻識破：「你不是 Bob」(Not Fooled)。 * 失敗場景 2 (欺騙系統)：這個假語音也無法通過 Voiceprint Lock (聲紋鎖) 的驗證，導致「權限被拒」(Permission denied)。