<補充知識>參考論文-08 Pluggable Attack for Visual Object Tracking meeting報告

<補充知識>參考論文-08 Pluggable Attack for Visual Object Tracking meeting報告 === https://ieeexplore.ieee.org/document/10316262 # 簡報參考用 ## Abstract 摘要對抗性攻擊是指對視覺目標追蹤 (Visual Object Tracking, VOT)攻擊，通過對來源圖像添加惡意擾動，使要追蹤的目標漂移到背景現有的攻擊方式主要在決策層誤導，但無法廣泛適用本文主張在中間層破壞特徵線索進行攻擊，最大化「自然樣本」「對抗樣本」的特徵分佈與三種主流追蹤器範式結合(Siamese網路追蹤器、DCF追蹤器、Transformer追蹤器) 透過4個數據集驗證方法可行 Index Terms—視覺物體追蹤，對抗攻擊，深度學習安全 [Abstract問題](#anchor1) --- ## INTRODUCTION 引言 ### Because 現況說明重要性，背景、動機、為何重要 VOT在電腦視覺、模式識別的重要性在工業場景(自駕、無人機、智慧監控...) 深度學習發展VOT性能UP UP 也暴露出對於「對抗攻擊 Adversarial Attacks)脆弱性當攻擊方法加入微小的擾動，影響追蹤器準確性，可能會有嚴重後果所以重要 ### But 別人研究做得怎樣，現在問題或挑戰，不足處目前研究集中在決策層級的攻擊策略依賴追蹤器的設計，但難跨不同架構，缺乏普遍性，無法覆蓋所有追蹤框架是目前技術挑戰 ### So 本論文解決方案、研究工作、貢獻本文提出一種可插拔的攻擊方法(Pluggable Attack) 對深度變習網路的特徵層進行干擾，適用多種追蹤框架例如 - [DCF 判別式相關濾波器](/DiFyFhx_RjGG5xsetpX99g) - [Siamese 網路](/1yap0Mf-Rou5qrrmrmii9g) - Transformer追蹤器可應用於現有深度學習追蹤器，還可在未來深度學習模型，持續發揮作用具有廣泛性 ### ==圖 1.== 視覺目標追蹤範式概覽與可插拔攻擊機制 1. 近期設計的追蹤範式： • Siamese網絡 • 判別相關濾波器(DCF) • TransFormer追蹤器 2. 共同架構： • 輸入 • 特徵提取 • 信息交互 • 輸出形式 • 損失函數 3. 追蹤器設計的差異： • 不同追蹤器在輸出形式上有巨大差異 • 損失函數的設計也各不相同 4. 對抗攻擊設計的挑戰： • 由於輸出和損失函數的差異，難以在決策層面設計統一的對抗攻擊演算法 5. 深度模型的共同點： • 所有追蹤器都使用骨幹網路進行特徵提取 6. 提出的解決方案： • 設計可插拔的攻擊機制 • 將攻擊重點放在特徵提取器的中間層 • 這種方法可以適用於不同的追蹤器 ![image](https://hackmd.io/_uploads/rJ2PHw3N1g.png) Siamese Twins 由來，連體雙胞胎共享權重的雙網路、比較特徵向量，常用計算歐幾里得距離或餘弦相似度距離小可能同一個類別應用在人臉識別、圖像相似性、一對多匹配損失函數通常用對比損失函數、三元組損失，這裡用變體 ==與交叉熵損失(分類頭損失) 有什麼不同== ==L1損失函數要複習是什麼?==看公式1的$L_r$ [INTRODUCTION問題](#anchor2) --- ## RELATED WORK 相關研究 ### A. Deep Tracking 深度追蹤深度學習在VOT上性能優於HOG、CN，但線上訓練更新整個網路參數方式不可行，改用預訓練的DCF，而PrDiMP引入機率解釋 Siamese網路適合用來做分類比對，而把錨點標註為正樣本或負樣本，用交叉熵損失監督訓練過程，L1損失指導邊界框位置。最近的技術是使用TransFormer追蹤器，增強了模型表徵能力，通過計算左上角、右下角邊界框的機率預測 ### B. Background of Adversarial Attack 對抗攻擊的背景 ==表 I==不同類別的對抗攻擊比較表 (黑箱VS白箱、2種範數、在線或離線訓練、決策層與中間層、目標與非目標) ![image](https://hackmd.io/_uploads/B1H18D3Eye.png) - 黑箱：攻擊者一無所知 - 白箱：攻擊者對模型完全了解，包含架構、參數、梯度納入2種範數(量化擾動，限制為無法察覺的微小像素徧移，讓肉眼無法分辨) L2 norm，測量向量的歐幾里得距離，限制擾動的==總能量強度== L∞ norm，測量向量中最大絕對值的元素，限制擾動==最大變化幅度== - 在線：本文提出在線優化策略，在跨幀的遷移性時說明 - 離線：只需一次前向傳播生成對抗性擾動 - 決策層與中間層攻擊：下面公式說明 - 目標：讓預測結果變成特定錯誤目標 - 非目標：只要有任何錯誤預測就行 [RELATED WORK問題](#anchor3) --- ## METHODOLOGY 方法論 ### A. Decision-Level Adversarial Attack 決策層對抗攻擊 #### (公式1) 典型的Siamese網路的目標函數在公式1中 Siamese 模式的目標函數為 $L_{nor} = L_{c}(y_{c}^{gt},f(x,\theta)) + \lambda \cdot L_{r}(y_{r}^{gt},f(x,\theta))$ $L_{c}$ 是==交叉熵損失==，用於分類頭的損失計算。 $L_{r}$ 是==L1 損失==，用於迴歸頭的損失計算。 $f(·)$ 表示追蹤網絡，而==輸出就是模型的預測值==。 $x$ 表示輸入的圖像。 $\theta$ 是追蹤網絡的參數。 $\lambda$ 是控制兩個損失項之間權重的超參數。 $y_{c}^{gt}$ 和 $y_{r}^{gt}$ 分別是分類和迴歸的真實標籤（ground truth）。 Siamese網路的目標函數包含兩個損失函數，分別為交叉熵，用來判斷分類頭的輸出損失，L1 損失，用來判斷迴歸頭的損失。損失函數具體的操作是，比對分類或迴歸的真實標籤，與輸入圖像x到追蹤網路f(.)中的差異。分類頭的目標是判斷追蹤框是否包含要追蹤的目標，二分類迴歸頭的目標是精準預測物體的邊界框，誤差衡量 $\lambda$ 是一個超參數(權重參數)，端看你預測想徧重分類或迴歸的權重。 --- #### (公式2) 決策層的對抗目標函數 \begin{equation} \mathrm{L}_{\mathrm{adv}}^{\mathrm{dec}} = \left[\mathrm{L}_{\mathrm{c}}\left(y_c^{a d v}, \mathrm{f}(x, \theta)\right) - \mathrm{L}_{\mathrm{c}}\left(y_c^{g t}, \mathrm{f}(x, \theta)\right)\right] + \lambda \cdot \left[\mathrm{L}_{\mathrm{r}}\left(y_r^{a d v}, \mathrm{f}(x, \theta)\right) - \mathrm{L}_{\mathrm{r}}\left(y_r^{g t}, \mathrm{f}(x, \theta)\right)\right] \end{equation} $L_{c}$ 是==交叉熵損失==，用於分類頭的損失計算。 $L_{r}$ 是==L1 損失==，用於迴歸頭的損失計算。 $f(·)$ 表示追蹤網絡。 $x$ 表示輸入的圖像。 $\theta$ 是追蹤網絡的參數。 $\lambda$ 是控制兩個損失項之間權重的超參數。 $y_{c}^{gt}$ 和 $y_{r}^{gt}$ 分別是分類和迴歸的真實標籤（ground truth）。 - 對抗標籤$y_c^{adv}$是把真實標籤$y_{c}^{gt}$反轉，即將前景設為背景。 - 對抗標籤$y_r^{adv}$是加入噪聲徧移，從定位和縮放估計角度干擾邊界框迴歸計算。效果是當 $\mathrm{L}_{\mathrm{adv}}^{\mathrm{dec}}$ 最大化(即對抗標籤損失最大，模型判斷錯誤)，對抗攻擊有效果，將模糊目標與背景的區別，挑戰網路分這兩類的能力。總結 - 對抗標籤的損失越大，代表模型對對抗樣本的預測越錯誤，這正是攻擊者的目標。 - 真實標籤的損失越小，代表模型在自然樣本上的預測依然準確。 - 對抗攻擊的目標是最大化對抗標籤的損失，而不是最小化它，這樣可以破壞模型對對抗樣本的預測。參考 ==圖 2.==（a） ### B. Intermediate-Level Adversarial Attack 中間層對抗攻擊 #### (公式3) 自然樣本與對抗樣本在池化層中的特徵分佈對比分析自然圖像與對抗圖像的中間特徵分佈。 \begin{equation} C = \operatorname{GAP}\left(\mathrm{f}_{\mathrm{i}}(x, \theta)\right) \end{equation} \begin{equation} C_{\mathrm{adv}} = \operatorname{GAP}\left(\mathrm{f}_{\mathrm{i}}(x + \delta, \theta)\right) \end{equation} $\delta^{dec}$ 公式2優化來的對抗擾動。 $x + \delta$ 對抗樣本。 $f_i(x, \theta)$ 自然圖像在第 i 層的中間特徵圖。 $f_i(x + \delta, \theta)$ 對抗圖像在第 i 層的中間特徵圖。 GAP(·) 表示全局平均池化操作。神經網路池化處理，是取特徵圖每個通道平均值，特徵圖壓縮及簡化，保留最重要信息。公式3最主要是說明，對抗樣本會干擾模型，定義了普通樣本(自然樣本) 及對抗樣本圖像在「池化層」GAP(·)的操作後的激活對比。對抗樣本的特徵分佈會因為擾動而不同於自然樣本，這可能會導致模型做出錯誤的預測。 --- #### (公式4) 基於 MSE 最大化的對抗擾動損失函數 \begin{equation} \mathrm{L}_{\mathrm{adv}}^{\mathrm{mse}} = \arg \min_\delta - \operatorname{MSE}\left(\mathrm{f}_{\mathrm{i}}(x, \theta), \mathrm{f}_{\mathrm{i}}(x + \delta, \theta)\right) \end{equation} 要先了解MSE mean squared error (MSE) 均方誤差模型預測值與實際值的誤差，先平方再求和，再取平均在此處用來衡量「自然樣本」「對抗樣本」在網路第$i$層特徵差異 $\mathrm{L}_\mathrm{adv}^\mathrm{mse}$ 對抗擾動 $\delta$ 的一種損失函數 $\arg \underset{\delta}{\min}$ 是一個優化符號，意思是找到「目標函數」最小化的 $\delta$ 值公式4說明讓-MSE最小化，即MSE最大化 (損失函數設計常以最小化為目標，有利於現有優化算法，如梯度下降) --- #### (公式5) 基於平均值最大化的對抗擾動損失函數 \begin{equation} \mathrm{L}_{\mathrm{adv}}^{\text{mean}} = \arg \min_\delta \left(\operatorname{Mean}(C) - \operatorname{Mean}\left({C}_{\mathrm{adv}}\right)\right) \end{equation} $\mathrm{L}_\mathrm{adv}^\mathrm{mean}$ 對抗擾動 $\delta$ 的一種損失函數 $\arg \underset{\delta}{\min}$ 是一個優化符號，意思是找到「目標函數」最小化的 $\delta$ 值 $C$ 表示「自然樣本」經過全局平均池化後的特徵分佈（即自然樣本特徵均值）。 $C_{\mathrm{adv}}$ 表示「對抗樣本」經過全局平均池化後的特徵分佈（即對抗樣本特徵均值）。公式5說明找到一個擾動$\delta$最小化，讓「自然樣本」「對抗樣本」的特徵圖經全局平均池化GAP(·)的特徵均值最大差異的操作。 --- #### (公式6) 基於變異數最大化的對抗擾動損失函數 \begin{equation} \mathrm{L}_{\mathrm{adv}}^{\mathrm{var}} = \arg \min_\delta \frac{\operatorname{Var}(C)}{\operatorname{Var}\left(C_{\mathrm{adv}}\right)} \end{equation} $C$ 表示自然樣本經過全局平均池化後的特徵分佈（即自然樣本特徵均值）。 $C_{\mathrm{adv}}$ 表示對抗樣本經過全局平均池化後的特徵分佈（即對抗樣本特徵均值）。 $\operatorname{Var}(C)$ 是自然樣本特徵的變異數，表示自然樣本特徵值在不同通道的變異性。 $\operatorname{Var}(C_{\mathrm{adv}})$ 是對抗樣本特徵的變異數，表示對抗樣本特徵在不同通道的變異性。 variance 變異數，數據點與平均值的差值平方，然後取這些平方值的平均數。變異數損失函數是用來評估模型預測結果的波動性(穩定性)。公式6說明找到一個擾動$\delta$最小化，讓「對抗樣本」的特徵「變異數」最大化的操作，增加波動性干擾模型。 --- #### (公式7)基於激活通道差異最大化的對抗擾動損失函數 \begin{equation} \mathrm{L}_{\mathrm{adv}}^{\mathrm{act}} = \arg \min_\delta - \sum_k \left| C_{\mathrm{adv}}^k - C^k \right| \end{equation} \begin{equation} \text{s.t.} \left(C_{\mathrm{adv}}^k > \operatorname{Mean}(C_{\mathrm{adv}}) \text{ and } C^k < \operatorname{Mean}(C)\right) \text{ or } \left(C_{\mathrm{adv}}^k < \operatorname{Mean}(C_{\mathrm{adv}}) \text{ and } C^k > \operatorname{Mean}(C)\right) \end{equation} $C_{\mathrm{adv}}^k$ 和 $C^k$：對抗樣本和自然樣本在第 $k$ 個通道上的激活值，表示經過激活函數處理後的樣本反應強度。 $\operatorname{Mean}(C_{\mathrm{adv}})$ 和 $\operatorname{Mean}(C)$：對抗樣本和自然樣本經過全局平均池化處理後的整體激活均值。公式 7 說明的是：在滿足條件下，對抗樣本和自然樣本在激活通道上呈現出極度相反的變化，通過最大化這兩者的激活通道差異來擾亂模型預測。 --- ==圖 2.== 五種對抗攻擊前後，==中間通道特徵的激活分佈==情況 ![image](https://hackmd.io/_uploads/SkRDuwn4kx.png) (a)$\mathrm{L}_{\mathrm{adv}}^{\mathrm{dec}}$ 決策層的對抗攻擊 (b)$L_{\mathrm{adv}}^{\mathrm{mse}}$ 基於 MSE 最大化的對抗攻擊 \(c)$L_{\mathrm{adv}}^{\text{mean}}$ 基於平均值最大化的對抗攻擊 (d)$\mathrm{L}_{\mathrm{adv}}^{\mathrm{var}}$ 基於變異數最大化的對抗攻擊 (e)$\mathrm{L}_{\mathrm{adv}}^{\mathrm{act}}$ 基於激活通道差異最大化的對抗攻擊顯示攻擊後的效果，對抗樣本（即被攻擊的圖像）的特徵激活與自然樣本有很大的不同，追蹤器效能降低(藍線表示對抗性特徵的分佈，而橙線則代表自然特徵的分佈)。 - x軸和y軸: - x軸代表特徵通道的激活值 - y軸代表該激活值出現的頻率或密度 - 激活分佈: 這些分佈確實是經過全局平均池化(GAP)後產生的公式(3)中定義了$C$和$C_{adv}$: $C$ = $GAP(f_i(x, θ))$ $C_{adv}$ = $GAP(f_i(x + δ, θ))$ - 分佈中的每個點: - 每個點代表GAP後每個通道的均值 - 具體來說,每個點對應一個特徵通道在整個特徵圖上的平均激活值 - 藍色和橙色曲線: - 藍色曲線代表對抗樣本的特徵分佈 - 橙色曲線代表自然樣本的特徵分佈這種可視化方法允許我們直觀地比較自然樣本和對抗樣本在特徵空間中的分佈差異,從而理解不同攻擊方法對特徵的影響。 ### C. A Joint Attack Algorithm 聯合攻擊算法將決策層與中間層攻擊融合，打破決策邊界，尋找更有效對抗樣本 #### (公式8)融合多種對抗攻擊的損失函數 \begin{equation} \mathrm{L}_{\mathrm{adv}}^{\text{fuse}} = \alpha \bullet \mathrm{L}_{\mathrm{adv}} \end{equation} α = [$\alpha^{mse}$, $\alpha^{mean}$, $\alpha^{var}$, $\alpha^{act}$, $\alpha^{dec}$] 是一個權重平衡超參數的向量 $\mathrm{L}_\mathrm{adv}$ = $[L_{\mathrm{adv}}^{\mathrm{mse}}$, $L_{\mathrm{adv}}^{\text{mean}}$, $\mathrm{L}_{\mathrm{adv}}^{\mathrm{var}}$, $\mathrm{L}_{\mathrm{adv}}^{\mathrm{act}}$, $\mathrm{L}_{\mathrm{adv}}^{\mathrm{dec}}]^\mathrm{T}$ 轉置成列向量做運算 --- ==圖 3.== 顯示本文提出的==PlugAtt流程圖== ![image](https://hackmd.io/_uploads/rJLsIxTEJx.png) - 藍色和深色代表正向和反向傳播過程 - 實線是必要操作，虛線是可選項目 - 引入中間層攻擊在特徵空間進行，決策層攻擊可協同工作 ==什麼是特徵空間?== --- #### (公式9)根據損失函數梯度生成對抗擾動 \begin{equation} \delta = \beta \cdot \operatorname{sign}\left(\frac{\partial \mathrm{L}_{\mathrm{adv}}^{\text{fuse}}}{\partial x}\right) \end{equation} $\delta$ 是生成的對抗擾動，添加到圖像的小變化擾亂模型 $\beta = \frac{\epsilon}{M}$ 學習步長 $M$ 迭代次數 $\epsilon$ 對抗擾動的最大範圍 $\frac{\partial \mathrm{L}_{\mathrm{adv}}^{\text{fuse}}}{\partial x}$ 對輸入圖像 $x$ 求導數，表示融合對抗攻擊的損失函數 $\mathrm{L}_{\mathrm{adv}}^{\text{fuse}}$ 的變化量，隨著輸入圖像 $x$ 的變化而改變的程度。 $\operatorname{sign}$ 符號函數將梯度的方向取正負號，確保擾動的每個像素都是在特定方向上以最大化損失函數的方式進行變動。公式9的目的是找到圖像中哪部分對損失函數的變化影響最大，從而針對這些部分進行對抗擾動的優化。 --- ==什麼是符號函數?== 只會看一個數是正的就輸出1，負的就輸出-1，對擾動攻擊的方向很重要  --- #### (公式10)確保像素值在範圍內 \begin{equation} x_{m+1}=\operatorname{Clip}\left(x_m+\delta_m, 0,255\right), \end{equation} $x_m$：第 $m$ 次迭代中經對抗擾動後的圖像 $x$。 $\delta_m$：第 $m$ 次迭代中生成的對抗擾動。 $x_{m+1}$：用 $x_m$ 加上 $\delta_m$ 對抗擾動生成新的圖像。 $\operatorname{Clip}( \cdot, 0, 255)$：裁剪操作，把圖像像素值限制在0 到 255 的範圍內。 --- #### (公式11)視頻中連續兩幀的對抗攻擊初始化 \begin{equation} x_0^{t+1}=x^{t+1}+\delta_M^t, \end{equation} $x^{t+1}$：原始圖像$x$來自視頻中的$t$+1幀。 $\delta_M^t$：上一幀$t$學習到的對抗擾動，經過$M$次迭代後產生。 $x_0^{t+1}$：第$t$+1幀的對抗樣本的初始化，使用上一幀對抗擾動初始化產生。公式11目的避免每幀從頭開始訓練，加速收斂過程。 [METHODOLOGY問題](#anchor4) --- ## 實驗 EXPERIMENTS ### A. Implementation Details 實施細節 - PlugAtt 部署在配有 Silver 4210R CPU 和 RTX-3090 GPU 卡的 PC 上 - $\epsilon$ 最大擾動範圍設定為10 - 攻擊每30幀的第1張圖片，迭代次數M=10，剩下29幀M=5 - 公式(2)決策層攻擊$\lambda$=5 - 公式(8)的平衡權重分別設置 $\alpha^{mse}$ = 44.45、$\alpha^{mean}$ = 22.22、$\alpha^{var}$ = 2.13、$\alpha^{act}$ = 22.22 和 $\alpha^{dec}$ = 0.02 追蹤器使用 - DaSiamRPN 的 AlexNet - PrDiMP 的 ResNet50 - SimTrack (受害者追蹤器的網路參數以及超參數設置在攻擊期間保持不變。) 使用四個流行數據集 - OTB100(包含 100 段影片，先進追蹤器在此數據集已取得出色性能，可做綜合基準) - UAV123(包含 123 段無人機攝影鏡頭收集影片，平均序列長度915幀) - LaSOT(包含 280 段測試影片，平均序列長度超過2500幀) - TLP(包含 50 段影片，平均長度13529幀，視為長期基準) 傳統評估指標成功率(SUC)表示成功幀比例，閾值範圍0-1 預測邊過框與真實值之間的IoU超過0.5，表示追蹤成功。精度率(PRE)計算目標中心位置與預測間小於20像素的幀比例。 ### B. Ablation Studies 消融實驗 ==表 II== 在 OTB100 資料集上分析使用相同追蹤器 DaSiamRPN 在==中間層攻擊==、==決策層攻擊==及其==融合版本==的效果。 ![image](https://hackmd.io/_uploads/BywM8DnE1e.png) - 原始和隨機噪聲代表 DaSiamRPN 的原始性能 - 加入隨機噪聲與融合攻擊做比較： - $\mathrm{L}_\mathrm{adv}^\mathrm{mse+}$、$\mathrm{L}_\mathrm{adv}^\mathrm{var+}$、$\mathrm{L}_\mathrm{adv}^\mathrm{mean+}$ 和 $\mathrm{L}_\mathrm{adv}^\mathrm{act+}$ 表示將==單一中間層攻擊==與 ==$\mathrm{L}_\mathrm{adv}^\mathrm{dec}$== 融合的結果。 - $\mathrm{L}_\mathrm{adv}^\mathrm{fuse−}$ 代表==四種中間層攻擊的融合== - $\mathrm{L}_\mathrm{adv}^\mathrm{fuse}$ 則是將==所有==中階層和決策層==攻擊融合==的結果。 ==表 II== 結論： - 攻擊比隨機噪聲擾動造成追蹤器性能更大下降 - 融合不同類型對抗目標函數，SUC和PRE指標性能下降最多 - 決策層攻擊混淆前景與背景語義 - $\mathrm{L}_\mathrm{adv}^\mathrm{dec}$ 和 $\mathrm{L}_\mathrm{adv}^\mathrm{mse}$ 從空間角度搜尋對抗擾動 - $\mathrm{L}_\mathrm{adv}^\mathrm{var}$、$\mathrm{L}_\mathrm{adv}^\mathrm{mean}$ 和 $\mathrm{L}_\mathrm{adv}^\mathrm{act}$ 則專注於干擾通道激活的分佈 --- ==圖 4.== 在 OTB100 資料集上分析 3種追蹤器使用相同攻擊策略($\mathrm{L}_\mathrm{adv}^\mathrm{mse}$)在各層次攻擊效果 ![image](https://hackmd.io/_uploads/H1zaOP34kx.png) - Siamese網路類型：DaSiamRPN(AlexNet)，淺層的攻擊效果較差，後面層效果更明顯。 - DCF類型：PrDiMP(ResNet50)，第三階段的攻擊最有效。 - TransFormer類型：SimTrack(CLIP)，在中後層效果最好。結論：攻擊發生在越深層的特徵提取層，對追蹤器的準確性影響越大，導致性能下降越快。 --- #### 跨幀的遷移性： ==圖 5.== ==量化分析==：五種對抗攻擊==跨幀的遷移性效果==(驗證公式 11) ![image](https://hackmd.io/_uploads/BkTyKvhVJe.png) 損失收斂：模型訓練過程，隨迭代次數增加，損失函數值逐漸減少趨向穩定，最終到達最小值。 x軸，迭代次數。 y軸，損失函數值結論： (a) $\mathrm{L}_{\mathrm{adv}}^{\mathrm{dec}}$ 沒有達到預期效果，決策層攻擊在單幀有效，連續幀時「對抗擾動」對場景變化敏感，效果不穩定。 (b)$\mathrm{L}_{\mathrm{adv}}^{\mathrm{mse}}$ 顯示了較好的跨幀遷移性，損失值隨迭代次數增加而平穩下降。 \(C)$\mathrm{L}_{\mathrm{adv}}^{\mathrm{var}}$ 、(d)$\mathrm{L}_{\mathrm{adv}}^{\mathrm{mean}}$ 、(e)$\mathrm{L}_{\mathrm{adv}}^{\mathrm{act}}$ ，中間層特徵通道捕捉場景的語義內容，不會在短時間劇烈改變，所以損失行為較平滑。 --- #### 質化評估： ==圖 6.== ==質化評估==：使用不同攻擊策略的對抗攻擊圖像樣本 (DaSiamRPN) ![圖6](https://hackmd.io/_uploads/ByLC9P24Jx.png) - 視覺化內容「第1欄-對抗性圖像」「第2欄-擾動」和「第3欄-回應圖」。 - 肉眼很難分辨圖像是否受攻擊及採用方法。 - 隨機擾動(a)的第3欄回應圖可以視為基準(即隨機擾動不足以對模型判斷造成錯誤決策)。 - 兩種欺騙追蹤器的方式 - 提高背景分數接近目標信心度，如圖(b) $\mathrm{L}_{\mathrm{adv}}^{\mathrm{dec}}$、==(e) $\mathrm{L}_{\mathrm{adv}}^{\mathrm{mean}}$== - 降低前景檢測信心削弱區分能力，如圖\(c) $\mathrm{L}_{\mathrm{adv}}^{\mathrm{mse}}$、(d) $\mathrm{L}_{\mathrm{adv}}^{\mathrm{var}}$、(f) $\mathrm{L}_{\mathrm{adv}}^{\mathrm{act}}$ - Top score 表示追蹤器對目標物體的預測信心 --- ==圖 7.== 使用相同攻擊策略($L_{\text{adv}}^{\text{var}}$) 對於不同追蹤器的影響 ![image](https://hackmd.io/_uploads/Bkc64M6VJl.png) - DaSiamRPN: 定位基本正確，但出現多餘錨點 - PrDiMP: 無法檢測到目標，信心分數極低。 - SimTrack: 誤導追蹤器去追蹤干擾物。結論： 1. 相同攻擊方法在不同追蹤器上的效果差異顯著。 2. 不同追蹤器有獨特弱點。 3. 觀察結果可做為未來研究方向。 --- ==表 III== DaSiamRPN在不同類型攻擊的回應圖統計分析 ![image](https://hackmd.io/_uploads/H1H0Rk6Vkg.png) - 觀察回應圖的均值和變異數，得知不同攻擊方法會產生不同的影響。 - 攻擊方式的均值與變異數: - 決策層攻擊($\mathrm{L}_{\mathrm{adv}}^{\mathrm{dec}}$): 均值和變異數==非常高== - 對照基準為隨機噪聲: 均值和變異數居中 - 中間層攻擊($\mathrm{L}_{\mathrm{adv}}^{\mathrm{mse}}$、$\mathrm{L}_{\mathrm{adv}}^{\mathrm{var}}$和$\mathrm{L}_{\mathrm{adv}}^{\mathrm{act}}$): 均值和變異數==非常低== - ==$\mathrm{L}_{\mathrm{adv}}^{\mathrm{mean}}$==均值和變異數比隨機噪聲稍低 - 差異反映了不同攻擊策略對追蹤器的影響方式: - 高均值和高變異數=>大部分區域高置信度,但難以區分目標和背景。 - 低均值和低變異數=>整個圖像置信度都很低，無法定位目標。 - 統計數據顯示不同攻擊策略具獨特欺騙追蹤器的方式，可做為改良對抗攻擊之參考。 ==想像追蹤器是一個尋寶者，而回應圖就是他的寶藏地圖。== ==表 III== 的均值就像是地圖上的==整體亮度==。高均值意味著地圖上到處都閃亮亮的，尋寶者會覺得”哇，寶藏可能在任何地方!”。低均值則像是一張昏暗的地圖，尋寶者會想”這裡好像沒什麼特別的啊”。變異數則像是地圖上明暗的對比度。高變異數就像有明顯的亮點，尋寶者會想”那個特別亮的地方一定有寶藏!”。低變異數則像是一張均勻的地圖，尋寶者會覺得”這地圖上所有地方看起來都差不多”。對抗攻擊就是要讓這張地圖變得難以閱讀。有的攻擊($\mathrm{L}_{\mathrm{adv}}^{\mathrm{dec}}$)會讓地圖變得特別亮,但對比度仍高。有的攻擊($\mathrm{L}_{\mathrm{adv}}^{\mathrm{mse}}$、$\mathrm{L}_{\mathrm{adv}}^{\mathrm{var}}$、$\mathrm{L}_{\mathrm{adv}}^{\mathrm{act}}$)則會讓地圖變得又暗又模糊。而$\mathrm{L}_{\mathrm{adv}}^{\mathrm{mean}}$看此處的均值與變異數並不明顯，要參考圖 6的回應圖。就如同我們需要考慮整個”寶藏地圖”(回應圖)的可讀性，以及尋寶者(追蹤器)最終能否找到寶藏(目標)。 ### C. Benchmark Performance 基準測試表現 ==表 IV== PlugAtt對==不同追蹤範式==在3個資料集下的攻擊效果 ![image](https://hackmd.io/_uploads/BkqTegT4ye.png) 1. 測試對象: • DaSiamRPN (Siamese範式) • PrDiMP (DCF範式) • SimTrack (TransFormer範式) 2. 主要發現: • 所有中間層級攻擊方法都能有效干擾不同範式追蹤器 • 不同攻擊方法對不同追蹤器的效果各異: • $\mathrm{L}_{\mathrm{adv}}^{\mathrm{act}}$: 對DaSiamRPN最有效 • $\mathrm{L}_{\mathrm{adv}}^{\mathrm{mse}}$: 對PrDiMP影響最大 • $\mathrm{L}_{\mathrm{adv}}^{\mathrm{mean}}$: 對SimTrack最有效 • 融合多種攻擊方法能在各種範式上產生穩定有效的擾動 • 攻擊骨幹特徵比攻擊IoU-Net更有效 • 更大的模型容量(higher model capacity)不一定有更好的對抗性的魯棒性(adversarial robustness) 3. 結論: • PlugAtt在不同追蹤範式上都表現出色 • 融合攻擊方法可提高整體效能 --- ==表 V== PlugAtt對==長期追蹤器GlobalTrack==的效果 ![image](https://hackmd.io/_uploads/rJ4g-epV1l.png) 1. 短期vs長期追蹤的區別:序列長度：長期(分鐘級) vs 短期(秒級) 2. 挑戰：長期面臨更多挑戰,如目標消失和重新出現 3. 長期追蹤的兩種範式： - 局部-全局切換範式：結合局部短期追蹤器和全局檢測器 - 全局追蹤範式：逐幀在整個圖像中檢測目標 4. PlugAtt對GlobalTrack進行融合攻擊：攻擊效果(TLP數據集)SUC和PRE指標下降約75% 5. 局限性：對於「局部-全局切換範式」的追蹤器難完美適應 6. 未來研究方向: - 改進對局部-全局切換範式追蹤器的攻擊 - 提高攻擊方法的計算效率 ### D. Comparison With the State-of-the-Art 與最先進技術的比較 ==表 VI== PlugAtt與==最先進攻擊方法==的比較 ![image](https://hackmd.io/_uploads/HyszZgpN1x.png) 1. 比較對象: • SiamRPN++追蹤器: 與UEN、CSA、One-shot、ABA、TTP等方法比較 • DaSiamRPN追蹤器: 與RTAA方法比較 2. 評估指標: • 成功率(SUC) • 精確度(PRE) 3. 結果: • PlugAtt在三個數據集(OTB100、UAV123、LaSOT)，兩種追蹤器攻擊效果都優於其他方法 4. 結論: • PlugAtt與其他最先進攻擊方法比較，有最佳攻擊效果 • PlugAtt將SUC和PRE指標都降低到不到10%,受害追蹤器已失去基本功能 • 與RTAA的比較顯示了PlugAtt在中間層級和決策層級攻擊聯合優化的優勢 --- 先進攻擊技術 UEN (Universal Adversarial Examples Network): - 一種通用對抗樣本生成網絡 - 可以生成適用於多個目標的對抗樣本 CSA (Cooling-Shrinking Attack): - 通過"冷卻"和"收縮"響應圖來攻擊追蹤器 - 降低目標區域的響應,同時縮小邊界框 One-shot Attack: - 只攻擊視頻的第一幀 - 利用模板攻擊來影響後續幀的追蹤 ABA (Adversarial Blur Attack): - 通過添加模擬運動模糊來攻擊追蹤器 - 生成「看起來自然模糊」的對抗樣本 RTAA (Robust Tracking against Adversarial Attacks): - 針對Siamese網絡的實時對抗攻擊方法 - 同時攻擊分類和回歸分支 ### E. Failure Cases and Analysis 失敗案例與分析 ==圖 8.== PlugAtt攻擊==失敗案例==分析(DaSiamRPN) ![image](https://hackmd.io/_uploads/H1AH-gpV1x.png) 綠色框：乾淨影像(未受攻擊)上的追蹤結果黃色框：對抗影像(受攻擊)上的追蹤結果前兩列：攻擊失敗案例，追蹤器未被干擾。第三列：追蹤器被攻擊，無法正確預測目標位置。第四列：損失收斂過程，顯示出挑戰性情境下攻擊收斂效果更好。觀察結果： • 簡單追蹤情境，較難成功攻擊，追蹤器仍能定位目標 • 具挑戰性情境，例如運動模糊、尺度變化和背景雜訊、目標部分被遮擋，攻擊效果較顯著。損失收斂分析： • 簡單情境:收斂較慢、幅度較小 • 挑戰性情境:收斂較快、幅度較大結論： 1. 攻擊難度與情境複雜度相關 2. 簡單追蹤情境中攻擊更容易失敗 3. 挑戰性情境為對抗擾動提供更多潛在空間 [EXPERIMENTS問題](#anchor5) ## 結論 CONCLUSION 1. 不同追蹤範式損失函數、輸出形式多樣性，無簡單通用決策層對抗攻擊 2. 提出可插拔對中間層特徵提取發動攻擊 3. 方法為放大自然樣本與對抗樣本的特徵分佈差異 4. 與決策層攻擊兼容且效果更好 5. 跨幀對抗性擾動遷移性，可運用在視頻 6. 在Siamese網路、DCF、Transformer追蹤器，以及與先進攻擊方法比較，證明PlugAtt方法的有效性和可插拔性  --- --- # 補充知識 ## 詞彙表先把項目名稱抓出來 - adversarial attacks 對抗性攻擊 /ˌæd.vɚˈser.i.əl/ - visual tracker 視覺追蹤器 /ˈvɪʒ.u.əl/ - loss function 損失函數 - ==classification loss 分類損失== 衡量模型在分類任務的錯誤程度，常見的損失函數是「交叉熵」（cross entropy），它專門用來處理分類問題。 - ==regression loss 回歸損失== 論文中提及目標位置預測時會提到衡量模型在預測數值例如位置或數字的錯誤程度，與分類不同是連續數值預測，損失函數常用==均方誤差(MSE)== - ==cross entropy 交叉熵== /ˈen.trə.pi/ 分類損失的計算用常見的損失函數，用來衡量模型在分類問題的預測錯誤會計算模型預測分佈和真實答案分佈之間的差異差異越大，交叉熵值越大，表示模型預測有誤 - ==groundtruth 真實標籤== 模型預測或測試時提到在模型訓練或測試過程，給定正確答案，例如圖片是貓或狗 - bounding box 邊界框 - feature map 特徵圖深度學習模型的卷積層部分會提到圖像通過神經網路卷積層，模型會提取一系列特徵，可能是邊緣顏色紋理特徵圖就是提取出來的特徵組成的一個數值矩陣特徵圖是模型用來描述圖像重要信息的中間結果，包含圖像的關鍵特徵 - neural network 神經網絡 /ˈnʊr.əl/ - model parameters 模型參數 - adversarial perturbation 對抗擾動對抗擾動是對圖像或數據進行的微小變化，人眼無法察覺，會讓模型產生重大錯誤。擾動被精心設計，用來欺騙模型，使其在做出預測時犯錯。 - gradient [梯度](/eezXoKHKRqm20LgXswTw1Q) /ˈɡreɪ.di.ənt/ 模型優化和反向傳播提到衡量函數在某一點上的變化速率和方向在機器學習中梯度告訴我們如果改變模型的某些參數，損失會變更大或更小梯度方向決定要如何調整模型參數，讓「損失函數最小化」 - sign function 符號函數計算擾動方向時出現只會看一個數是正的就輸出1，負的就輸出-1，對擾動攻擊的方向很重要 - learning rate 學習率模型訓練過程中出現決定模型每次在更新參數時要走多大步，如果學習率太高，模型可能會跳過最好的解答，如果學習率太低，訓練速度會非常慢，最糟可能永遠無法找到最佳解。 - iteration 迭代 - pixel value 像素值 - - ==global average pooling (GAP) 全局平均池化== 特徵圖處理用，在神經網路的一種數學操作把每個特徵圖的所有數值取平均，得到單一數值，可壓縮數據，減少模型計算量，簡化數據方便模型處理 - ==mean squared error (MSE) 均方誤差== 損失函數計算誤差用常見的損失函數，衡量模型預測數值與真實值的誤差計算每一個預測值與真實值的差異，把這些差異的平方求和，再取平均值 (歐幾里得距離是==兩點的直線距離==，要開根號，是講兩個點有多遠) 均方誤差MSE不用開根號，是講每個預測點與實際值的平均誤差 ![image](https://hackmd.io/_uploads/Bkds7JfVyl.png) [L1正則化 L2正則化](/b5HmMmotQJGQpJNIJqQcJQ) 相關議題 L2正則化 L1正則化，超參數乘以每個權重的「絕對值」總和，作用是強迫一些權重變0，去除不重要的特微 - mean 平均值特徵圖和損失計算用平均值是數學最常見的運算之一，機器學習常要把計算特徵的平均值進行比較 - ==variance 變異數(方差)== /ˈver.i.əns/ 特徵圖差異量測用變異數是衡量數據離散程度的工具，變異數越大，數據點差異越大越分散，越小則數據越接近平均值越集中。數據點與平均值的差值平方，然後取這些平方值的平均數。 - ==standard deviation 標準差== /ˌdiː.viˈeɪ.ʃən/ 變異數計算、特徵分佈處理用標準差是變異數的方平根同樣用來衡量數據的分散程度，但因為它是變異數的平方根，所以單位與原始數據一致，這使得它更容易理解和應用。用來衡量數據分佈變化的指標標準差越大，數據波動越大，標準差越小，數據越集中機器學習中，標準差可衡量模型穩定性和對數據敏感程度衡量數據分佈範圍，表示數據徧離平均值的程度在機器學習中，標準差和變異數可以幫助我們了解數據的變異性和穩定性： - 數據分佈：標準差和變異數可以告訴我們數據是否集中在平均值附近，還是分佈較為分散。 - 異常值檢測：高標準差可能意味著數據中存在異常值或極端值。 - 模型評估：在評估模型性能時，標準差可以用來衡量模型預測結果的穩定性。 - activation 激活 /ˌæk.təˈveɪ.ʃən/ 神經網路層用神經網路術語，指把某層輸出數值傳到下一層的過程激活函數用來引入非線性，讓模型學習更複雜模式和特徵 - weighted average 加權平均 /ˈweɪ.t̬ɪd/ 特徵融合、損失計算會用不同數字被賦予不同重要性(權重) 加權平均是計算平均對不同數字給不同權重的平均方式，使某些數字對結果影響更大。特別是需要強調某些數據的重要性時。 - partial derivative 偏導數 /ˈpɑːr.ʃəl/ /dɪˈrɪv.ə.t̬ɪv/ 梯度計算、優化過程用微積分概念，用來計算模型每個參數對損失函數影響，是訓練模型不可缺的步驟，例如模型有多個參數，想知道某參數改變時，損失函數如何變化就會用到對機器學習非常重要。 - clip operation 裁剪操作對抗攻擊、圖像處理用裁剪是一種數學運算，把某些數值限定在範圍內，例如對圖像進行裁剪限制每個像素都在0-255範圍內，對防止數據超出有效範圍或極端值影響有用 - constraint 約束條件 /kənˈstreɪnt/ 模型優化、對抗攻擊設計用某些數學問題，對解的範圍會有條件限制機器學習中，條件可以限制模型的參數變化範圍，讓模型強制遵守規則通常在訓練過程應用，防止過擬合，保證模型穩定 - initial value 初始值 - ==convergence 收斂== /kənˈvɝː.dʒəns/ - linear programming 線性規劃優化問題用線性規劃是數學方法，目的在約束條件下，找到一組數值使線性目標函數達到最大或最小值廣泛運用在各領域，機器學習中也可以求解一些優化問題 - outlier 離群值處理數據、訓練模型用數據中與其他數據差異很大的數值，常被視為異常可能是數值錯誤或極端狀況引起，會干擾模型學習過程需要進行處理 - noise 噪聲對抗攻擊、數據處理用數據隨機干擾或不必要的變化，會對模型預測干擾，對抗攻擊中的擾動是一種人工添加的噪聲，目的讓模型產生錯誤預測 - feature extraction 特徵提取圖像處理、模型訓練用把原始數據(圖像、音頻等)轉換為幫助模型理解的數值特徵過程例如以圖像來說，特徵提取可能有「提取邊緣」「顏色分佈」「形狀」等信息讓模型更好理解和處理數據 - model architecture 模型架構 /ˈɑːr.kə.tek.tʃɚ/ - backpropagation 反向傳播 /ˌprɑː.pəˈɡeɪ.ʃən/ 神經網路訓練過程用神經網路訓練的一種方法，目的通過計算損失函數對各參數的梯度反向更新每個參數，這樣模型可逐步調整自己的權重，最小化損失函數達到較差預測效果在神經網絡中用來調整模型參數，減少錯誤的過程，是神經網路學習的關鍵 - activation function 激活函數神經網路的每一層都有是一個數學函數，用來決定神經網路每一層的輸出，根據輸入決定是否激活神經元(是否要把信號傳遞到下一層)，是神經網路學習的核心部份常見的激活函數有ReLU(Rectified Linear Unit) 和 Sigmoid - optimization 優化 /ˌɑːp.tə.məˈzeɪ.ʃən/ - overfitting 過擬合模型評估、訓練過程指模型學的太精確，過度學習了數據中的細節和噪聲，導致無法泛化到新數據過擬合的狀況下，模型過於複雜，記住太多細節，失去對新數據預測能力 - regularization 正則化 /ˌreɡ.jə.lɚ.əˈzeɪ.ʃən/ 模型訓練及防止過擬合一種防止過擬合的技術，在模型損失函數加入一個額外項用來限制模型複雜度，通過正則化讓模型學習過程不會變過於複雜可提高模型在新數據的泛化能力，常見方法有 L1 L2正則化 - batch normalization 批量正則化神經網路訓練過程用，與前一項是不同技術批量正則化是一種加速神經網路訓練和穩定的技術在每次訓練中，對一個批次輸入數據進行標準化處理，讓每批次數據有相似分佈，加快訓練過程外還能提高穩定性，避免不合理波動 - target model 目標模型對抗攻擊時提到攻擊者在對抗攻擊中目標要破壞或欺騙的機器學習模型攻擊者生成對抗樣本，使模型做出錯誤預測或分類 - decision-level attacks 決策層攻擊攻擊分類提到對模型最終輸出的結果攻擊，直接改變模型預測決策而不需修改模型內部結構或中間層特徵 LOL搶尾刀?KS,Kill Steal - intermediate-level attacks 中階層攻擊 /ˌɪn.t̬ɚˈmiː.di.ət/ 攻擊方法提到對模型中間層特徵進行攻擊，通過改變模型內部層特徵，影響模型整體運作這種攻擊針對模型的特徵提取部份，更難被察覺，具更高通用性通過改變特徵干擾模型預測 LOL的游擊Poke - ==variance loss== 變異數(方差) 損失函數損失函數設計主要用來評估模型預測結果==波動性==，反映模型預測是否==穩定== 變異數損失大，表示預測結果波動大，模型越不穩定 - mean loss 均值損失函數損失函數提到預測值與真實值的差異之平均值衡量模型預測是否貼近真實值，常用於回歸任務 - mse loss 均方誤差損失函數損失函數提到常用的損失函數計算預測值與真實值兩者平方誤差有助於放大較大錯誤 - action loss 活動損失函數特定層的損失計算衡量特徵層的活動狀態，目的增強模型對抗性讓模型特徵對於對抗攻擊更有區別性，幫助模型更好應對對抗性攻擊 - fused loss 融合損失函數損失函數提到把多個不同損失函數結合在一起，同時最小化多個目標例如，分類損失和迴歸損失 - update rule 更新規則反向傳播和優化過程提到每次模型訓練中，根據算出的梯度來更新模型權重的規則常見的更新規則有「梯度下降法」「隨機梯度下降法」 - forward propagation 前向傳播神經網路計算過程用前向傳播是指神經網路中，數據從輸入層經過隱藏層一直傳到輸出層過程在過程中數據會經由每一層權重和激活函數處理，最後得到一個預測結果是神經網路進行預測的第一步 - decision-making process 決策過程模型預測和攻擊過程描述提到模型根據輸入數據作預測或分析的過程在機器學習中，包含特徵提取=>信息處理=>最終預測輸出是模型運作的核心 - machine learning [機器學習](/oe0eO765SESO_RbMJA3_7g) 論文基礎技術通過數據訓練模型，讓模型學習從數據中提取有用信息，並作決策的技術用來解決分類、回歸、聚類(無監督的學習技術，把樣本分成多個組叫群集) 有多種技術可用 - 神經網路(卷積神經網路CNN、循環神經網路RNN)，特別適用於圖像和序列數據。 - 決策樹，樹狀結構的模型，用於分類和回歸問題 - 隨機森林，多個決策樹組成的集成模型 - 支持向量機(SVM)，用於分類和回歸問題，通過找到最佳的超平面來將數據分割成不同的類別。 - K-最近鄰 (K-Nearest Neighbors, KNN)，通過計算樣本與訓練數據集中最近鄰居的距離來進行預測。 - 主成分分析 (Principal Component Analysis, PCA)，一種降維技術，用於減少數據的維度，同時保留數據的主要變異信息。 - 聚類算法 (Clustering Algorithms)，如 K-means 和 DBSCAN，用於將數據分成不同的群集。 - ==deep learning 深度學習== [深度學習](\TBo5jsj5STmpknvOlvV09A)模型提到是==機器學習==的==子領域==，用==多層神經網路==學習數據的複雜棤式可以有多層隱藏層，因此可處理圖像、語音等高維度，非結構化數據總結深度學習是一種基於多層神經網路的機器學習技術 - adversarial defense 對抗防禦防禦對抗攻擊技術提到設計技術抵抗對抗攻擊，保護模型不被騙，常見有對抗訓練、增強數據集、模型正則化是一種保護模型避免擾動影響技術 - feature extraction layer 特徵提取層神經網路架構描述中從輸入數據提取有用的特徵在圖像分類任務，這些層會提取圖像邊緣顏色等信息，傳遞給後續層處理特徵提取層通常由卷積層和池化層組成 - ==feature space 特徵空間== 特徵處理和表示由特徵集合所形成的數學空間，每一個數據點在特徵空間都對應一個位置由數據的特徵值決定，特徵空間維度取決於數據的特徵數量特徵空間越高維表示數據有越多特徵需考慮 - cross validation 交叉驗證 /ˌvæl.əˈdeɪ.ʃən/ 模型評估提到模型評估技術，把數據集分多個子集，輪流用不同子集訓練、測試，評估模型性能，泛化能力，防止過擬合通過多次劃分數據集評估模型性能 - evaluation metrics 評估指標 /ɪˌvæl.juˈeɪ.ʃən/ 模型評估提到常用準確率、精度、召回率、F1 [模型評估指標](/fVY-sSxfT5mGfQBKXCRQdw) - precision 精度 /prəˈsɪʒ.ən/ 模型評估提到評估分類模型性能指標，正確預測結果的結果中，有多少實際正確 - success rate 成功率對抗攻擊的評估提到指對抗攻擊成功欺騙模型的比例，具體就是對抗樣本讓目標模型做出錯誤預測的次數，佔總攻擊次數的比例 - feature difference 特徵差異比較對抗樣本和原始樣本用模型在處理不同數據時，輸出的特徵之間的差異當我們用對抗擾動修改數據時，特徵差異會反映對抗樣本和原始樣本在模型的不同反應，可以衡量對抗攻擊的效果。 - model robustness 模型魯棒性 /roʊˈbʌst.nəs/ 對抗攻擊、防禦技術模型的魯棒性指模型面對噪聲、對抗擾動或其他不確定因素時還能保持預測精準的能力，魯棒性好的模型不容易被騙(不容易被小的擾動或錯誤數據影響)能在多種不同條件保持穩定。魯棒性衡量模型在面對噪聲或擾動時的穩定性、抗干擾能力。 - optimization algorithm 優化算法 /ˌɑːp.tə.məˈzeɪ.ʃən/ /ˈæl.ɡə.rɪ.ðəm/ 訓練模型過程調整模型參數，從而最小化損失函數的技術常見優化算法有「梯度下降法」、「隨機梯度下降法」等提高模型預測準確性 # 問題與心得心得、分析、思考、理解、見解、推測、解答資料彙整、參考文獻、概念澄清、技術細節、背景資訊數據分析、問題延伸、相關工作、反例或批評、方法論探討實驗結果、應用場景、建議或改進方向 ## 名詞相關問題 1. 在本論文中，梯度越陡，損失函數會如何變化，論文中有提到要讓梯度如何變化，才能讓損失函數最小化嗎? :::spoiler **理解** 梯度越陡，損失函數變化「速度」更快，當梯度很陡峭，表示在這一點附近，損失函數有很大變化。對模型參數調整來說，只要調很微小的變動，損失就會顯著增加或減少。 ::: --- 2. 符號函數數值的正負方向對擾動攻擊的方向很重要，在本論文中具體來說如何呈現? :::spoiler **理解** 作用是，我們該延著梯度哪個方向改變輸入數據，最大化對模型的攻擊效果在本文中，對抗擾動的生成，依賴符號函數具體決定我們在圖片每一像素，加入多少擾動，擾動該朝正方向或負方向進行通過此函數可以決定是增加、或減少像素值，實現擾亂模型的目的 ::: --- 3. 學習率與梯度的關係是什麼，請用初學者可以明白的白話解釋。 :::spoiler **理解** ~~學習率是調整模型學習步伐大小(每一步走多遠)，學習率太小走很慢，陷入局部最小值無法改善，也影響梯度更新參數幅度，學習率太大會跳過最佳解梯度告訴我們要朝哪個方向走~~ 梯度告訴我們走哪裡學習率告訴我們走多快 ::: --- 4. 特徵圖處理，全局平均池化，這些都是片段的名詞，可以簡單說明一下深度學習的初學者要知道的所有流程嗎?要包含本論文中重要的這些名詞，例如在卷積層處理、特徵圖、全局平均池化......以便讓我可以串聯學到的名詞項目，達到理解效果 :::spoiler **背景知識** [深度學習](\TBo5jsj5STmpknvOlvV09A)的基本流程通常包括以下步驟，每個步驟都對應著論文中的某些名詞。以下是流程： 1. ==輸入==數據（Input Data）：模型接收一個==輸入數據==，比如一張==圖像==。 2. ==卷積層==（==Convolutional== Layer）：這是神經網絡中的第一層。卷積層會從圖像中==提取低級特徵==，如邊緣和顏色，這就是特徵提取。 3. ==特徵圖==（Feature Map）：卷積層會生成特徵圖，它描述了圖像中某些特徵的強度或存在與否。特徵圖是卷積層的輸出。 4. ==激活函數==（Activation Function）：每個神經元都經過激活函數處理，這一步會==強調有用的特徵==（放大它們的效果），並抑制無用的特徵。 5. ==池化層==（Pooling Layer）：池化層會進一步==簡化數據，減少數據量==。這包括像**全局平均池化（GAP）**這樣的操作，該操作會取特徵圖的平均值，將數據壓縮。 6. ==全連接層==（Fully Connected Layer）：最終，數據會經過幾層全連接層，將所有提取到的特徵轉換為模型的==最終預測==（如分類結果）。 7. ==損失函數==計算（Loss Function）：根據模型的預測與真實標籤之間的差異，計算==損失函數==，這可能是分類損失或回歸損失。 8. ==反向傳播==（Backpropagation）：根據損失函數的結果，計算每個參數對損失的影響（梯度），並根據梯度的大小和方向==更新模型參數==。 9. 優化（Optimization）：使用==優化算法==（如梯度下降法），調整模型的權重，最終使==損失最小化==。這些步驟是每個深度學習模型訓練的核心流程，論文中的名詞如特徵圖、全局平均池化、梯度、損失函數和激活函數都會在這個過程中出現。 ==如果有流程圖再補充== ::: --- 5. 均方誤差，把每個誤差平方，加起來，再取平均，不就是平均誤差的平方嗎? :::spoiler **概念澄清** 不要自己亂算，就是每個預測值和真實值的誤差，把這些誤差平方後再求平均是平方後的平均值，不是平均值的平方 ::: --- 6. variance 變異數具體是怎麼計算? :::spoiler **理解** 變異數是一種衡量數據分散程度的指標，它具體的計算步驟如下： 1. 計算平均值：首先，找到數據集中所有數字的平均值。 2. 計算==每個數據點==與==平均值==的差異：將每個數據點減去平均值，得到差異。 3. 平方差異：將每個差異的==平方==，這樣可以消除正負號的影響。 4. 取==平均==值：將所有平方後的差異加起來，然後除以數據的個數。變異數公式： ![Q6](https://hackmd.io/_uploads/HyZ5ZGpV1x.png) 其中 $X_i$是數據中的每個值，${Mean}(X)$是數據的平均值，n 是數據的個數。總結：變異數是計算數據點與平均值之間差異的平方平均值，它描述了數據的離散程度。 ::: --- 7. activation 激活可以解釋為把有用的特徵透過激活函數保留或放大效果，讓沒用的特徵消失或降低效果嗎? :::spoiler **理解** 很接近 ==激活函數==在神經網路導入非線性，讓模型學更複雜模式具體來說激活函數會對每個==神經元輸出進行處理==，確保==有用特徵被保留== 常見的有==ReLU（Rectified Linear Unit）會將小於 0 的輸出設為 0，並保留大於 0 的輸出== 模型就能專注有用信息 ::: --- 8. 徧導數具體如何評估機器學習中損失函數變化，例如是徧導數值越大，表示影響損失函數越多嗎?請用非常高階人類可理解的方式搭配很簡單的數學理論說明，我知道微積分與函數在某一點的變化率或方向有關，但我不清楚徧導數具體是如何影響? :::spoiler **概念澄清** 在多變量函數(例如損失函數)，當有變量變化時，函數如何改變 => 就是透過徧導數了解徧導數值越大，表示參數改變一點點，損失函數會有很大變化徧導數接近0很小，表示無足輕重，不用管它 ![Q8](https://hackmd.io/_uploads/HyEaZGa41e.png) ::: --- 9. linear programming 線性規劃在機器學習求解具體運用可以舉個例子說明嗎? :::spoiler **理解** 數學技術在一定約束條件下找到線性目標函數最佳解在機器學習中可優化模型，對某些限制條件下的預測很有用 ![Q9](https://hackmd.io/_uploads/rkHxfzT4Jx.png) ::: --- 10. 機器學習中，標準差可衡量模型穩定性和對數據敏感程度，我想了解的是標準差越大，在機器學習中模型越不穩定嗎?標準差越大，模型對數據越不敏感嗎?可以舉個具體好理解的例子嗎? :::spoiler **概念澄清** 標準差衡量數據的波動程度在機器學習中也用來衡量模型(輸出結果)對數據的穩定性、敏感性標準差越大，模型越不穩定=>對小的變化敏感，預測給結有大變動，易受干擾或過擬合標準差越小，模型越穩定=>輸出穩定，預測不會劇烈波動，有更好泛化能力例如說有兩個模型預測房間模型A，每次給定一組房子特徵，如面積地段，預測波動很大，有時很高，有時很低，不穩定模型B，每次預測的房價結果很穩定，特徵有些微變化，預測結果變化不大，標準差很小 ::: --- 11. 論文中所提到的「對抗攻擊」是指一種攻擊行為對嗎?而不是對於攻擊的防禦?因為中文的對抗攻擊像是有防禦的意思，我會有些搞混 :::spoiler **概念澄清** 是指對機器學習模型的攻擊行為目的是通過原始數據加入微小擾動，欺騙模型做錯的預測專指攻擊行為，暴露模型弱點「對抗防禦（Adversarial Defense）」才是針對這種攻擊的防禦措施。 ::: --- 12. backpropagation 反向傳播是神經網路中必要的一層嗎?會自動處理可說是一種非監督式的學習嗎? 具體需要如何設定呢?因為太神奇了有點難理解 :::spoiler **概念澄清** 是神經網路關鍵的計算過程，不是一層，也不是非監督式學習反而是==有監督式學習==用來更新神經網路權重的==算法==，依賴損失函數指導每次調整權重的方向大小具體來說，當神經網路進行預測 1.數據前向傳播，經過每一層神經元，計算預測結果 2.根據結果與真實值差異(損失函數)，用反向傳播==計算每個權重的梯度==，根據梯度調整網路權重反向傳播是監督式學習的一部份，要有標籤的數據，知道輸入數據對應的正確答案，指導神經網路學習步驟為 1.前向傳播，INPUT數據，計算預測結果 2.損失函數計算 3.反向傳播，由損失函數，算出每個權重對損失的貢獻(徧導數)，沿這個方向更新權重，減小損失在TensorFlow或PyTorch中，反向傳播是自動處理設好模型、損失函數、優化器即可具體如 1.定義神經網路模型，設定結構，例如每層多少神經元，使用哪種激活函數 2.定義損失函數，用來衡量預測結果與真實結果差異，包含交叉熵、均方誤差...... 3.定義優化器，選優化算法，通常是梯度下降或它的變體，優化器會根據反向傳播計算的梯度更新模型 4.開始訓練，在每個訓練批次重複，直到損失函數收斂即使有成千上萬權重和神經元，只是反覆用微積分的鏈式法則算梯度，從而知道每個參數對損失函數的影響調整這些參數當訓練模型時，反向傳播會一層一層向後計算每個權重的徧導數，使用優化器更新權重以人算會算死，電腦可自動處理 ::: --- 13. overfitting過擬合會有優點嗎?什麼狀況下過擬合對模型有好處? :::spoiler **概念澄清** 通常被認為是機器學習模型的一種缺點，意味學習了訓練集的細節或噪聲，導致無法泛化到新數據 - 只有在訓練數據與真實場景非常一致時 - 需要很精確處理已知場景，不太關心未知數據表現 ::: --- 14. regularization 正則化和 batch normalization 批次正則化兩者是批次操作的關連嗎? :::spoiler **概念澄清** 兩者是不同技術，目的和操作方式都不同，應用也不同正則化是通過損失函數加入額外限制項，防止模型過擬合常見正則化方法有 [L1正則化、L2正責化](/b5HmMmotQJGQpJNIJqQcJQ) - L1正則化，損失函數+L1正則化=損失函數+超參數 * ==|權重|絕對值的總和==，可直接把某些權重設為0 - L2正則化，超參數 * ==權重平方的總和==，平滑縮小權重批次正則化，對每一批次數據進行標準化處理作用是加速訓練提高模型穩定性不針對模型權重，而是標準化輸入的==數據== ::: --- 15. batch normalization 批量正則化具體來說會做什麼處理，請舉例一個最常見的批量正則化處理範例 :::spoiler **理解** 具體可能做 1.計算批次均值 2.計算批次變異數 ![Q15](https://hackmd.io/_uploads/SJrVffaNkg.png) 3.標準化輸入，例如把每個==數據點減均值，除以變異數==，可以把數據轉換為均值為0，變異數為1的分佈 4.縮放、平移 ::: --- 16. forward propagation 前向傳播是神經網路進行預測的第一步，那後面步驟是什麼呢? :::spoiler **背景知識** 神經網路的完整訓練和預測過程包括以下： 1.前向傳播（Forward Propagation）：INPUT數據，得到預測 2.損失計算（Loss Calculation）：比對預測準確度(計算損失函數) 3.反向傳播（Backpropagation）：用損失函數對參數進行徧導數計算，計算權重對損失的貢獻(梯度) 4.參數更新，使用優化算法如梯度下降更新權重，最小化損失 ::: --- 17. 由特徵集合所形成的數學空間，每一個數據點在特徵空間都對應一個位置，可以具體舉簡單的範例讓初學者可以理解嗎 :::spoiler **理解** 特徵集合與特徵空間在機器學習中，每個數據點通常由多個特徵描述。這些特徵形成一個多維空間，稱為特徵空間。每個特徵可以看作這個空間中的一個「維度」，而每個數據點則可以看作是這個空間中的一個坐標點。舉例：假設我們有一個預測房價的模型，使用以下特徵： - 房子的面積（平方公尺） - 房間數量 - 樓層數 - 是否有車庫（是/否）這些特徵組成了特徵空間的四個維度。對於每個房子，我們都可以用一個四維的數組來表示，例如： ![Q17-1](https://hackmd.io/_uploads/rJP9zMTNJg.png) 每個數據點（如每個房子）都會有一個特徵值陣列。這些特徵值會構成一個矩陣，其中： - 行代表每個數據點（例如不同的房子） - 列代表不同的特徵（如面積、房間數量等）這樣的特徵矩陣形成了一個數學空間，每個數據點（如每個房子）在這個空間中都有一個唯一的坐標。矩陣範例： ![Q17-2](https://hackmd.io/_uploads/HkgifzpEJg.png) ::: --- 18. feature difference 特徵差異是比較對抗樣本和原始樣本用，當模型在處理不同數據時，輸出的特徵之間的差異。當我們用對抗擾動修改數據時，特徵差異會反映對抗樣本和原始樣本在模型的不同反應，可以衡量對抗攻擊的效果。以上的描述對抗樣本指的是對抗攻擊的樣本，對抗擾動指的是用對抗樣本進行攻擊? :::spoiler **概念澄清** 1. 對抗樣本：經過對抗擾動修改後的數據，用來攻擊模型。 2. 對抗擾動：用來修改原始數據，使其成為對抗樣本的擾動。 3. 特徵差異：比較對抗樣本和原始樣本在模型中的反應差異，衡量對抗攻擊的效果。 ::: --- 19. 變異數是衡量樣本分佈是否離散或集中，變異數損失大，為何表示預測波動大呢? :::spoiler **概念澄清** - 變異數損失是指變異數損失函數嗎? ==YES== - 如果越大，應該有兩種可能，一是樣本本來就離散，但變異數損失大表示樣本集中? 樣本本來離散，變異數損失大也合理，呈現真實數據模樣 - 另一可能是樣本本來就集中，變異數損失大表示樣本是分散的?這樣解釋對嗎樣本集中，但變異數損失大，表示模型對輸入數據太敏感，預測結果波動大 - 變異數損失可以關聯到樣本原始呈現是分散或集中嗎?或只是評估模型波動呢? 變異數才是評估原始資料分散集中，變異數損失函數是衡量模型預測結果的波動性 ::: --- --- ## Abstract問題 20. 在本論文中的對抗性攻擊，是對源圖像添加惡意擾動，我不太能想像實際實施的方式，是指在訓練的資料集圖片，或影片，加入一些變造的惡意樣本嗎?例如在一堆貓圖片的照片中，加入像貓的其他生物。又例如在一堆貓的影片中，加入一些編造像貓的生意影片?是指這樣嗎 :::spoiler **概念澄清** 是對機器學習模型特別是深度學習模型的攻擊不是直接在訓練數據插入「明顯不同的樣本」而是對輸入的圖像或視頻做「非常細徵的擾動」使模型判斷錯誤擾動是肉眼不可見的，但足以讓模型做錯誤決策攻擊具體的實施方式： - 假設有一張貓的圖片，模型可以正確分類為貓 - 對抗性攻擊，通過計算圖像梯度，找到特定擾動方向，例如可能加上看不見的噪聲，使模型誤分類為狗 - 擾動是經過一些算法，如FGSM、PGD、C&W攻擊生成，會通過反向傳播計算模型對輸入的敏感性，在敏感的方向進行小幅度數據修改，例如減少或增加某些像性的亮度值，使輸入圖像可以最大限度干擾模型的判斷。而在視頻中的對抗性擾動可能讓模型跟丟目標或錯誤追蹤其他物體。 - 對抗性攻擊不會加入不同生物或編造的生物，不會明顯替換或添加不同物體 - 不需創建全新、不同的樣本，只在現有樣本進行輕微修改 ::: --- 21. ==VOT追蹤器只有這三種?== :::spoiler **背景知識** ##### 傳統的追蹤器技術 1. Mean-Shift 追蹤器基於密度估計，不斷移動追蹤窗口找到目標 - 密度梯度估計 - 計算量小 - 對有遮擋和快速運動的目標表現差，要手動設置追蹤窗口大小，對光照背景變化敏感 2. CamShift（Continuously Adaptive Mean-Shift） - Mean-Shift的擴展版本，可依目標大小動態調整追蹤窗口 - 常用於人臉追蹤及目標變體場景 3. Kalman Filter（卡爾曼濾波器） - 基於統計學的追蹤算法，基於目標==運動模型==，如==速度和加速度==，==預測目標下一步位置== - 使用新觀測值對預測進行更新，修正目標位置 - 適合線性運動物體，有效平滑運動軌跡，一定程度抗噪聲，不適合非線性運動或劇烈運動 - 常用於軌跡雲測和穩定追蹤，自駕、航空航天領域 4. Particle Filter（粒子濾波器） - kalman的擴展，處理非線性和非高斯分佈的動態系統，追蹤複雜運動 - 用大量例子假設目標狀態，每個粒子都是可能估計值，新觀測後粒子不斷更新，找到目標最有可能位置 - 處理複雜非線性運動、快速變化場景，在噪聲大情況有較好魯棒性，但計算量大 - 應用在多目標追蹤、遮擋處理、目標變形 ##### 現代追蹤技術 1. 基於RNN和LSTM的追蹤技術 RNN(循環神經網路) LSTM(長期記憶網路) 適合長時間追蹤 - 時間序列建模，可依歷史幀預測，能更好追蹤運動模式複雜目標 - 能記住長期依賴關係，具記憶功能，能處理遮擋和複雜運動 2. 基於YOLO（You Only Look Once）和 SSD（Single Shot Multibox Detector）的目標檢測追蹤器 - 同時目標==檢測==和==追蹤==，對每幀圖像物體檢測，在此基礎追蹤，每幀目標物會被重新檢測標註，能有效處理目標快速移動和角度尺度變化，對複雜場景目標追蹤有效 - 輸出邊界框和類別 - 用於監控、交通場景等需即時檢測和追蹤，如車輛、人、動態目標 3. 基於3D CNN追蹤技術 - 因為2D特徵提取無法補捉目標所有細節，3D CNN同時從==空間==、==時==間提取特徵 - 目標運動模式複雜(如旋轉或高速變化)可更精確追蹤，用於需精細時間空間特徵場景，如運動分析 ::: --- --- ## INTRODUCTION問題 22. 在本論文中的追蹤器定義? :::spoiler **理解** 對圖像第一幀已偵測或標註的無類別物件，用追蹤器在後續幀繼續識別。無類別表示不需要知道物件具體類別第一幀要手動識別或標註嗎? 手動或自動，但需要在第一幀確定要追蹤的目標 ::: --- 23. 在本論文中，可插拔的意思是什麼? :::spoiler **理解** 是一種==靈活性設計==，允許特定機制靈活添加到不同追蹤器中，不用對整體架構大幅修改。對抗性攻擊機制就像隨插即用，可以靈活應用 ::: --- 24. 目前流行的對抗攻擊方法分這兩類，「在線迭代優化方法?」通過有限次迭代的梯度上升方向來優化對抗擾動的形式，「基於深度生成器的方法?」利用大量數據資源離線訓練對抗擾動生成器，請用白話清楚說明 :::spoiler **理解** - 在線迭代就是不斷調整輸入數據生成對抗擾動(逐步嘗試) - 事先訓練是用大量數據訓練一個對抗擾動生成器，可快速生成 ::: --- 25. Siamese網路為什麼用此名稱?連體雙胞胎Siamese twins [Siamese網路](\1yap0Mf-Rou5qrrmrmii9g) --- 26. 我想了解的是論文中圖1裡的架構說明，這三種追蹤器內組件的運作，例如Siamese裡有分類頭，回歸頭是什麼？DCF的IoUNet是什麼？這三類追蹤器的運作原理及輸出是什麼？為何差異如此大? :::spoiler **背景知識** - Siamese 網路追蹤器 - 基於相似性度量，通過比較「模版圖像(初始目標圖像)」和「當前幀圖像」特徵來定位目標位置 - OUTPUT-分類頭（Classification Head），分類目標或背景 - OUTPUT-回歸頭（Regression Head），輸出目標邊界框 - 適合需處理分類和回歸任務 - DCF（Discriminative Correlation Filter）判別式相關濾波器 - IoU-Net（Intersection over Union Network）優化邊界框精度的網路，透過最大化「追蹤框（Tracking Box）」和「目標真實框（Ground Truth Box）」之間的交集比(IoU)提高準確性 - 追蹤框白話說就是模型預測的邊界框。 - 濾波器是一種數學工具，從輸入數據提取有用特徵生成模板 - OUTPUT-優化後的目標邊界框(衡量兩個邊界框重疊和聯合區域的比值) - 適合高速場景 - Transformer 追蹤器 - Transformer 的編碼器，學習特徵間依賴關係 - 自注意力機制（Self-Attention）計算特徵權重找到最相關目標 - OUTPUT-同時預測邊界框左上角和右下角的機率分佈 - 適合複雜場景 ::: --- 26. 對比損失函數與交叉熵損失(分類頭損失)可以用高階簡單，人類直覺可以了解的白話來說明有什麼不同，不要用複雜數學公式解釋 :::spoiler **概念澄清** 對比損失函數比相似度，適合比對例如人臉識別交叉熵用來分類 ::: --- 27. 圖1中DCF還有一個組件是Correlation Filter，Search Region會與之做Convolution Operator這段我看不懂，可以用高階簡單，人類直覺可以了解的白話來說明嗎 :::spoiler **理解** Correlation Filter，學習要追蹤目標的「特徵」後在Search Region可能區域，用卷積運算(Convolution Operator)用滑動窗口方式比對。 ::: --- 28. 那在DCF中，IoU-Net的輸出，與Correlation Filter的輸出，不就重疊了嗎?請用高階簡單，人類直覺可以了解的白話，但不要太多，精簡說明 :::spoiler **理解** - Correlation Filter 找「大概位置」。 - IoU-Net 進一步調整框的「精確位置」。兩者互補 ::: --- 29. 表徵能力白話說是什麼意思? :::spoiler **理解** 在這裡，表徵能力（Representation Power）白話說就是==模型提取和表示數據特徵的能力==。這意味著模型能夠有效地從輸入數據中提取出有用的信息和特徵，並以適合後續處理的方式來表示它們。例如，在 Transformer 追蹤器中，表徵能力強大是指它可以在輸入數據中找到並學習到有效的特徵，然後通過==自注意力機制==來加權不同特徵，從而更準確地預測目標物體的位置和邊界框。這樣就不需要分別進行目標位置和邊界框描述的兩步驟策略，而是可以同時預測邊界框的左上角和右下角的機率分佈。 ::: --- 30. [IoUNet](\DyhHooh3TQmpMOQzp1A5Rg)（Intersection over Union Network）是什麼 :::spoiler **背景知識** 優化目標檢測和追蹤中邊界框精度的神經網路通過 ==最大化== ==追蹤框== 與 ==真實邊界框== 的 ==交集比(IoU)== 提高準確性 ::: --- 31. 四種具不同攻擊目標的中間層對抗性目標函數（1）最大化中間層中自然樣本和對抗樣本特徵分佈的距離。 MSE （2）最大化對抗特徵分佈的變異數。 Var （3）最大化對抗特徵分佈的均值。 mean （4）最大化自然輸入和對抗特徵的激活通道之間的差異。 Act 白話說是什麼?請用高階簡單，人類直覺可以了解的白話，但不要太多，精簡說明 :::spoiler **理解** 這四種中間層對抗性目標函數，主要是為了讓對抗樣本（被修改過的樣本）與自然樣本（原始樣本）在特徵層面上變得非常不同，從而欺騙模型。讓我用簡單的白話來解釋：最大化特徵分佈的距離：這是讓==對抗樣本的特徵和自然樣本的特徵==盡可能地不同，讓模型難以發現這兩者本來是類似的。最大化變異數：這是增加==對抗樣本特徵的變異==程度，讓對抗樣本的特徵分佈變得更加分散，擾亂模型的預測。最大化均值：這是讓==對抗樣本的特徵均值盡量偏離自然樣本的均值==，使對抗樣本看起來在整體上與自然樣本大不相同。最大化==激活通道==之間的差異：這是專注於模型的「激活」部分，讓對抗樣本和自然樣本在特徵通道上有很大的差異，進一步混淆模型。總結：這些方法的目標是通過改變對抗樣本的特徵，使其在模型眼中變得與自然樣本截然不同，以此來干擾模型的正常運作。 ::: --- 32. Siamese的 DaSiamRPN 和 SiamRPN++，DCF的 PrDiMP、TransFormer 追蹤器 SimTrack、GlobalTrack是什麼?這些追蹤器，還有沒有什麼必須知道的知識點，因為我已經大約了解這三種種類的追蹤器的架構了，但對於他們的變體或改進版本不了解，能不能彙整前一個回覆，用之前我已了解的三個種類追蹤架，再來補充說明 :::spoiler **理解** 1. Siamese網路追蹤器核心-基於兩個共享權重的子網路，比對相似度，進行目標定位 - DaSiamRPN，SiamRPN擴展版本，對複雜場景優化，例如非剛性物體(==變形目標==)、==背景混亂==，加強抗干擾性。 - SiamRPN++，SiamRPN擴展版本，用==ResNet==作特徵提取，通過==多層特徵融合==提高準確性。 - RPN（Region Proposal Network）作用是在圖像生成目標侯選框，並進行分類。 2. DCF 核心-用==濾波器==來匹配目標和模版，快速找到目標 - PrDiMP（Probabilistic DiMP），加強目標分類器==學習力==，提高追蹤精度，改進目標形狀、光影的適應力 3. TransFormer 核心-用TransFormer結構處理==長距離依賴==，捕捉圖像==全局信息==，定位和追蹤 - SimTrack，把Siamese網路和TransFormer結合，同時補抓局部與全局信息，處理複雜場景目標更強適應力 - GlobalTrack，進行全局搜索，適合目標突然移動遠離原位置狀況，重新補抓到目標 - 傳統追蹤器是目標前一幀附近區域局部搜索，GlobalTrack是整個圖像全局搜索 ::: --- 33. Siamese網絡: 判別相關濾波器(DCFs): Transformer追蹤器: 使用的都是深度學習方式，都會與神經網路有關嗎? 都會用到正向傳播的卷積層產生特徵圖，激活函數，池化層，全連接層，反向傳播計算損失函數，更新權重的這些技術嗎 :::spoiler **背景知識** perplexity pro 是的,您的理解基本正確。Siamese網絡、判別相關濾波器(DCFs)和Transformer追蹤器這三種方法都是基於深度學習的方法,都與神經網路有關。不過,它們在具體實現上有一些差異: 1. Siamese網絡: • 確實使用了您提到的大部分技術,包括卷積層、激活函數、池化層、全連接層等。 • 特點是使用孿生結構,兩個分支共享權重。 • 通過比較特徵向量的相似度來進行目標追蹤。 2. 判別相關濾波器(DCFs): • 雖然也使用深度學習方法,但其核心是基於相關濾波器的思想。 • 可能不會使用傳統的池化層和全連接層。 • 通常將目標定位問題表述為正則化最小二乘問題。 3. Transformer追蹤器: • 使用了自注意力機制,而不是傳統的卷積操作。 • 可能不會使用池化層。 • 仍然使用前向傳播和反向傳播來訓練模型。總的來說,這三種方法都採用了深度學習的框架,但在網絡結構和具體實現上有所不同。它們都會使用前向傳播來生成特徵,使用反向傳播來計算損失並更新權重。然而,具體的網絡層結構和操作可能會有所差異。 ::: --- 46. 模式識別具體來說是什麼? :::spoiler **背景知識** 模式識別（Pattern Recognition）是指利用算法和模型來識別數據中有規律的模式或結構，並將它們分類到不同的類別中。它在各種應用中都非常重要，尤其是電腦視覺、語音識別、圖像識別、自然語言處理等領域。具體來說，模式識別的過程通常包括以下幾個步驟：數據收集：從環境中獲取原始數據，比如圖像、聲音、文字等。例如，在電腦視覺中，攝像頭捕捉的圖像或影片就是原始數據。特徵提取：從原始數據中提取能夠代表數據特性的關鍵特徵。這些特徵可以是顏色、形狀、紋理等。在深度學習中，卷積神經網絡（CNN）可以自動學習並提取這些特徵。分類或辨識：根據提取到的特徵，使用分類器（如支援向量機、神經網絡等）將數據分類到預定的類別。例如，在人臉識別中，模式識別技術可以根據提取到的臉部特徵來判斷這張臉屬於哪個人。舉例：在自動駕駛應用中，車輛的攝像頭會拍攝道路上的環境，通過模式識別技術來識別行人、交通標誌、車輛等。這就是在圖像識別中的一種模式識別應用。在本文中提到的電腦視覺應用中的VOT（Visual Object Tracking，視覺物件追蹤）技術，就是一種基於模式識別的應用。VOT 需要從一個連續的視頻中，不斷識別並追蹤某一個目標物體的移動，而模式識別技術是幫助系統了解這個目標物體的特徵並持續追蹤它的位置。總結：模式識別具體來說，是指從數據中提取有意義的特徵，並將數據分類或識別的過程。在本文提到的場景中，它與電腦視覺密切相關，尤其是在自駕車、無人機、智慧監控等應用中，模式識別技術幫助這些系統識別和追蹤特定的目標。 ::: --- --- ## RELATED WORK問題 34. 手工特徵描述符(hand-crafted feature descriptors) - Histogram of Oriented Gradient (HOG)方向梯度直方圖HOG - Color Names (CN) 顏色名稱CN 是什麼技術? :::spoiler **背景知識** perplexity pro 手工特徵描述符(hand-crafted feature descriptors)是在計算機視覺和圖像處理中用於描述圖像特徵的技術。以下是兩種常見的手工特徵描述符: Histogram of Oriented Gradient (HOG) 方向梯度直方圖 HOG是一種用於物體檢測的特徵描述符。其主要思想是: 1. 將圖像分割成小的連通區域,稱為單元格(cells)。 2. 對每個單元格中的像素計算梯度方向的直方圖。 3. 將相鄰單元格組合成更大的區塊(blocks),並進行對比度歸一化,以提高對光照和陰影變化的魯棒性。 4. 將所有區塊的直方圖串聯起來,形成最終的特徵向量。 HOG描述符的優點: • 對局部幾何和光度變化具有不變性 • 對行人檢測特別有效 • 對噪聲具有一定的魯棒性 Color Names (CN) 顏色名稱 CN是一種基於語言學顏色標籤的顏色描述符。其主要思想是: 1. 定義一組基本顏色名稱,如黑、藍、棕、灰、綠、橙、粉、紫、紅、白、黃等。 2. 學習從像素RGB值到顏色名稱的映射。 3. 使用這種映射為圖像區域分配顏色名稱標籤。 CN描述符的優點: • 具有較高的判別能力 • 對光照變化具有一定的魯棒性 • 提供了一種更接近人類感知的顏色表示相比於基於物理的顏色描述符,CN在許多計算機視覺任務中表現更好,如圖像分類、物體識別和視覺追蹤等。 ::: --- 35. 最小平方損失用於指導濾波器的優化，而groundtruth真實標籤則由目標中心作為峰值的 2D 高斯形狀的熱圖表示是什麼意思? :::spoiler **理解** perplexity pro 1. 最小平方損失: • 在判別相關濾波器(DCFs)方法中用於優化濾波器 • 目標是最小化預測結果與真實標籤之間的差異 2. 真實標籤(Ground Truth): • 以2D高斯形狀的熱圖(heatmap)表示 • 熱圖的峰值對應目標中心位置 • 用於指導模型學習定位目標 3. 兩者結合的意義: • DCFs通過最小化預測結果與高斯熱圖之間的差異來優化濾波器 • 這種方法有助於模型更準確地定位目標中心 4. 摘要:在DCFs追蹤方法中,最小平方損失用於優化濾波器,使其預測結果盡可能接近以2D高斯熱圖表示的真實標籤。這種表示方法將目標中心定義為熱圖峰值,有助於模型學習精確定位目標。通過最小化預測結果與高斯熱圖之間的差異,模型能夠提高目標定位的準確性。 ::: 36. 防止空間邊界效應，確保時間平滑性，對目標函數進行空間和時間正則化，以下這段開始描述DCF的技術及改良，請白話說明? :::spoiler **理解** perplexity pro 這段論文內容描述了判別相關濾波器(DCF)在視覺追蹤領域的演進過程,我將用白話文重新解釋各項技術的發展及改良: 1. 空間和時間正則化: • Danelljan等人提出了空間正則化,Li等人提出了時間正則化。 • 目的:解決空間邊界效應問題,並確保時間上的平滑性。 • 改進:使追蹤器在空間和時間維度上更加穩定。 2. ACS-DCF: • 進一步增強DCF的穩健性。 • 方法:從空間和通道維度選擇具有辨別性的特徵。 • 改進:提高了追蹤器對複雜場景的適應能力。 3. IoU-Net優化: • 解決了傳統啟發式方法在估計目標比例上的不足。 • 方法:使用模板引導的IoU-Net自適應地優化邊界框。 • 改進:提高了目標尺度估計的準確性。 4. 深度學習DCF: • 背景:由於計算資源限制,無法在線上更新整個網路。 • 方法:採用預訓練的圖像分類骨幹網路,只更新相關濾波器的參數。 • 改進:在保持實時性的同時,提升了特徵提取能力。 5. PrDiMP: • 引入條件機率密度來描述目標狀態預測。 • 改進:為模型提供了明確的機率解釋,增強了模型的可解釋性和不確定性估計能力。總的來說,這些改進逐步解決了DCF在實際應用中的各種問題,從空間時間正則化到深度特徵提取,再到機率模型,使DCF在視覺追蹤任務中的性能不斷提升。 ::: --- 37. 表1裡的各參數函義圖表問題看[反思過程](\5pSWpzjZTIePwCy8ejSbuA) --- 45. 關於下面，可以解釋的更簡單白話嗎例如為什麼線上訓練要更新整個網路參數不可行 Siamese網路適合做分類比對，把錨點標註為正樣本或負樣本交叉熵損失監督訓過程 L1損失指導邊界框位置線上訓練方式要更新整個網路的參數不可行，改用預訓練的DCF，PrDiMP引入機率解釋 TransFormer追蹤器，增強模型表徵能力，通過計算左上角、右下角的邊界框的機率預測這段話可以簡單解釋如下: - Siamese網路的工作原理: - 用於比較兩個輸入是否相似 - 將目標物體標記為正樣本,其他物體標記為負樣本 - 使用交叉熵損失來訓練網路區分正負樣本 - 使用L1損失來精確定位目標物體的邊界框 - 為什麼線上訓練難以更新整個網路: - 深度神經網路參數量龐大,需要大量數據和計算資源才能有效訓練 - 追蹤任務中,每次只有一幀圖像,數據量不足以更新整個網路 - 實時追蹤要求速度快,無法負擔大規模參數更新的計算開銷 - 其他方法的改進: DCF使用預訓練模型,只更新少量參數,適合線上學習 PrDiMP引入概率解釋,使模型預測更可靠 - Transformer追蹤器增強了特徵提取能力,通過預測邊界框的角點位置來定位目標總的來說,這些方法都在試圖在有限的線上學習條件下,提高追蹤器的性能和穩定性。 --- --- ## METHODOLOGY問題 /ˌmeθ.əˈdɑː.lə.dʒi/ 38. 公式問題看[反思過程](\5pSWpzjZTIePwCy8ejSbuA) --- 47. 我有一個疑問是，本文的公式1，是以Siamese網路做推導，而公式2，是公式1的決策層攻擊損失函數。接下來的對抗攻擊其他公式也都是由前面公式往後推導但本文還有其他兩種網路 DCF 及 Transformer 為何可以適用Siamese網路推導出來的其他損失函數之公式呢? 您提出了一個很好的問題。確實,本文的公式1和公式2是基於Siamese網路推導的,但PlugAtt方法能夠適用於其他網路架構(如DCF和Transformer),主要基於以下幾個原因: - 中間層特徵攻擊: PlugAtt的核心思想是攻擊深度網路的中間層特徵,而不是最終的決策層。這種方法適用於所有使用深度學習的追蹤器,因為它們都有共同的特徵提取過程。 - 通用性: 公式4-7描述的中間層攻擊方法(如$\mathrm{L}{\mathrm{adv}}^{\mathrm{mse}}$, $\mathrm{L}{\mathrm{adv}}^{\mathrm{var}}$等)是針對特徵分布的,而不依賴於特定的網路結構或決策方式。 - 特徵空間的共性: 雖然DCF和Transformer的決策機制與Siamese網路不同,但它們都依賴於從輸入圖像中提取的深層特徵。擾亂這些特徵可以影響所有類型的追蹤器。 - 可插拔性: PlugAtt的設計允許它與決策層攻擊(如有)結合,但不依賴於它。這使得該方法可以適應不同的追蹤範式。 - 實驗驗證: 作者通過在不同類型的追蹤器上進行實驗,證明了PlugAtt的有效性,包括DCF(如PrDiMP)和Transformer(如SimTrack)。總之,雖然初始公式是基於Siamese網路推導的,但PlugAtt的核心思想 - 攻擊中間層特徵 - 使其成為一種通用的方法,可以應用於各種深度學習基礎的追蹤器。 --- --- ## EXPERIMENTS問題 B.消融實驗問題 39. 圖 2的橘線是自然樣本的隨機噪聲擾動? 看錯了，是表 2 --- 40. 通過減少均值和變異數來驗證攻擊的有效性，減少通道激活的均值和變異數並未取得相同的效果，是指這兩項攻擊無效嗎? ==是指效果沒那麼大。== --- 41. ==為什麼專注於縮減空間維度的這三類攻擊. $\mathrm{L}_\mathrm{adv}^\mathrm{var}$、$\mathrm{L}_\mathrm{adv}^\mathrm{mean}$ 和 $\mathrm{L}_\mathrm{adv}^\mathrm{act}$ ，可以讓中間層攻擊和決策層攻擊得以相容那MSE的攻擊不行嗎?== 兼容性是說這三類不依賴空間位置，而是針對通道激活值進行擾動，所以在中間層、決策層都可發揮作用。而MSE更關注空間的特徵差異，在中間層很有效，但特徵被壓縮到決策層時，影響可能減弱不如上面三類。 --- 42. 神經網路層、神經元、特徵圖、通道、激活函數、卷積操作的問題看[深度學習](\TBo5jsj5STmpknvOlvV09A) --- 43. ==圖 4 在這三類追蹤器的層或階段，我不理解是什麼意思，可以說明一下嗎?== 圖表問題看[反思過程](\5pSWpzjZTIePwCy8ejSbuA) --- 44. ==Siamese 網路、DCF，都有卷積層嗎?我有點搞混了== :::spoiler **理解** 確實，Siamese 網路和 DCF 都使用了卷積層來進行特徵提取，但這兩種模型在具體結構和應用上有一些差異。讓我來幫助您理清楚。 1. Siamese 網路的卷積層： Siamese 網路是一種用來比較兩個輸入數據的架構。它的核心部分通常是兩個共享權重的子網絡，這兩個子網絡會對輸入數據進行特徵提取，然後比較兩者之間的相似性或差異性。卷積層在 Siamese 網路中的作用：特徵提取：Siamese 網路的每個子網絡會用卷積層來提取輸入數據的特徵。這意味著無論您輸入的是圖像還是其他類型的數據，卷積層都負責將這些數據轉換成高維的特徵表示。例如，DaSiamRPN 就是一個典型的基於 Siamese 網路的追蹤器，它使用卷積層來對目標和模板進行特徵提取，並在後續階段比較特徵的相似性。 2. DCF（Discriminative Correlation Filter）和卷積層： DCF（判別性相關濾波器）主要用來進行目標追蹤。DCF 的核心思想是將追蹤問題轉化為一個濾波器學習問題，通過卷積運算來計算模板和輸入圖像之間的相關性，從而進行目標定位。卷積層在 DCF 中的作用：傳統 DCF（早期版本）：傳統的 DCF 模型中不一定會包含深度學習的卷積層，早期 DCF 方法依賴的是手工設計的特徵（如 HOG 特徵）來進行濾波匹配。現代 DCF（深度學習版本的 DCF）：隨著深度學習的發展，現代的 DCF 模型如 PrDiMP 開始結合深度學習中的卷積神經網絡來自動提取圖像的特徵。這意味著這些 DCF 模型中同樣有卷積層，並用來提取輸入圖像的特徵，這些特徵再進一步進行濾波和匹配操作。 3. 主要區別：雖然 Siamese 網路和現代的 DCF 模型都有卷積層來進行特徵提取，但它們的核心機制不同： Siamese 網路：用兩個相同的卷積子網絡來提取兩個輸入的特徵，然後比較它們的相似性或差異性。適合用於目標匹配或相似性檢測的任務。 DCF：使用卷積層來提取特徵後，通過相關濾波器來計算目標和模板的匹配度。DCF 更專注於學習濾波器進行精確的目標定位。總結： Siamese 網路和現代的 DCF 模型（如 PrDiMP）都有卷積層，這些卷積層負責提取圖像中的特徵。 Siamese 網路更關注相似性比較，而 DCF 則主要關注在特徵匹配和定位上。早期的 DCF 方法可能不使用卷積層，但現代 DCF 模型通常結合了深度學習，使用卷積層來進行特徵提取。這樣應該能幫助您理清 Siamese 網路和 DCF 的卷積層的作用。 ::: --- 48.meeting問題接下來是關於論文中幾個提問，請盡可能依論文內容回答 1.本文PlugAtt的輸入及輸出是什麼?是一張圖像或是一段視頻?或是什麼東西? 2.追蹤器攻擊可以應用在什麼地方?我需要很具體的應用場景? 3.有一類在做影像或視頻版權的，是否可以使用。 4.論攻擊若要讓追蹤器無法追蹤，那直接由中間訊號中斷是直接的方式，對抗攻擊很委婉? 5.論文中的Top score是怎麼算出來的? 6.為何M要分迭代10次及5次? 7.論文說明在有挑戰的場景PlugAtt較容易成功，但有沒有可能是追蹤器在有挑戰的場景原來效能就會降低而不是PlugAtt的效果。 8.PlugAtt攻擊可運用在即時的場景嗎? 根據論文內容,我可以回答您的問題如下: 1.PlugAtt的輸入是視頻序列中的每一幀圖像。輸出是對每一幀圖像添加的對抗性擾動。PlugAtt是一個在線優化過程,對每一幀都生成新的擾動。 2.追蹤器攻擊可以應用在以下具體場景: - 自動駕駛:干擾車輛對行人或其他車輛的追蹤 - 無人機:干擾無人機對目標的追蹤 - 智慧監控:干擾監控系統對特定人或物的追蹤 3.論文沒有直接提到版權保護的應用。但對抗攻擊技術可能用於破壞水印或其他版權保護機制,這需要進一步研究。 4.直接中斷信號確實更直接,但容易被察覺。對抗攻擊的優勢在於它是不可察覺的,可以在不被發現的情況下干擾追蹤器。 5.論文沒有明確說明Top score的計算方法。但根據上下文,它可能指追蹤器對目標位置的預測信心度。 6.M分為10次和5次迭代是為了平衡攻擊效果和計算效率。第一幀需要更多迭代(10次)來生成好的初始擾動,後續幀利用前一幀的結果,只需要較少迭代(5次)就能達到好的效果。 7.這是一個很好的觀察。論文確實沒有直接比較追蹤器在有挑戰場景下的原始性能。但作者通過比較損失函數的收斂速度和幅度來支持他們的論點,認為挑戰性場景為對抗擾動提供了更多潛在空間。然而,您的疑問是合理的,需要更多的對照實驗來排除這種可能性。 8.根據論文內容,PlugAtt攻擊目前並不適用於即時場景: - 計算開銷較大:PlugAtt使用在線迭代優化方法來生成對抗擾動,這需要較多的計算資源。 - 運行速度較慢:論文提到PlugAtt在不同追蹤器上的運行速度為5-14 FPS (每秒幀數),這遠低於實時應用的要求。 - 需要多次迭代:PlugAtt對每一幀都進行迭代優化,第一幀需要10次迭代,後續幀需要5次迭代,這增加了處理時間。 - 針對視頻序列:PlugAtt設計用於處理視頻序列中的每一幀圖像,而非單一圖像。 - 研究階段:論文主要關注攻擊的有效性,而非實時性能。 - 雖然PlugAtt目前不適用於即時場景,但它為未來研究提供了方向。要應用於即時場景,需要進一步優化算法,提高計算效率,並可能需要硬件加速支持。 --- 49. 論文的關鍵字?是怎麼找到這篇論文的?此領域有哪些學者在做?多或是少? --- --- ## ==圖表解釋、論文原始圖表說明== :::success ==圖 1.== 視覺目標追蹤範式概覽與可插拔攻擊機制 1. 近期設計的追蹤範式： • Siamese網絡 • 判別相關濾波器(DCF) • TransFormer追蹤器 2. 共同架構： • 輸入 • 特徵提取 • 信息交互 • 輸出形式 • 損失函數 3. 追蹤器設計的差異： • 不同追蹤器在輸出形式上有巨大差異 • 損失函數的設計也各不相同 4. 對抗攻擊設計的挑戰： • 由於輸出和損失函數的差異，難以在決策層面設計統一的對抗攻擊演算法 5. 深度模型的共同點： • 所有追蹤器都使用骨幹網路進行特徵提取 6. 提出的解決方案： • 設計可插拔的攻擊機制 • 將攻擊重點放在特徵提取器的中間層 • 這種方法可以適用於不同的追蹤器 ![image](https://hackmd.io/_uploads/rJ2PHw3N1g.png) ==圖 1.== 從輸入、特徵提取、信息交互、輸出形式及損失函數的角度，概覽了近期設計的追蹤範式（Siamese 網絡、DCF、TransFormer 追蹤器）。由於不同追蹤器在輸出形式和損失函數上存在巨大的差異，因此很難在決策層面設計統一的對抗攻擊演算法。然而，這些深度模型的共同點在於其骨幹網路。為此，我們在這項工作中提出了一種可插拔的攻擊機制，該機制作用於特徵提取器的中間層。 ::: :::info ==圖 2.== 五種對抗攻擊前後，==中間通道特徵的激活分佈==情況顯示攻擊後的效果，對抗樣本（即被攻擊的圖像）的特徵激活與自然樣本有很大的不同，追蹤器效能降低(藍線表示對抗性特徵的分佈，而橙線則代表自然特徵的分佈)。 (a)$\mathrm{L}_{\mathrm{adv}}^{\mathrm{dec}}$ 決策層的對抗攻擊 (b)$L_{\mathrm{adv}}^{\mathrm{mse}}$ 基於 MSE 最大化的對抗攻擊 \(c)$L_{\mathrm{adv}}^{\text{mean}}$ 基於平均值最大化的對抗攻擊 (d)$\mathrm{L}_{\mathrm{adv}}^{\mathrm{var}}$ 基於變異數最大化的對抗攻擊 (e)$\mathrm{L}_{\mathrm{adv}}^{\mathrm{act}}$ 基於激活通道差異最大化的對抗攻擊 ![image](https://hackmd.io/_uploads/SkRDuwn4kx.png) ==圖 2.==展示了在五種對抗攻擊前後，中間級通道特徵的激活分佈情況。藍線表示對抗性特徵的分佈，而橙線則代表自然特徵的分佈。 --- ==圖 2.==（a）顯示了 $f_i(x, \theta)$ 和 $f_i(x + \delta^{dec}, \theta)$ 的通道激活分佈 $C$ 和 $C_{adv}$。看公式3 ::: :::success ==圖 3.== 顯示本文提出的==PlugAtt流程圖==，上層網路表示自然樣本的特徵提取及決策過程，而下層網路為為PlugAtt的流程圖 - 藍色和深色代表正向和反向傳播過程 - 實線是必要操作，虛線是可選項目 - 引入中間層攻擊在特徵空間進行，決策層攻擊可協同工作 ![image](https://hackmd.io/_uploads/rJLsIxTEJx.png) ==圖 3.==顯示了所提出的 PlugAtt 的流程圖。此方法引入了中階層攻擊，直接在特徵空間中進行操作，使其能夠與基於各種架構的深度追蹤器兼容。此外，若有可用的決策層攻擊算法，它也可以與中階層攻擊協同工作。圖中使用藍色與深色線條分別表示正向與反向傳播過程。實線代表必要的操作，而虛線則表示根據是否有可用的決策層攻擊方法，操作是可選的。 ::: :::info ==圖 4.== 在 OTB100 資料集上分析 3種追蹤器使用相同攻擊策略($\mathrm{L}_\mathrm{adv}^\mathrm{mse}$)在各層次攻擊效果 - Siamese網路類型：DaSiamRPN，淺層的攻擊效果較差，後面層效果更明顯。 - DCF類型：PrDiMP，第三階段的攻擊最有效。 - TransFormer類型：SimTrack，在中後層效果最好。結論，攻擊發生在越深層的特徵提取層，對追蹤器的準確性影響越大，導致性能下降越快。 ![image](https://hackmd.io/_uploads/H1zaOP34kx.png) ==圖 4.== 顯示， Lmse_adv 攻擊在不同層次上的定量比較，針對 DaSiamRPN、PrDiMP 和 SimTrack 在 OTB100 數據集上的效果。括號內的描述代表了追蹤器的骨幹網路，例如 DaSiamRPN 使用 AlexNet，PrDiMP 使用 ResNet50，而 SimTrack 則使用 CLIP。 ::: :::success ==圖 5.== ==量化分析==：五種對抗攻擊==跨幀的遷移性效果==(驗證公式 11) 損失收斂：模型訓練過程，隨迭代次數增加，損失函數值逐漸減少趨向穩定，最終到達最小值。 x軸，迭代次數。 y軸，損失函數值結論： (a) $\mathrm{L}_{\mathrm{adv}}^{\mathrm{dec}}$ 沒有達到預期效果，決策層攻擊在單幀有效，連續幀時「對抗擾動」對場景變化敏感，效果不穩定。 (b)$\mathrm{L}_{\mathrm{adv}}^{\mathrm{mse}}$ 顯示了較好的跨幀遷移性，損失值隨迭代次數增加而平穩下降。 \(C)$\mathrm{L}_{\mathrm{adv}}^{\mathrm{var}}$ 、(d)$\mathrm{L}_{\mathrm{adv}}^{\mathrm{mean}}$ 、(e)$\mathrm{L}_{\mathrm{adv}}^{\mathrm{act}}$ ，中間層特徵通道捕捉場景的語義內容，不會在短時間劇烈改變，所以損失行為較平滑。 ![image](https://hackmd.io/_uploads/BkTyKvhVJe.png) ==圖 5.== 對 OTB100 數據集上的影片前十幀進行 $L_{\text{dec}}^{\text{adv}}$、$L_{\text{mse}}^{\text{adv}}$、$L_{\text{var}}^{\text{adv}}$、$L_{\text{mean}}^{\text{adv}}$ 和 $L_{\text{act}}^{\text{adv}}$ 損失收斂性的定量分析。 ::: :::info ==圖 6.== ==質化評估==：使用不同攻擊策略的對抗攻擊圖像樣本 (DaSiamRPN) - 視覺化內容「第1欄-對抗性圖像」「第2欄-擾動」和「第3欄-回應圖」。 - 肉眼很難分辨圖像是否受攻擊及採用方法。 - 隨機擾動(a)的第3欄回應圖可以視為基準(即隨機擾動不足以對模型判斷造成錯誤決策)。 - 兩種欺騙追蹤器的方式 - 提高背景分數接近目標信心度，如圖(b) $\mathrm{L}_{\mathrm{adv}}^{\mathrm{dec}}$、==(e) $\mathrm{L}_{\mathrm{adv}}^{\mathrm{mean}}$== - 降低前景檢測信心削弱區分能力，如圖\(c) $\mathrm{L}_{\mathrm{adv}}^{\mathrm{mse}}$、(d) f、(f) $\mathrm{L}_{\mathrm{adv}}^{\mathrm{act}}$ - Top score 表示追蹤器對目標物體的預測信心 ![圖6](https://hackmd.io/_uploads/ByLC9P24Jx.png) ==圖 6.== 顯示了使用不同攻擊策略對一個受害者跟蹤器（DaSiamRPN）進行攻擊時的對抗性圖像（第一欄）、擾動（第二欄）和回應圖（第三欄）的視覺化。擾動被線性地映射從 [-10, 10] 到 [0, 255] 以便顯示為 RGB 圖像。在回應圖中，較亮的區域標識出更有可能是目標的位置，而較暗的區域則顯示出更有可能是背景的位置。 ::: :::success ==圖 7.== 使用相同攻擊策略($L_{\text{adv}}^{\text{var}}$) 對於不同追蹤器的影響 - DaSiamRPN: 定位基本正確，但出現多餘錨點 - PrDiMP: 無法檢測到目標，信心分數極低。 - SimTrack: 誤導追蹤器去追蹤干擾物。結論： 1. 相同攻擊方法在不同追蹤器上的效果差異顯著。 2. 不同追蹤器有獨特弱點。 3. 觀察結果可做bwf未來研究方向。 ![image](https://hackmd.io/_uploads/Bkc64M6VJl.png) ==圖 7.== 使用攻擊策略 ($L_{\text{adv}}^{\text{var}}$) 在不同追蹤範式下，對抗性圖像、擾動和回應圖的視覺化。DaSiamRPN 和 PrDiMP 中回應圖的最大分數對應於目標中心，而在 SimTrack 的情況下，則代表邊界框的左上角和右下角。 ::: :::info ==圖 8.== PlugAtt攻擊==失敗案例==分析綠色框：乾淨影像(未受攻擊)上的追蹤結果黃色框：對抗影像(受攻擊)上的追蹤結果前兩列：攻擊失敗案例，追蹤器未被干擾。第三列：追蹤器被攻擊，無法正確預測目標位置。第四列：損失收斂過程，顯示出挑戰性情境下攻擊收斂效果更好。觀察結果： • 簡單追蹤情境，較難成功攻擊，追蹤器仍能定位目標 • 具挑戰性情境，例如運動模糊、尺度變化和背景雜訊、目標部分被遮擋，攻擊效果較顯著。損失收斂分析： • 簡單情境:收斂較慢、幅度較小 • 挑戰性情境:收斂較快、幅度較大結論： 1. 攻擊難度與情境複雜度相關 2. 簡單追蹤情境中攻擊更容易失敗 3. 挑戰性情境為對抗擾動提供更多潛在空間 ![image](https://hackmd.io/_uploads/H1AH-gpV1x.png) ==圖 8.== PlugAtt 在 DaSiamRPN 上的失敗案例。綠色邊框表示乾淨影像上的追蹤結果，而黃色邊框表示對抗影像上的預測。前兩列顯示了攻擊的失敗案例。第三列展示了追蹤器無法抵抗攻擊的時刻。第四列顯示了 PlugAtt 在三幀影像中的損失收斂過程。 ::: --- --- :::info ==表 I==不同類別的對抗攻擊比較表 (黑箱VS白箱、2種範數、在線或離線訓練、決策層與中間層、目標與非目標) - 黑箱：攻擊者一無所知 - 白箱：攻擊者對模型完全了解，包含架構、參數、梯度納入2種範數(量化擾動，限制為無法察覺的微小像素徧移，讓肉眼無法分辨) L2 norm，測量向量的歐幾里得距離，限制擾動的==總能量強度== L∞ norm，測量向量中最大絕對值的元素，限制擾動==最大變化幅度== - 在線：本文提出在線優化策略，在跨幀的遷移性時說明 - 離線：只需一次前向傳播生成對抗性擾動 - 決策層與中間層攻擊：下面公式說明 - 目標：讓預測結果變成特定錯誤目標 - 非目標：只要有任何錯誤預測就行 ![image](https://hackmd.io/_uploads/B1H18D3Eye.png) ==表 I== 中列出的各種攻擊方法進行詳細說明，包括 CSA、One-shot、IoUAttack、DIMBA、UEN、FAN、ABA、RTAA、PAT、MTD、SiamAttack、SPARK、Ad2attack，最後是本文提出的 PlugAtt。 --- 1. CSA (Comprehensive Search Attack) CSA 是一種基於搜尋的攻擊方法，會針對目標的最優解進行全域搜尋，尋找能有效擾亂追蹤器的對抗性擾動。這種方法比較消耗計算資源，但能夠找到最有力的攻擊方案。 2. One-shot Attack One-shot 攻擊指的是通過一次計算或單步優化來產生對抗性樣本的攻擊方法。這類方法的優點是計算速度快，適合在實時系統中使用，但攻擊效果可能不如多次迭代的攻擊方法。 3. IoUAttack IoUAttack 是專門針對物件追蹤中使用的「交併比」(Intersection over Union, IoU)進行優化的攻擊。目標是通過修改輸入圖像，使得追蹤器預測的邊界框與真實物體的邊界框之間的 IoU 最大化偏差。 4. DIMBA (Discriminative Intermediate-layer Boosting Attack) DIMBA 是一種針對追蹤器中間層的攻擊方法。它專注於擾亂中間層特徵，增加對抗性樣本和正常樣本之間的差異，從而導致追蹤器預測錯誤。 5. UEN (Unsupervised Encoder-Network) UEN 是一種無監督學習的方法，使用編碼器網路來生成對抗性樣本。這種方法依賴於對特徵空間的學習，並根據學到的特徵生成攻擊。 6. FAN (Feature-level Adversarial Network) FAN 是一種基於特徵層的對抗網路，攻擊過程專注於模型的特徵表示層，試圖最大化對抗樣本與自然樣本之間的特徵分佈差異。 7. ABA (Adaptive Boundary Attack) ABA 是一種自適應的邊界攻擊方法，旨在針對追蹤邊界進行擾動，使得追蹤器無法精確定位目標物體。這種方法對於攻擊具有高度靈活性。 8. RTAA (Real-Time Adversarial Attack) RTAA 是一種設計用於實時環境的對抗攻擊。這種方法在低計算成本下生成對抗樣本，適合應用於對延遲要求高的實時系統中，如自動駕駛。 9. PAT (Perturbation-based Adversarial Training) PAT 是一種基於擾動的對抗訓練技術，通過向模型訓練過程中引入對抗樣本來增強模型的魯棒性。它同時也是一種攻擊與防禦結合的技術。 10. MTD (Multiple Target Distraction) MTD 是一種針對多目標追蹤系統的攻擊方法。它通過製造對抗性樣本，使追蹤器無法分辨多個物體中的真實目標，從而影響追蹤效果。 11. SiamAttack SiamAttack 是專門針對 Siamese 網路結構的攻擊方法。這類網路常用於物件追蹤，因此 SiamAttack 通過干擾 Siamese 網路的雙路徑結構，迫使其產生錯誤的追蹤預測。 12. SPARK (Sparse Perturbations Attack) SPARK 是一種稀疏擾動攻擊，這意味著它只對少數的輸入像素進行修改。這樣可以讓擾動不容易被發現，同時仍然能有效攻擊模型。 13. Ad2attack Ad2attack 是一種針對深度學習模型的對抗性二次攻擊，這意味著它不僅在初次攻擊時產生擾動，還會根據模型的反應進行二次優化，以提高攻擊效果。 14. PlugAtt (Pluggable Attack) PlugAtt 是本文提出的方法，它的核心思想是在追蹤器的中間層進行對抗性攻擊。與以往攻擊主要針對輸出決策層不同，PlugAtt 通過擾亂模型的中間特徵來達到攻擊目的，這樣的好處是可以適用於多種追蹤架構。 ::: :::success ==表 II== 在 OTB100 資料集上分析使用相同追蹤器 DaSiamRPN 在==中間層攻擊==、==決策層攻擊==及其==融合版本==的效果。 - 原始和隨機噪聲代表 DaSiamRPN 的原始性能 - 加入隨機噪聲與融合攻擊做比較： - $\mathrm{L}_\mathrm{adv}^\mathrm{mse+}$、$\mathrm{L}_\mathrm{adv}^\mathrm{var+}$、$\mathrm{L}_\mathrm{adv}^\mathrm{mean+}$ 和 $\mathrm{L}_\mathrm{adv}^\mathrm{act+}$ 表示將==單一中間層攻擊==與 ==$\mathrm{L}_\mathrm{adv}^\mathrm{dec}$== 融合的結果。 - $\mathrm{L}_\mathrm{adv}^\mathrm{fuse−}$ 代表==四種中間層攻擊的融合== - $\mathrm{L}_\mathrm{adv}^\mathrm{fuse}$ 則是將==所有==中階層和決策層==攻擊融合==的結果。 ==表 II== 結論： - 攻擊比隨機噪聲擾動造成追蹤器性能更大下降 - 融合不同類型對抗目標函數，SUC和PRE指標性能下降最多 - 決策層攻擊混淆前景與背景語義 - $\mathrm{L}_\mathrm{adv}^\mathrm{dec}$ 和 $\mathrm{L}_\mathrm{adv}^\mathrm{mse}$ 從空間角度搜尋對抗擾動 - $\mathrm{L}_\mathrm{adv}^\mathrm{var}$、$\mathrm{L}_\mathrm{adv}^\mathrm{mean}$ 和 $\mathrm{L}_\mathrm{adv}^\mathrm{act}$ 則專注於干擾通道激活的分佈 ![image](https://hackmd.io/_uploads/BywM8DnE1e.png) ==表 II== 在 OTB100 資料集上分析中階層攻擊、決策層攻擊及其融合版本的效果。原始和隨機均值代表 DaSiamRPN 的原始性能以及加入隨機噪聲的攻擊。$\mathrm{L}_\mathrm{adv}^\mathrm{mse+}$、$\mathrm{L}_\mathrm{adv}^\mathrm{var+}$、$\mathrm{L}_\mathrm{adv}^\mathrm{mean+}$ 和 $\mathrm{L}_\mathrm{adv}^\mathrm{act+}$ 表示將單一中階層攻擊與 $\mathrm{L}_\mathrm{adv}^\mathrm{dec}$ 融合的結果。$\mathrm{L}_\mathrm{adv}^\mathrm{fuse−}$ 代表四種中階層攻擊的融合，而 $\mathrm{L}_\mathrm{adv}^\mathrm{fuse}$ 則是將所有中階層和決策層攻擊融合的結果。 ::: :::info ==表 III== DaSiamRPN在不同類型攻擊的回應圖統計分析 - 觀察回應圖的均值和變異數，得知不同攻擊方法會產生不同的影響。 - 攻擊方式的均值與變異數: - 決策層攻擊($\mathrm{L}_{\mathrm{adv}}^{\mathrm{dec}}$): 均值和變異數==非常高== - 對照基準為隨機噪聲: 均值和變異數居中 - 中間層攻擊($\mathrm{L}{\mathrm{adv}}^{\mathrm{mse}}$、$\mathrm{L}{\mathrm{adv}}^{\mathrm{var}}$和$\mathrm{L}_{\mathrm{adv}}^{\mathrm{act}}$): 均值和變異數==非常低== - ==$\mathrm{L}_{\mathrm{adv}}^{\mathrm{mean}}$==均值和變異數比隨機噪聲稍低 - 差異反映了不同攻擊策略對追蹤器的影響方式: - 高均值和高變異數=>大部分區域高置信度,但難以區分目標和背景。 - 低均值和低變異數=>整個圖像置信度都很低，無法定位目標。 - 統計數據顯示不同攻擊策略具獨特欺騙追蹤器的方式，可做為改良對抗攻擊之參考。 ==想像追蹤器是一個尋寶者，而回應圖就是他的寶藏地圖。== ==表 III== 的==均值==就像是地圖上的==整體亮度==。高均值意味著地圖上到處都閃亮亮的，尋寶者會覺得”哇，寶藏可能在任何地方!”。低均值則像是一張昏暗的地圖，尋寶者會想”這裡好像沒什麼特別的啊”。變異數則像是地圖上明暗的對比度。高變異數就像有明顯的亮點，尋寶者會想”那個特別亮的地方一定有寶藏!”。低變異數則像是一張均勻的地圖，尋寶者會覺得”這地圖上所有地方看起來都差不多”。對抗攻擊就是要讓這張地圖變得難以閱讀。有的攻擊($\mathrm{L}_{\mathrm{adv}}^{\mathrm{dec}}$)會讓地圖變得特別亮,但對比度仍高。有的攻擊($\mathrm{L}_{\mathrm{adv}}^{\mathrm{mse}}$、$\mathrm{L}_{\mathrm{adv}}^{\mathrm{var}}$、$\mathrm{L}_{\mathrm{adv}}^{\mathrm{act}}$)則會讓地圖變得又暗又模糊。而$\mathrm{L}_{\mathrm{adv}}^{\mathrm{mean}}$看此處的均值與變異數並不明顯，要參考圖 6的回應圖。就如同我們需要考慮整個”寶藏地圖”(回應圖)的可讀性，以及尋寶者(追蹤器)最終能否找到寶藏(目標)。 ![image](https://hackmd.io/_uploads/H1H0Rk6Vkg.png) ==表 III== 對 OTB100 數據集上不同類型攻擊所伴隨的 DaSiamRPN 回應圖的統計分析 ::: :::success ==表 IV== PlugAtt對不同追蹤範式的攻擊效果 1. 測試對象: • DaSiamRPN (Siamese範式) • PrDiMP (DCF範式) • SimTrack (TransFormer範式) 2. 主要發現: • 所有中間層級攻擊方法都能有效干擾不同範式追蹤器 • 不同攻擊方法對不同追蹤器的效果各異: • $\mathrm{L}_{\mathrm{adv}}^{\mathrm{act}}$: 對DaSiamRPN最有效 • $\mathrm{L}_{\mathrm{adv}}^{\mathrm{mse}}$: 對PrDiMP影響最大 • $\mathrm{L}_{\mathrm{adv}}^{\mathrm{mean}}$: 對SimTrack最有效 • 融合多種攻擊方法能在各種範式上產生穩定有效的擾動 • 攻擊骨幹特徵比攻擊IoU-Net更有效 • 更大的模型容量(higher model capacity)不一定有更好的對抗性的魯棒性(adversarial robustness) 3. 結論: • PlugAtt在不同追蹤範式上都表現出色 • 融合攻擊方法可提高整體效能 ![image](https://hackmd.io/_uploads/BkqTegT4ye.png) 表 IV 提出的四種中階層級攻擊演算法及其組合對 DaSiamRPN、PrDiMP 和 SimTrack 受害者追蹤器的影響 ::: :::info ==表 V== PlugAtt對==長期追蹤器GlobalTrack==的效果 1. 短期vs長期追蹤的區別:序列長度：長期(分鐘級) vs 短期(秒級) 2. 挑戰：長期面臨更多挑戰,如目標消失和重新出現 3. 長期追蹤的兩種範式： - 局部-全局切換範式：結合局部短期追蹤器和全局檢測器 - 全局追蹤範式：逐幀在整個圖像中檢測目標 4. PlugAtt對GlobalTrack進行融合攻擊：攻擊效果(TLP數據集)SUC和PRE指標下降約75% 5. 局限性：對於「局部-全局切換範式」的追蹤器難完美適應 6. 未來研究方向: - 改進對局部-全局切換範式追蹤器的攻擊 - 提高攻擊方法的計算效率 ![image](https://hackmd.io/_uploads/rJ4g-epV1l.png) ==表 V== GlobalTrack 在長期 TLP 基準測試中的表現，無擾動情況下、隨機噪聲的影響以及由 PlugAtt 生成的對抗性擾動影響 ::: :::success ==表 VI== PlugAtt與==最先進攻擊方法==的比較 ![image](https://hackmd.io/_uploads/HyszZgpN1x.png) 1. 比較對象: • SiamRPN++追蹤器: 與UEN、CSA、One-shot、ABA、TTP等方法比較 • DaSiamRPN追蹤器: 與RTAA方法比較 2. 評估指標: • 成功率(SUC) • 精確度(PRE) 3. 結果: • PlugAtt在三個數據集(OTB100、UAV123、LaSOT)，兩種追蹤器攻擊效果都優於其他方法 4. 結論: • PlugAtt與其他最先進攻擊方法比較，有最佳攻擊效果 • PlugAtt將SUC和PRE指標都降低到不到10%,受害追蹤器已失去基本功能 • 與RTAA的比較顯示了PlugAtt在中間層級和決策層級攻擊聯合優化的優勢 ![image](https://hackmd.io/_uploads/HyszZgpN1x.png) ==表 VI== 與最先進攻擊方法的比較，測量指標為 OTB100、UAV123 和 LaSOT 數據集上的成功率 (SUC) 和精確度 (PRE) 分數 ::: ---