--- tags: paper reading --- # LinUCB 筆記 ## 概念 想像你的面前有很多很多台不同的老虎機,而你的手上有各式各樣的籌碼,你想要用手中的籌碼從機台中獲取最大利益,但你不知道每台老虎機的特性,因此你需要***LinUCB*** ## 參數 - T: 回合數 - K: 機台個數 - d: 籌碼種類 - $r_{t,a}$: 在0到1之間,代表在第t回合,選擇第a個機台的收益 - $x_{t,a}$: 為d維的向量,代表在第t回合,想要使用的籌碼組合 - $||x_{t,a}||$: 代表$x_{t,a}$在L2 norm的數值 - $L2 norm$ = $({\Sigma}_{i=1}^{n}|x_i|^2)^{\frac{1}{2}}$ - norm: 範數 假設V是域F上的向量空間,V的半範數(seminorm)為一函數$P:V{\rightarrow}{\mathbb{R}}$; $x{\rightarrow}{P(x)}$,其中,滿足:$\forall a \in F$, $\forall u,v \in V$,則有以下特性: 1. $P(v) \geq 0$ (半正定性 positive semidefinite) 2. $P(av) = |a|P(v)$ (絕對一次性) 3. $P(u+v) \leq P(u) + P(v)$ (三角不等式) 4. $P(v)=0$ if and only if v is a zero vector ## 流程 1. 選擇一組要使用的籌碼 2. 計算每個機台可能獲得的回報 3. 選擇最高的那一個機台 4. 更新計算回報的矩陣($\theta^*$),回到step 1 在一開始時,每一台機器的回報都為1,而計算回報的公式為 ${{\theta}_t^\mathit{T}}{x_{t,a}}+{{\alpha}{\sqrt{{x_{t,a}^{\mathit{T}}A^{-1}}{x_{t,a}}}}}$ ${{\alpha}{\sqrt{{x_{t,a}^{\mathit{T}}A^{-1}}{x_{t,a}}}}}$ - $\alpha$:探索的趨勢,越大代表越傾向於探索新的機器,越小代表越傾向於使用當前的回報矩陣所得出的機器 - ${{x_{t,a}^{\mathit{T}}A^{-1}}{x_{t,a}}}$:計算當前的籌碼組合與曾經用這台機器的籌碼組合相似度