Permeet 0520 - HackMD

--- title: Permeet 0520 date: May,20 --- ## Paper reading ### [A CONVLSTM-COMBINED HIERARCHICAL ATTENTION NETWORK FOR SALIENCY DETECTION ](https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9190788&tag=1)(ICIP 2020) ### 上週問題 ### Block-wise attention mechanism ![](https://i.imgur.com/4FV9Oyr.png) 只是把H × W × C 的 C upsampling 後再做一次 CA ### ConvLSTM #### LSTM ![](https://i.imgur.com/toFjl0v.png) 原先 LSTM 的in/out都是vector #### SA ![](https://i.imgur.com/BuVNksI.png) 有找到另一論文提出ConvLSTM，但不確定是否兩個結構相同 ### [Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting](https://arxiv.org/abs/1506.04214) #### ConvLSTM 原先LSTM公式如下: ![](https://i.imgur.com/V3JHvDO.png) 此論文有幾個改變 1.將fully-connect layer改成convolutional layer 2.input 改成 tensor ![](https://i.imgur.com/ubYQFv5.png) 其中$W$是kernel size， "$*$"表示 convolution，"$。$" 表示 Hadamard product ConvLSTM會將image分割為多塊輸入 ![](https://i.imgur.com/i2UymBW.png) 上圖展示的是原本2D的圖片為(X, Y)，而這邊的P是(X, Y）中的某一點，而當添加了時序後，P會從(x,y) => (x, y, z) ConvLSTM 示意圖: ![](https://i.imgur.com/l5U1Bgv.png) outputs : $C$ hidden states : $H$ input : $X$ ### 問題 1.目前看起來兩種ConvLSTM應該是不同的結構，可能要等開源才有辦法得知裡面的ConvLSTM實際架構為何 ### [RepVGG: Making VGG-style ConvNets Great Again](https://arxiv.org/pdf/2101.03697.pdf) ### 上週問題 ### re-parameterization ![](https://i.imgur.com/iE5aRMH.png) 分為三個步驟 1. 先將分支中的BN跟Conv融合 2. 將1×1的Conv轉換成3×3的Conv 3. 將三個分支的$W$ 相加，得到新的3×3 Conv權重 ### 問題 1. 還沒理解如何將BN&Conv融合，有找到其他論文詳細推導 ## 下周進度 ### Paper 1. 理解BN&Conv融合 2. 讀完RepVGG code ### 農業可能負樣本的數量太少，還是會框到背景 ### 研究部分 1. 有看到一些網路都有用到CA，想要比對一下差異