Densely Connected CNN with Multi-scale Feature Attention for Text Classification閱讀筆記 === ###### tags: `thesis` [論文連結](http://coai.cs.tsinghua.edu.cn/hml/media/files/2018wangshiyao_DenselyCNN.pdf) ## 前言 大多數應用CNN做文字分類的研究採用的都是固定大小的捲積核,在這個情況下CNN難以去學到不同的n-gram(例如窗口為2就只能學到2-gram,窗口為3學到3-gram...,etc),因此本文提出不同階層的特徵提取方式,並透過attention機制篩選任務所需要的特徵。 ![](https://i.imgur.com/DlOD7mM.png) 本研究與固定窗口研究的比較示意圖 ## 模型架構 ![](https://i.imgur.com/qhgB3Vc.png) ![](https://i.imgur.com/hjAfWyO.png) 以上兩張圖分別為模型邏輯圖以及實作圖 整體架構由許多個Convolution blocks和Dense connection以及Multi-scale Feature Attention組合而成 - 前置:先將m個輸入通過預訓練得到一個d*m維矩陣,通過捲積塊後得到的輸出表示為![](https://i.imgur.com/gMMQSWE.png),其中l為Layer index,m為輸入詞數量,k則是 - Convolution blocks:每一個捲積區塊以公式表示為${X_l=f(W_l,X_{l-1})}$,其中每一個捲積區塊皆包含了一個捲積核、一次Batch Normalization以及一次的ReLU,