[Explainable AI] XAI文獻搜尋筆記: XAI for Vision Transformer

# [Explainable AI] XAI文獻搜尋筆記: XAI for Vision Transformer ###### tags: `Literature Reading` `XAI` `Visualization` `Interpretability` `Transformer` 筆記一些在Vision Transfonmer領域的可解釋性方法，目前相關文章還不是很多，以下依引用術或重要性排序 ### [Transformer Interpretability Beyond Attention Visualization](https://arxiv.org/abs/2012.09838) #### [官方code](https://github.com/hila-chefer/Transformer-Explainability) #### [Transformer Interpretability Beyond Attention Visualization詳細筆記](https://hackmd.io/@YungHuiHsu/rk8ZHeqys) ## 核心概念 ![](https://hackmd.io/_uploads/ryGf4TFCq.png =500x) ![](https://hackmd.io/_uploads/BJ7dN6tRq.png =500x) --- ### [Visualizer！简化你的Vision Transformer可视化](https://zhuanlan.zhihu.com/p/398408338) ##### [官方code](https://github.com/luo3300612/Visualizer) 自刻的一個小套件，簡單易用，引用的人還不少 > 如果要使用hooks其中的问题就是嵌套太深，模块名不清晰，我们根本不知道我们要取的attention map怎么以model.bla.bla.bla这样一直点出来！一般来说，Transformer中attention map每层都有一个，一个个注册实在太麻烦了所以我就思考并查找能否通过更简洁的方法来得到Attention Map（尤其是Transformer的）,而visualizer就是其中的一种，它具有以下特点: > - 精准直接，你可以取出任何变量名的模型中间结果 > - 快捷方便，同时取出Transformer类模型中的所有attention map > - 非侵入式，你无须修改函数内的任何一行代码 > 训练-测试一致，可视化完成后，你无须在训练时再将代码改回来 ![](https://hackmd.io/_uploads/ByANuGOGq.png =400x) --- ### [Dodrio: Exploring Transformer Models with Interactive Visualization](https://arxiv.org/abs/2103.14625) ##### [官方code](https://github.com/poloclub/dodrio) ##### [互動式探索](https://poloclub.github.io/dodrio/) 提供互動式探索網站，但還看不懂在幹嘛，可能是偏NLP領域 ![](https://hackmd.io/_uploads/ryu49GdM9.png =600x) ![](https://hackmd.io/_uploads/rkv1cGOM5.png =400x) --- ### [Better Explanations through Conservative Propagation](https://arxiv.org/abs/2202.07304?fbclid=IwAR265K4zPxnEQfBPYyBxGKGrjJIGwwv-kk7fIRoxjfO6vHpMaLDAZQDxBNQ) ##### [官方code](https://github.com/ameenali/xai_transformers) 滿新的一篇，不確定能否可用 ![](https://hackmd.io/_uploads/rJ6zPMOf5.png =300x) ![](https://hackmd.io/_uploads/HyDJDMdf9.png =300x) --- 其他，不是可解釋性工具，但值得一看 ### [Visualization of Self-Attention Maps in Vision](https://epfml.github.io/attention-cnn/) ### [Are Convolutional Neural Networks or Transformers more like human vision?](https://arxiv.org/abs/2105.07197) #### 中文介紹 - [正面刚CNN，Transformer居然连犯错都像人类](https://zhuanlan.zhihu.com/p/393204542?fbclid=IwAR0HdXlORgVsvTirkDn0Mc2jzjzkZRvsnVyA3z6sk9og0XqecKfbpGmg-No) > 最近普林斯顿的一项研究认为，Transformer的运作方式更接近人类，连犯错的方式都和人类一样。研究团队在图像分类的准确率之外，增加了对错误类型的分析。结果发现，与CNN相比，ViT更擅长判断形状。此前在ICLR2019上发表的一篇论文提出，用ImageNet训练的CNN模型更倾向于通过纹理分类图像。如下图中混合了大象皮肤纹理的猫被判断成了大象。 ![](https://i.imgur.com/NhSeWLQ.png) > ViT模型，使用相同数据集训练，就倾向于通过形状分类图像，并且表现比CNN更好。 > 在普林斯顿大学对比CNN和ViT的这篇论文中，还建立了错误一致性这个指标来对各个模型进行评判。 > 从WordNet中选取了16个概念(如飞机、熊、键盘等)来衡量CNN和ViT犯错的类型。 > 从结果可以看出，ViT和人类一样，更倾向于通过形状判断物体。 ![](https://hackmd.io/_uploads/HJsk3GuMq.png =400x)