# [Explainable AI] XAI文獻搜尋筆記: XAI for Vision Transformer ###### tags: `Literature Reading` `XAI` `Visualization` `Interpretability` `Transformer` 筆記一些在Vision Transfonmer領域的可解釋性方法,目前相關文章還不是很多,以下依引用術或重要性排序 ### [Transformer Interpretability Beyond Attention Visualization](https://arxiv.org/abs/2012.09838) #### [官方code](https://github.com/hila-chefer/Transformer-Explainability) #### [Transformer Interpretability Beyond Attention Visualization詳細筆記](https://hackmd.io/@YungHuiHsu/rk8ZHeqys) ## 核心概念 ![](https://hackmd.io/_uploads/ryGf4TFCq.png =500x) ![](https://hackmd.io/_uploads/BJ7dN6tRq.png =500x) --- ### [Visualizer!简化你的Vision Transformer可视化](https://zhuanlan.zhihu.com/p/398408338) ##### [官方code](https://github.com/luo3300612/Visualizer) 自刻的一個小套件,簡單易用,引用的人還不少 > 如果要使用hooks其中的问题就是 嵌套太深,模块名不清晰,我们根本不知道我们要取的attention map怎么以model.bla.bla.bla这样一直点出来! 一般来说,Transformer中attention map每层都有一个,一个个注册实在太麻烦了 所以我就思考并查找能否通过更简洁的方法来得到Attention Map(尤其是Transformer的),而visualizer就是其中的一种,它具有以下特点: > - 精准直接,你可以取出任何变量名的模型中间结果 > - 快捷方便,同时取出Transformer类模型中的所有attention map > - 非侵入式,你无须修改函数内的任何一行代码 > 训练-测试一致,可视化完成后,你无须在训练时再将代码改回来 ![](https://hackmd.io/_uploads/ByANuGOGq.png =400x) --- ### [Dodrio: Exploring Transformer Models with Interactive Visualization](https://arxiv.org/abs/2103.14625) ##### [官方code](https://github.com/poloclub/dodrio) ##### [互動式探索](https://poloclub.github.io/dodrio/) 提供互動式探索網站,但還看不懂在幹嘛,可能是偏NLP領域 ![](https://hackmd.io/_uploads/ryu49GdM9.png =600x) ![](https://hackmd.io/_uploads/rkv1cGOM5.png =400x) --- ### [Better Explanations through Conservative Propagation](https://arxiv.org/abs/2202.07304?fbclid=IwAR265K4zPxnEQfBPYyBxGKGrjJIGwwv-kk7fIRoxjfO6vHpMaLDAZQDxBNQ) ##### [官方code](https://github.com/ameenali/xai_transformers) 滿新的一篇,不確定能否可用 ![](https://hackmd.io/_uploads/rJ6zPMOf5.png =300x) ![](https://hackmd.io/_uploads/HyDJDMdf9.png =300x) --- 其他,不是可解釋性工具,但值得一看 ### [Visualization of Self-Attention Maps in Vision](https://epfml.github.io/attention-cnn/) ### [Are Convolutional Neural Networks or Transformers more like human vision?](https://arxiv.org/abs/2105.07197) #### 中文介紹 - [正面刚CNN,Transformer居然连犯错都像人类](https://zhuanlan.zhihu.com/p/393204542?fbclid=IwAR0HdXlORgVsvTirkDn0Mc2jzjzkZRvsnVyA3z6sk9og0XqecKfbpGmg-No) > 最近普林斯顿的一项研究认为,Transformer的运作方式更接近人类,连犯错的方式都和人类一样。 研究团队在图像分类的准确率之外,增加了对错误类型的分析。 结果发现,与CNN相比,ViT更擅长判断形状。 此前在ICLR2019上发表的一篇论文提出,用ImageNet训练的CNN模型更倾向于通过纹理分类图像。 如下图中混合了大象皮肤纹理的猫被判断成了大象。 ![](https://i.imgur.com/NhSeWLQ.png) > ViT模型,使用相同数据集训练,就倾向于通过形状分类图像,并且表现比CNN更好。 > 在普林斯顿大学对比CNN和ViT的这篇论文中,还建立了错误一致性这个指标来对各个模型进行评判。 > 从WordNet中选取了16个概念(如飞机、熊、键盘等)来衡量CNN和ViT犯错的类型。 > 从结果可以看出,ViT和人类一样,更倾向于通过形状判断物体。 ![](https://hackmd.io/_uploads/HJsk3GuMq.png =400x)