讨论 2021-04-13

讨论 2021-04-13 = ###### tags: `tutorials` `Fudan` `2021` ## 相关工作 ### Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks CycleGAN 是一篇非常有影响力的文章，原本场景设定在不同类型图像之间的转换，比如照片变油画或水彩风格，后来发展到线稿上色，图像超分辨率，医疗图像降噪等。之后还慢慢影响到了语音和自然语言领域。 https://arxiv.org/pdf/1703.10593.pdf ![](https://i.imgur.com/qB9MlOM.jpg) CycleGAN除了上一讲提到的环形一致性外，还引入了两个对抗学习模块，分别负责约束生成的Y样本要与真实Y样本空间相近，生成的X样本要与真实X样本空间接近。 ![](https://i.imgur.com/QVzVtFA.png) 图像领域对环形一致性的研究最深，但重构误差仍是肉眼可见的，个人认为这是因为图像的细节是无法被domain信息完全覆盖的，就好比同样是油画，每位画家都会有自己的风格，就是类型一样，细节仍有很多不确定性。这也就导致了环形一致性很难达到极致。语音信号同样有类似的问题，而自然语言恰恰是最有潜力的，因为其天然的离散性有效控制了细节的影响程度。 ![](https://i.imgur.com/C0WoaVB.jpg) ### Curriculum CycleGAN for Textual Sentiment Domain Adaptation with Multiple Sources Low-resource 是自然语言处理中经久不衰的话题，这篇文章通过在特征空间的环形一致性，实现了从source feature domain到 target feature domain的迁移，从而把source domain的样本当做target domain来训练分类器，得到的分类器就可以直接用于target domain。这其中涉及到了重构误差，环形一致性,对抗学习，以及课程学习。 https://arxiv.org/pdf/2011.08678.pdf ![](https://i.imgur.com/KenFUpK.png) ### CycleGAN-VC: Non-parallel Voice Conversion Using Cycle-Consistent Adversarial Networks 照搬CycleGAN实现人工合成语音和自然语音的转化，虽然创新性不强，但应用价值很大。 https://www.eurasip.org/Proceedings/Eusipco/Eusipco2018/papers/1570438014.pdf ### Uncertainty-aware Generalized Adaptive CycleGAN 考虑了样本的分布，比如生成的样本和真实样本的概率性质。以图像为例，每个像素点是有不同的不确定性的，应把他们纳入到度量函数的考察范围中。在文本中也一样，应该考虑每个词的不确定性是不一样的。可以直接应用到无监督翻译中（个人不太推荐，创新点有点小） https://arxiv.org/pdf/2102.11747.pdf ![](https://i.imgur.com/8jrkGI1.png) ![](https://i.imgur.com/QdMSsFQ.png) ## 一些简单的idea ### distant supervision + cycle consistency 远程监督的最大挑战就是降噪，而环形一致性可以有效地筛选样本，以实现降噪目的。通过环形一致性打分（经过环形之后的重构误差），重构越好，说明二者匹配度越高。 https://web.stanford.edu/~jurafsky/mintz.pdf https://arxiv.org/pdf/2103.15365.pdf ### unsupervised image caption 这一问题实际上是unpaired image text transformation，非常适合环形一致性，不过也有很多挑战，比如text$\rightarrow$image太难的问题，目前有借助scene-graph等方法。当然也可以借助我们上一讲提到的隐变量方法。 https://ieeexplore.ieee.org/document/9362305 https://arxiv.org/pdf/1903.10658.pdf