讨论 2020-11-19 = ###### tags: `tutorials` `Fudan` `2020` # 经典模型及算法导览 (三) ## VAE和GAN的延伸 本次内容主要涵盖围绕VAE和GAN的几个重要延伸和应用 ### Wasserstein GAN (WGAN) #### divergence 只要满足非负,同一性,三角形不等式二元函数就可以作为一个距离函数,并且很多我们使用的对两个随机变量的距离估计还不满足上述所有条件。本质上,有无数种距离测量方法,它们的物理含义是人们后天赋予的,有些距离函数的设计还兼顾了实用性。 https://en.wikipedia.org/wiki/Statistical_distance #### f-divergence 众多对随机变量的度量函数中,有一个非常庞大的家族就是f-divergence,它涵盖了KL,JSD,TV等常用距离。 https://en.wikipedia.org/wiki/F-divergence 但f-divergence有一个通病,那就是它是定义在每个公共事件上的。什么意思?它的每一项都是考虑两个概率分布在同一点(事件)上的概率密度来计算的,即$f(P(x), Q(x))$,P,Q为两个分布,x为一个点。看似合理,但一个显然的问题是,如果两个分布定义域不相交,或重合度很小,怎么算距离?比如定义在数轴上的一个高斯分布,我们把它平移一段距离,两个分布的f-divergence几乎就达到了最远值,但两个分布形状是完全一致的,在很多场景下,这是不合理的。 #### Wasserstein Distance 我们抛开原定义,只看其对偶形式(如何得到对偶形式[可见](https://vincentherrmann.github.io/blog/wasserstein/)) $$W(P,Q)=\sup_{||f||_L\leq1} \mathbb{E}_{x\sim P} [f(x)] - \mathbb{E}_{x\sim Q} [f(x)]$$ 可以看到,Wasserstein Distance不是定义在相同事件上的,这也就表示他更关注分布的形态而非采样空间。 这也是WGAN原文例子想强调的问题 https://arxiv.org/pdf/1701.07875.pdf ### VAE+RNN VAE+RNN的结合有一个重要的特点,即条件独立性,在原本的VAE中,假如一个图像X由$x_1,x_2,x_{nm}$个像素点组成,在给定z的情况下,这些像素点条件独立。但在VAE+RNN里,假如一句话X由$x_1,x_2,...x_n$个词组成,给定z,他们也不独立,而是遵从auto regressive的依赖关系。严格来说,这不是一个VAE模型,而是VAE和CVAE的混合模型。 https://www.aclweb.org/anthology/K16-1002.pdf ![](https://i.imgur.com/WLIP9aQ.png) ![](https://i.imgur.com/e5uQDuD.png) #### Adversarial的妙用 假如我们知道输入信息中包含一个特定的因素X,现在希望抽去特征时避开因素X,该如何处理?正统的做法是让其互信息为0,但在高维空间这是不可行的。而Adversarial恰好可以有效处理这一问题。 https://jmlr.org/papers/volume17/15-239/15-239.pdf ![](https://i.imgur.com/9wvw83o.png) ## 预告 ### 句法结构