gan论文十大排名(论文排行榜)
大家好!今天让创意岭的小编来大家介绍下关于gan论文十大排名的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。
开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等
只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端
本文目录:
一、推荐系统论文阅读(二十九)-美团:利用历史交互数据改进对话推荐系统
论文:
题目:《Leveraging Historical Interaction Data for Improving Conversational Recommender System 》
地址: https://dl.acm.org/doi/pdf/10.1145/3340531.3412098
这是我第一次将美团发表的论文写在这上面,该论文是人大跟美团这边合作在CIKM上面的一篇短论文,研究的是如何利用历史交互的数据来进行对话式的推荐。
最近,对话推荐系统(CRS)已成为一个新兴且实用的研究主题。 现有的大多数CRS方法都专注于仅从对话数据中为用户学习有效的偏好表示。 然而,本论文从新的视角来利用历史交互数据来改善CRS。 为此,这篇论文提出了一种新颖的预训练方法,以通过预训练方法集成基于物品的偏好序列(来自历史交互数据)和基于属性的偏好序列(来自对话数据)。
随着电子商务平台中智能代理的快速发展,对话推荐系统(CRS)已成为寻求通过对话向用户提供高质量推荐的新兴研究主题。 通常,CRS由对话模块和推荐模块组成。 对话模块侧重于通过多回合互动获取用户的偏好,推荐模块侧重于如何利用推断出的偏好信息为用户推荐合适的商品。
现有的大多数CRS都以“系统要求用户响应”模式设计的。在每轮对话中,CRS都会发出有关用户偏爱的问题,并且用户会使用个性化反馈对系统进行回复。通常,系统会根据商品的某些属性(例如,你最喜欢的电影类型是什么)来生成系统查询,并且用户反馈会反映用户对该属性的特定偏爱(例如,我喜欢动作电影)。主流方法是构造一种跟踪模块,该模块可以从这种多轮对话中推断出用户的基于属性的偏好。以此方式,可以将所推断的偏好呈现为所推断属性的序列(例如,电影CRS中的“流派=动作→导演=詹姆斯·卡梅隆”。有了这个序列后,我们就可以用一些方法来进行推荐来,比如可以采用知识图谱来进行推荐。
但是,这些现有的CRS研究存在两个主要问题。首先,对话本身的信息非常有限。许多CRS得到了进一步优化,以减少系统与用户交互的回合数。因此,在基于属性的推断偏好中,可能会丢失一些有用的属性。其次,仅利用基于属性的偏好来进行推荐可能还不够。例如,即使在过滤了几个属性之后,候选项目集仍可能很大。
现在要解决以上提到的两个问题,我们就需要把基于item的方式和基于属性的方式进行结合。其中,基于历史交互item的方式反映的是用户的长期兴趣,基于会话属性的方式反映的是用户当前的兴趣,也就是短期兴趣,这是一个典型的长短期兴趣结合的任务。
A:之前说了,在CRS系统中,一个用户进行多轮对话后,会有一个item属性的集合,A就是这个集合
= ,其中 属于A,是item的属性,n是属性序列的长度
,其中 是用户在对话前第k步与之交互的item
:我们进一步假设每个项目ik也与一组属性值相关联,用Aik表示,它是整个属性集A的子集。
任务的定义:根据CRS模块,首先收集到基于属性的序列 ,然后利用点击序列 进行推荐。关于这个任务的定义,深入理解应该是这样:我们是先有属性序列,然后主要根据点击序列进行推荐,属性序列的建模是子模块任务,序列推荐是主任务,序列推荐任务在属性序列更新后可以反复利用这个信息,只要属性序列更新。
论文的base model是用Transformer做的,输入部分是embedding层,这部分除了有item id的embedding矩阵,还有属性的embedding矩阵,输入还有个P,这个就不说了,位置向量。
中间的运算就是Transformer的过程了,self-attention 跟ffn,这里不懂transformer结构的可以看一下论文。
输出部分是预测候选item i的概率:
其中ei是i的原始embedding向量,W是映射矩阵,两个s是item和属性经过transformer结构出来的最后一个向量。
熟悉bert的都知道mask language model,把item序列中的item 用mask替代,然后预测这些被mask掉的item。
其中fik是item transformer结构出来的位置k出来的向量,SA是熟悉结构出来的Aik的位置出来的向量,W是映射矩阵,eik是原始的item embedding。
为了更好的让item based的信息跟attribute based的信息进行融合,论文也采取了一种另类的mask方法,用随机负采样的属性来替代Aik,
其中fik是被替换的那个item经过trm出来的向量,W是映射矩阵,faj是属性trm出来的向量,预测的概率是aj是否是被替换过。
在LTR里面,如果采用的是pairwise的优化方式,那么负采样的技术就至为关键了,而且优化了正样本的概率大于负样本的能力,所以需要选取一种负采样的方法来给我们整个模型的优化带来提升。
MIP里面负采样的方式用的是 IR-GAN 和 ELECT这两篇论文所采用的方式。
改论文选择了SASRec作为第一个阶段的pairwise ranking的模型,这个模型也是论文中用来sample 负样本的模型。负采样是这么做的:我们先用pairwise ranking的方式训练一个模型作为生成器,得到了候选item的概率分布,有了这个概率分布我们就可以拿来负采样了,因为排序高的items跟真实的很接近。至于为什么选择这个模型,论文里面说是因为这个论文在序列推荐任务中的表示特别好,也就是它作为ranking的模型效果还不错。请注意,尽管可以像标准GAN中那样更新生成器,但是我们只训练它的参数一次。 根据经验,我们发现迭代更新带来的改进是有限的。
整个训练分成两个阶段,第一个是预训练阶段,就是训练两个表示学习模型,第二个是微调阶段,学习的是rank loss:
二、论文研读:WGAN
Wasserstain-GAN 是 GAN 中非常重要的一个工作 ,文章:
已有的一些距离,定义 为 compact metrix set (随机变量), 是 的波莱尔子集(?), 是所有定义在 上的分布的空间,对于两个分布 有以下的距离的定义:
这四种距离:
文章作者举了例子来阐述了EM距离在连续性上的优越性:
令 , 是 二维随机变量的分布,而 是二维随机变量 的随机分布族,其中 是超参数。
可以发现,当且仅当 时, 和 是同一分布 ,而当 时, 和 是完全没有交集的两个分布 ,下面我们可以分情况计算这四种距离:
比较这四种距离,发现只有EM距离对于 是连续的, 只有EM距离可以使得当 时,分布族 收敛到 ,而且当两个分布完全不相交时,其他距离对于 的导数是0,使得无法通过梯度下降学习。
EM距离中的 计算是非常困难的,作者使用了Kantorovich-Rubinstein对偶,将距离变成了另一个公式:
上式的意思是,对所有满足 1-Lipschitz 的函数 , 的上确界。
将 1-Lipschitz 条件替换为 K-Lipschitz 条件( 为任意常数),如果我们有满足 K-Lipschitz 条件的函数族 ( ),把求解 变成求最优值的问题:
这里就可以引入函数的万能近似器NN了,将其中的 和 替换,最终得到的WGAN的优化目标为:
其中 表示满足Lipschitz-1条件的函数族。
WGAN的训练过程如下图所述:
不难看出D训练地越好,越能反应真实的Wasserstain距离,所以作者也提出可以 将损失函数的值作为Wasserstain距离的近似,衡量WGAN学习的好坏。
总结的上图的要点有:
一点经验之谈:
WGAN使得训练GAN更加容易,至于Mode Collapse,作者只是提到在实验中并没有发现这一现象。
Lipschitz条件的定义:
直观上看,就是函数 任意两点连线斜率小于 。
满足上述条件的函数也称Lipschitz连续,比起连续的函数,满足Lipschitz连续的函数更加光滑,而且它对函数的变化做了要求: 函数在任意区间的变化不能超过线性的变化 , 线性变化的大小不超过Lipschitz常数 。
在非凸优化中,Lipschitz条件对函数定义了一类边界。
文章是为了方便自己理解而写,所以难免有不清楚或错误之处、或者自创的方便理解的术语,如有错误,欢迎指正。
三、GAN的理解
生成器(Generator,G)即假钞制造者,辨别器(Discriminator,D)的任务是识别假钞,前者想要尽力蒙混过关,而后者则是努力识别出是真钞(来自于原样本)还是假钞(生成器生成的样本)。两者左右博弈,最后达到一种平衡:生成器能够以假乱真(或者说生成的与原样本再也没差),而判别器以1/2概率来瞎猜。
GAN的主要结构包括一个生成器G(Generator)和一个判别器D(Discriminator)。
我们举手写字的例子来进行进一步窥探GAN的结构。
我们现在拥有大量的手写数字的数据集,我们希望通过GAN生成一些能够以假乱真的手写字图片。主要由如下两个部分组成:
目标函数的理解:
其中判别器D的任务是最大化右边这个函数,而生成器G的任务是最小化右边函数。
首先分解一下式子,主要包含:D(x)、(1-D(G(z))。
D(x)就是判别器D认为样本来自于原分布的概率,而D(G(z))就是判别器D误把来自于生成器G造的假样本判别成真的概率。那么D的任务是最大化D(x)同时最小化D(G(z))(即最大化1-D(G(z))),所以综合一下就是最大化D(x)(1-D(G(z)),为了方便取log,增减性不变,所以就成了logD(x)+log(1-D(G(z))。
而G想让 和 足够像,也就是D(G(z))足够大;而logD(x)并不对它本身有影响,所以他的衡量函数可以只是min{log(1-D(z))},也可以加一个对他来说的常数后变为
目标函数的推导、由来
判别器在这里是一种分类器,用于区分样本的真伪,因此我们常常使用交叉熵(cross entropy)来进行判别分布的相似性,交叉熵公式如下:
公式中 和 为真实的样本分布和生成器的生成分布。 关于交叉熵的内容
在当前模型的情况下,判别器为一个二分类问题,因此可以对基本交叉熵进行更具体地展开如下:
为正确样本分布,那么对应的( )就是生成样本的分布。 D 表示判别器,则 表示判别样本为正确的概率, 则对应着判别为错误样本的概率。
将上式推广到N个样本后,将N个样本相加得到对应的公式如下:
到目前为止还是基本的二分类,下面加入GAN中特殊的地方。
对于GAN中的样本点 ,对应于两个出处,要么来自于真实样本,要么来自于生成器生成的样本 ~ ( 这里的 是服从于投到生成器中噪声的分布)。
其中,对于来自于真实的样本,我们要判别为正确的分布 。来自于生成的样本我们要判别其为错误分布( )。将上面式子进一步使用概率分布的期望形式写出(为了表达无限的样本情况,相当于无限样本求和情况),并且让 为 1/2 且使用 表示生成样本可以得到如下:
与原式 其实是同样的式子
若给定一个样本数据的分布 和生成的数据分布 那么 GAN 希望能找到一组参数 使分布 和 之间的距离最短,也就是找到一组生成器参数而使得生成器能生成十分逼真的图片。
现在我们可以从训练集抽取一组真实图片来训练 分布中的参数 使其能逼近于真实分布。因此,现在从 中抽取 个真实样本 { },对于每一个真实样本,我们可以计算 ,即在由 确定的生成分布中, 样本所出现的概率。因此,我们就可以构建似然函数:
从该似然函数可知,我们抽取的 个真实样本在 分布中全部出现的概率值可以表达为 L。又因为若 分布和 分布相似,那么真实数据很可能就会出现在 分布中,因此 个样本都出现在 分布中的概率就会十分大。
下面我们就可以最大化似然函数 L 而求得离真实分布最近的生成分布(即最优的参数θ):
在上面的推导中,我们希望最大化似然函数 L。若对似然函数取对数,那么累乘 ∏ 就能转化为累加 ∑ ,并且这一过程并不会改变最优化的结果。因此我们可以将极大似然估计化为求令 期望最大化的θ,而期望 可以展开为在 x 上的积分形式: 。又因为该最优化过程是针对θ的,所以我们添加一项不含θ的积分并不影响最优化效果,即可添加 。添加该积分后,我们可以合并这两个积分并构建类似 KL 散度的形式。该过程如下:
这一个积分就是 KL 散度的积分形式,因此,如果我们需要求令生成分布 尽可能靠近真实分布 的参数 θ,那么我们只需要求令 KL 散度最小的参数θ。若取得最优参数θ,那么生成器生成的图像将显得非常真实。
下面,我们必须证明该最优化问题有唯一解 G*,并且该唯一解满足 。不过在开始推导最优判别器和最优生成器之前,我们需要了解 Scott Rome 对原论文推导的观点,他认为原论文忽略了可逆条件,因此最优解的推导不够完美。
在 GAN 原论文中,有一个思想和其它很多方法都不同,即生成器 G 不需要满足可逆条件。Scott Rome 认为这一点非常重要,因为实践中 G 就是不可逆的。而很多证明笔记都忽略了这一点,他们在证明时错误地使用了积分换元公式,而积分换元却又恰好基于 G 的可逆条件。Scott 认为证明只能基于以下等式的成立性:
该等式来源于测度论中的 Radon-Nikodym 定理,它展示在原论文的命题 1 中,并且表达为以下等式:
我们看到该讲义使用了积分换元公式,但进行积分换元就必须计算 ,而 G 的逆却并没有假定为存在。并且在神经网络的实践中,它也并不存在。可能这个方法在机器学习和统计学文献中太常见了,因此我们忽略了它。
在极小极大博弈的第一步中,给定生成器 G,最大化 V(D,G) 而得出最优判别器 D。其中,最大化 V(D,G) 评估了 P_G 和 P_data 之间的差异或距离。因为在原论文中价值函数可写为在 x 上的积分,即将数学期望展开为积分形式:
其实求积分的最大值可以转化为求被积函数的最大值。而求被积函数的最大值是为了求得最优判别器 D,因此不涉及判别器的项都可以看作为常数项。如下所示,P_data(x) 和 P_G(x) 都为标量,因此被积函数可表示为 a D(x)+b log(1-D(x))。
若令判别器 D(x) 等于 y,那么被积函数可以写为:
为了找到最优的极值点,如果 a+b≠0,我们可以用以下一阶导求解:
如果我们继续求表达式 f(y) 在驻点的二阶导:
其中 a,b∈(0,1)。因为一阶导等于零、二阶导小于零,所以我们知道 a/(a+b) 为极大值。若将 a=P_data(x)、b=P_G(x) 代入该极值,那么最优判别器 D(x)=P_data(x)/(P_data(x)+P_G(x))。
最后我们可以将价值函数表达式写为:
如果我们令 D(x)=P_data/(P_data+p_G),那么我们就可以令价值函数 V(G,D) 取极大值。因为 f(y) 在定义域内有唯一的极大值,最优 D 也是唯一的,并且没有其它的 D 能实现极大值。
其实该最优的 D 在实践中并不是可计算的,但在数学上十分重要。我们并不知道先验的 P_data(x),所以我们在训练中永远不会用到它。另一方面,它的存在令我们可以证明最优的 G 是存在的,并且在训练中我们只需要逼近 D。
当然 GAN 过程的目标是令 P_G=P_data。这对最优的 D 意味着什么呢?我们可以将这一等式代入 D_G*的表达式中:
这意味着判别器已经完全困惑了,它完全分辨不出 P_data 和 P_G 的区别,即判断样本来自 P_data 和 P_G 的概率都为 1/2。基于这一观点,GAN 作者证明了 G 就是极小极大博弈的解。该定理如下:
「当且仅当 P_G=P_data,训练标准 C(G)=maxV(G,D) 的全局最小点可以达到。」
以上定理即极大极小博弈的第二步,求令 V(G,D ) 最小的生成器 G(其中 G 代表最优的判别器)。之所以当 P_G(x)=P_data(x) 可以令价值函数最小化,是因为这时候两个分布的 JS 散度 [JSD(P_data(x) || P_G(x))] 等于零,这一过程的详细解释如下。
原论文中的这一定理是「当且仅当」声明,所以我们需要从两个方向证明。首先我们先从反向逼近并证明 C(G) 的取值,然后再利用由反向获得的新知识从正向证明。设 P_G=P_data(反向指预先知道最优条件并做推导),我们可以反向推出:
该值是全局最小值的候选,因为它只有在 P_G=P_data 的时候才出现。我们现在需要从正向证明这一个值常常为最小值,也就是同时满足「当」和「仅当」的条件。现在放弃 P_G=P_data 的假设,对任意一个 G,我们可以将上一步求出的最优判别器 D* 代入到 C(G)=maxV(G,D) 中:
因为已知 -log4 为全局最小候选值,所以我们希望构造某个值以使方程式中出现 log2。因此我们可以在每个积分中加上或减去 log2,并乘上概率密度。这是一个十分常见并且不会改变等式的数学证明技巧,因为本质上我们只是在方程加上了 0。
采用该技巧主要是希望能够构建成含 log2 和 JS 散度的形式,上式化简后可以得到以下表达式:
因为概率密度的定义,P_G 和 P_data 在它们积分域上的积分等于 1,即:
此外,根据对数的定义,我们有:
因此代入该等式,我们可以写为:
现在,如果读者阅读了前文的 KL 散度(Kullback-Leibler divergence),那么我们就会发现每一个积分正好就是它。具体来说:
KL 散度是非负的,所以我们马上就能看出来-log4 为 C(G) 的全局最小值。
如果我们进一步证明只有一个 G 能达到这一个值,因为 P_G=P_data 将会成为令 C(G)=−log4 的唯一点,所以整个证明就能完成了。
从前文可知 KL 散度是非对称的,所以 C(G) 中的 KL(P_data || (P_data+P_G)/2) 左右两项是不能交换的,但如果同时加上另一项 KL(P_G || (P_data+P_G)/2),它们的和就能变成对称项。这两项 KL 散度的和即可以表示为 JS 散度(Jenson-Shannon divergence):
假设存在两个分布 P 和 Q,且这两个分布的平均分布 M=(P+Q)/2,那么这两个分布之间的 JS 散度为 P 与 M 之间的 KL 散度加上 Q 与 M 之间的 KL 散度再除以 2。
JS 散度的取值为 0 到 log2。若两个分布完全没有交集,那么 JS 散度取最大值 log2;若两个分布完全一样,那么 JS 散度取最小值 0。
因此 C(G) 可以根据 JS 散度的定义改写为:
这一散度其实就是 Jenson-Shannon 距离度量的平方。根据它的属性:当 P_G=P_data 时,JSD(P_data||P_G) 为 0。综上所述,生成分布当且仅当等于真实数据分布式时,我们可以取得最优生成器。
前面我们已经证明 P_G=P_data 为 minV(G,D) 的最优点。此外,原论文还有额外的证明白表示:给定足够的训练数据和正确的环境,训练过程将收敛到最优 G。
证明:将V(G,D)=U(pg,D)视作pg的函数,则U为pg的凸函数,其上确界的次导数一定包括该函数最大值处的导数,所以给定D时,通过梯度下降算法更新pg从而优化G时,pg一定会收敛到最优值。而之前又证明了目标函数只有唯一的全局最优解,所以pg会收敛到pdata。
实际上优化G时是更新θg而不是pg。
参考链接:
Generative Adversarial Nets
通俗理解生成对抗网络GAN - 陈诚的文章 - 知乎
机器之心GitHub项目:GAN完整理论推导与实现,Perfect!
论文阅读之Generative Adversarial Nets
四、[GAN笔记] CycleGAN
论文链接: https://arxiv.org/abs/1703.10593
1. 介绍
图像翻译是指将图片内容从一个域转换到另一个域。这类任务一般都需要两个域中具有相同内容的成对图片作为训练数据。比如在pix2pix中,要将白天的图片转换成夜晚的图片(图 1),那么就需要将同一个地方的白天和夜晚的图片作为一对训练数据对模型进行训练。但是这种成对的训练数据很难获得。
2. 方法
3. 效果
论文先将CycleGAN 跟当时的一些图像风格转换的方法在具有成对图像的数据集上进行比较。在这里,用完全监督的方法pix2pix作为上界。可以看到,CycleGAN 生成的图片对于除pix2pix以外的方法来说效果好很多。而相对于pix2pix,CycleGAN 生成的图片虽然不够清晰,但基本接近。
4.总结
CycleGAN 解决了pix2pix 必须使用成对数据进行训练的问题,原理比较简单,但非常有效。只需要不同域的一系列图片即可进行训练。类似的工作还有DualGAN,DiscoGAN。三者的想法和模型基本一样,发在了不同的地方。。
以上就是关于gan论文十大排名相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。
推荐阅读: