机器之心报告
编辑:恶魔杜维
GeoffreyHinton在最近的第43届年度国际信息会议(ACMSIGIR2020)上报道了“ The NextGenerationofNeuralNetworks”。
杰弗里·欣顿(GeoffreyHinton)是Google的副总裁,工程研究员,矢量研究所的科学顾问以及多伦多大学的名誉教授。在2018年,他与Yoshua Bengio和Yann LeCun一起在深度学习领域做出了杰出贡献,获得了图灵奖。
自1980年代以来,GeoffreyHinton一直倡导将机器学习方法用于人工智能研究,他希望通过人脑的工作方式来探索机器学习系统。在人脑的启发下,他和其他研究人员提出了“人工神经网络”(artificial neuro network),为研究机器学习奠定了基础。
那么过去30年中神经网络的未来发展方向是什么?
Hinton在这份报告中回顾了神经网络的发展,并说下一代神经网络将成为无监督比较学习的一部分。
欣顿报告的主要内容如下:
人工神经网络需要解决的最重要问题是如何像大脑一样高效地进行无监督学习。
当前有两种主要类型的无监督学习方法。
第一类的典型代表是BERT和Variational Autoencoder(UAE),它们使用深度神经网络来重构输入,但是这种类型的方法无法解决图像问题,因为网络的最深层将图像细节编码为图像。
Becker和Hinton在1992年提出了另一种方法来训练一个深层神经网络的两个副本,以便当两个输入是同一图像的两个不同的裁剪版本时,它们产生具有高度互信息矢量的输出。这种方法的初衷是将表示形式与输入的无关细节分开。
Becker和Hinton使用的优化的互信息方法具有某些缺点,这就是为什么Pacannaro和Hinton后来将其替换为歧视性目标的原因,其中矢量表示必须从多个矢量表示中选择相应的一个。
随着硬件的加速,学习表征对比最近变得很流行并且被证明是非常有效的,但是它仍然存在一个很大的缺陷:要学习具有互为Nbit信息的表征向量对,我们必须这样做:将正确的对应向量与2N进行比较。向量不正确。
在演讲中,欣顿介绍了一种解决该问题的新方法,并且介绍了一种在大脑皮层中实现认知学习的简便方法。
接下来让我们看一下欣顿演讲的具体内容。
为什么我们需要无监督学习?
在预测神经网络的未来发展之前,Hinton首先检查了神经网络的开发过程。
在演讲开始时,欣顿最初介绍了三个学习任务:监督学习,强化学习和无监督学习,并着重于对无监督学习的需求。
为什么我们需要无监督学习?
欣顿从生物学的角度对此进行了解释,指出人脑具有10 ^ 14个神经元突触,寿命只有10 ^ 9秒,因此,人们不能完全依靠监督学习来完成所有神经元训练,这就是为什么他们需要无监督学习的支持。
受此启发,构建智能模型也需要无监督的学习。
无监督学习的发展
无监督学习如何发展?欣顿向我们介绍了无监督学习的共同目标功能。
紧接着,欣顿详细介绍了自编码器。
Hinton表示,自动编码器是一种使用监督学习来实现无监督学习的方法,其目标是使最终的重建结果与数据相匹配。编码器将数据向量转换为代码,然后解码器在代码上生成数据库。在介绍了自动编码器的定义,困难和现状之后,Hinton着重研究了两种类型的自动编码器:变体自动编码器和BERT自动编码器。
使用深度神经网络重构输入:UAE和BERT
BERT和变分自动编码器(UAE)是无监督学习的典型代表,它们使用深度神经网络来重构输入。
变数自动编码器由Wellings和Kingma于2013年提出,它使用多层编码器选择实数码,然后使用多层解码器重建数据。阿联酋的基本结构如下图所示:
伯特这是谷歌在2018年提出的一种语言表示模型,该模型基于所有级别的左右上下文预训练了深度双向表示。
上下文信息对于BERT非常重要,他们使用屏蔽语言模型(MLM)来实现左侧和右侧上下文的表征和合并,从而提前训练深层双向变压器。
欣顿举了一个例子:“用平底锅煎炸玉米饼”。即使您不知道这句话中弯曲的含义,也可以从上下文中推断出弯曲的含义。
同样适用于视野,但是像BERT这样的方法不能很好地应用于视野,因为网络的最深层必须对图像的细节进行编码。
在讨论了阿联酋和BERT代表的一种无监督学习方法之后,欣顿向我们介绍了另一种无监督学习方法。
贝克尔和欣顿提出了一种最大化相互信息的方法
那么,自动编码器和生成模型是否可以替代?Hinton表示,与自动编码器不同,我们不再尝试解释感官输入的每个细节,而专注于提取空间或时间一致性特征。此方法的优点是可以忽略噪声。
Hinton随后详细介绍了他和SuzannaBecker在1992年提出的一种提取空间一致性特征的方法,其主要思想是最大化输入的两个非重叠面片表示之间的显式互信息,这是一个简单的提取示例。空间一致性变量,如下图所示:
训练后,欣顿指出,空间一致性的唯一特征是“不一致”(TheOnlySpatiallyCoherentPropertyisDisparity),因此也必须将其提取出来。
他说,这种最大化互信息的方法存在一个棘手的问题,并做出以下假设:如果仅学习线性映射并优化线性函数,变量将被分配,但是这种假设不会引起太多问题。
回顾以前的研究方法
在这一部分中,Hinton依次介绍了LLE,LRE,SNE,t-SNE和其他方法。
局部线性嵌入方法(LocallyLinearEmbedding,LLE)
Hinton引入了SamT.Roweis和LawrenceK.Saul在2000年通过LocallyLinearEmbedding科学论文中提到的局部线性嵌入方法,该方法可以在二维图像中显示高维数据点并生成彼此非常相似的数据点。很接近。
但是,应该注意的是,LLE方法会导致数据点重叠(凝结)和尺寸崩溃(尺寸崩溃)的问题。
下图显示了在MNIST数据集中数字的局部线性嵌入,每种颜色代表一个不同的数字:
另外,这些长串中的大多数是一维的并且彼此正交。
从线性关系嵌入(LRE)到随机邻域嵌入(SNE)
在这一部分中,Hinton介绍了从线性关系嵌入(LRE)到随机邻居嵌入(SNE)的转换,并解释说,只有存在“相似”关系时,LRE才变成SNE。
同时,欣顿指出,可以使用LRE目标函数来降低维数。下图是SNE的示意图,其中高维空间中的每个点都有与其邻域选择不同的条件概率,并且邻域分布基于高维成对距离(成对距离)。嵌入(SNE)到t分布随机邻域嵌入(t-SNE)
t分布随机邻域嵌入(t分布随机邻域嵌入,t-SNE)是SNE的一种变体,其原理是使用学生分布表示低维空间的概率分布。
Hinton下图显示了MNIST数据集中数字的t-SNE嵌入图,每种颜色代表一个不同的数字:
在介绍了这些方法之后,Hinton问了两个问题:1)为什么在优化非线性或非参数映射时方差约束效果不佳?2)为什么典范相关分析或线性判别分析的非线性版本不起作用?并作出了回答。
最后,欣顿建议使用对比度损失(contrast loss)来提取空间或时间一致性的向量表示,并带领他和Ruslan Salakhutdinov对2004年使用对比度损失以及2018年在Oord,Liand Vinyals进行对比度损失的研究采取这个想法并用它来找到时间一致性的表示。
欣顿说,在当前的无监督学习中,失去对比是一种非常流行的方法。
SimCLR的最新实现,可用于无人值守的比较学习演讲结束时,Hinton专注于他的团队最新的SimCLR实现,该实现使用对比度损失来提取一致的表示形式,这是一个简单的可视表示形式的对比学习框架,不仅比以前的所有作品都更好,而且比最新的要好。比较自我监控的学习算法。
下图显示了SimCLR的工作原理:
SimCLR如何在ImageNet的前1位准确性中工作下图显示了SimCLR和ImageNet中的各种先前自我监控方法(使用ImageNet进行预培训)的前1位准确性比较,以及ResNet-50的受监控学习效果。
Hinton表示,在对ImageNet中的图像标签进行1%的微调之后,SimCLR的前5位准确率可以达到85.8%,超过后者的AlexNet标签仅为1%。