ResNet可能是白痴?DeepMind给神经网络们集体测智商
![]() |
【新智元导读】DeepMind提出了一种让神经网络进行抽象推理的新方法,类似人类的IQ测试。结果发现经典模型如ResNet得分极低,数据稍有改动就变“白痴”,而他们关注推理的架构得分高很多,如果能给出结果的符号解释,模型的预测性能和泛化性能还会显著提高。
在许多长期存在的机器学习问题中,基于神经网络的模型持续取得了令人振奋的结果,但是,开发它们推理抽象概念的能力被证明是很困难的。已有的研究解决了通用学习系统的重要特性,基于此,DeepMind的最新研究提出了一种在学习机器中测量抽象推理的方法,并解释了关于泛化(generalisation)本质的一些重要见解。
要理解为什么抽象推理对于一般智力(general intelligence)至关重要,可以思考阿基米德的名言“尤里卡!”(希腊语Eureka,意即“我发现了!”):他注意到物体的体积相当于物体溢出的水的体积,他在概念层面理解了“体积”,并因此推理出如何计算不规则物体的体积。
我们希望AI具有类似的能力。虽然目前的AI系统可以在复杂的战略游戏中击败世界冠军,但它们经常对其他看似简单的任务束手无策,特别是当需要在新环境中发现并重新应用抽象概念时。例如,如果一个AI专门训练来计算三角形的数量,那么即使是最好的AI系统也无法计算方块或任何其他先前未遇到过的对象。
因此,要构建更好、更智能的系统,理解神经网络目前处理抽象概念的方式以及它们需要改进的地方,这非常重要。为此,我们从人类智商测试(IQ测试)中测量抽象推理的方法中获得了灵感。
人类IQ测试中的推理
标准的人类IQ测试通常要求测试者运用他们从日常经验中学到的原理来解释感知上简单的视觉场景。例如,人类测试者可能已经通过观察植物生长或建筑物的搭建,在数学课上学习加法,或跟踪利息累计的银行余额等了解了“进展”这个概念(即事物某些属性可能增加的概念)。然后,他们可以在IQ题中应用这个概念来推断随着序列增加,形状的数量、大小,甚至颜色的深浅等属性。
IQ测试题1:右下角应该选哪个?
![]() |
![]() |
IQ测试题2:右下角应该选哪个?
![]() |
![]() |
![]() |
因此,我们得到了右下角格的线,进一步排除C、D、E、H,正确答案就是A。
IQ测试题3:右下角应该选哪个?
![]() |
![]() |
![]() |
![]() |
我们还没有办法让机器学习智能体接触到类似的“日常体验”,这意味着我们无法轻易地衡量它们将知识从现实世界迁移到视觉推理测试的能力。尽管如此,我们仍然可以创建一个实验设置,充分利用人类视觉推理测试。我们不是研究从日常生活到视觉推理问题的知识迁移(人类的IQ测试是如此),而是研究从一组受控的视觉推理问题到另一组视觉推理问题的知识迁移。
为实现这一目标,我们构建了一个用于创建矩阵问题的生成器,它涉及一组抽象因素,包括“进展”(progression)之类的关系以及“颜色”、“大小”之类的属性。虽然问题生成器使用了少量的潜在因素,但它仍然可以创建大量独特的问题。
接下来,我们限制了生成器可用的因素或组合,以便为训练和测试模型创建不同的问题集,从而测量我们的模型能够多大程度上推广到已配置的测试集。例如,我们创建了一组测试题的训练集,其中只有在应用于线条颜色时才会遇到“渐进关系”,而在测试集中应用于形状大小时会遇到“渐进关系”。如果模型在该测试集上表现良好,它将为推断和应用“渐进关系”这个抽象概念的能力提供证据,即使它以前从未遇见过“渐进关系”。[page]分页标题[/page]
抽象推理的证据
在机器学习评估中应用的典型的泛化机制中,训练和测试数据来自相同的底层分布,我们测试的所有网络都表现出良好的泛化误差( generalisation error),其中一些网络实现了令人印象深刻的绝对性能。表现最好的网络显式地计算了不同图像方块之间的关系,并且并行地评估每个潜在答案的适用性。我们称这种架构为Wild Relation Network(WReN)。
![]() |
CNN会独立处理每个内容panel并且一个单独的回答会选择一个panel来产生9个矢量embedding。然后将这组embedding传递给RN(其输出是单个sigmoid单元),为相关答案选择panel的“得分”进行编程。 通过该网络进行8次这样的传递(为简便起见,我们仅描绘2次),每次答案选择一次,就会通过softmax函数得分以确定模型的预测答案。
当需要使用属性值在先前看到的属性值之间“内推”(interpolated),以及在不熟悉的组合中应用已知的抽象关系时,模型的泛化效果非常好。但是,同样的网络在“外推”(extrapolation)机制中表现糟糕得多,在这种情况下,测试集中的属性值与训练期间的属性值不在同一范围内。对于在训练中包含深色物体,但测试中包含浅色物体的谜题中就会出现这种情况。当模型被训练来将以前见到的关系(比如形状的数量)应用到一个新的属性(比如形状的大小)时,泛化性能也会更差。
实验结果
PGM数据集
我们将数据集称为程序生成矩阵(Procedurally Generated Matrices,PGM)数据集。为了生成PGM,受Carpenter,Wang&Su等人的启发,通过从以下原始集中随机抽样来完成的:
关系类型(R,元素是r):包括progression,XOR, OR, AND, consistent union;
目标类型(O,元素是o):包括shape,line;
属性类型(A,元素是a):包括,type,color,position,number
PGM问题—模型比较
我们首先比较了中性分裂(训练/测试)的所有模型,这与传统的监督学习制度最为接近。 也许令人惊讶的是,虽然它们是强大的图像处理器的方法,CNN模型几乎完全失败了PGM推理问题(表1),性能略微优于我们的基线 - context-blind的ResNet模型,该模型对内容视而不见并仅在八个候选答案受过训练。 LSTM按顺序考虑各个候选小组的能力,相对于CNN产生了小的改进。 性能最佳的ResNet变体是ResNet-50,其性能优于LSTM。 ResNet-50具有比我们的简单CNN模型更多的卷积层,因此具有更强的推理其输入特征的能力。
![]() |
性能最佳的模型是WReN模型。 这种强大的性能可能部分归因于Relation Network模块,它是为了推理对象之间的关系而明确设计的,部分是由于评分结构。 请注意,评分结构不足以解释改进的性能,因为WReN模型基本上优于最佳Wild-ResNet模型,该模型也具有评分结构。
不同问题类型的表现
涉及单个[r,o,a]三元组的问题比涉及多个三元组的问题更容易。 有趣的是,有三个三元组的PGM比四个三元组更难。 虽然有四个三元组的问题显得更为复杂,但是还有更多好的方法可以解决问题。在涉及单个三元组的PGM中,OR(64.7%)被证明是一种比XOR更容易的关系(53.2%)。具有结构涉及线(78.3%)的PGM比涉及形状的那些(46.2%)更容易,涉及形状数(80.1%)比那些涉及形状大小(26.4%)。这表明模型难以辨别细粒度的大小差异,而不是更显着的变化,如线条的缺少或出现,或形状的数量。[page]分页标题[/page]
干扰物的影响
到目前为止报告的结果是包含干扰物属性值的问题(见图4)。 当这些干扰物被移除时,WReN模型的表现明显更好(验证组的干扰物为79.3%,测试组的干扰物为78.3%,并与干扰者为63.0%和62.6%时的情况做比较)。
![]() |
辅助训练的效果
然后,我们通过使用符号元目标训练我们的模型来探索辅助训练对抽象推理和概括的影响。在中立状态下,我们发现辅助训练使测试精度提高了13.9%。重要的是,模型捕获数据的整体能力的改进也适用于其他泛化机制。在将模型的三元组重新组合成新组合的情况下,差异最为明显。因此,代表抽象语义原则的压力使得它们可以简单地解码成离散的符号解释,似乎提高了模型有效地组成其知识的能力。这一发现与先前关于离散通道(discrete channel)对知识表示的优势的观察结果一致。
辅助训练分析
除了提高性能之外,使用元标记(meta-targets)进行培训还可以提供一种方法来衡量模型在给定PGM的情况下存在哪些形状,属性和关系,从而深入了解模型的策略。 使用这些预测,WReN模型在其元目标预测正确时达到了87.4%的测试准确率,而在预测不正确时仅达到34.8%。
元目标预测可以分解为对象,属性和关系类型的预测。 我们利用这些细粒度预测来询问WReN模型的准确性如何随其对每个属性的预测而独立变化。当形状元目标预测正确(79.5%)时,相比预测不正确(78.2%)时模型的精度有所提高;同样,当属性元目标预测正确(49%)时,相比预测不正确(62.2%)时模型的精度有所提高。然而,对于关系属性,正确和不正确的元目标预测之间的差异很大(86.8%对32.1%)。 这个结果表明正确预测关系属性对任务成功至关重要。
最后,当模型被训练于不仅预测正确的答案,而且预测答案的“原因”(即考虑解决这个难题的特定关系和属性)时,我们观察到了更好的泛化性能。有趣的是,在neutral split中,模型的准确性与它推断矩阵背后的关系的能力密切相关:当解释正确时,模型在87%的时候能选择到正确的答案;但当它的解释错误时,准确性下降到只有32%。这表明,当模型正确地推断出任务背后的抽象概念时,它们能够获得更好的性能。
结论
最近有一些研究关注基于神经网络的解决机器学习问题的方法的优点和缺点,通常基于它们的泛化能力。我们的研究结果表明,寻找关于泛化的普遍结论可能是无益的:我们测试的神经网络在某些泛化方案中表现良好,而在其他时候表现很差。它们是否成功取决于一系列因素,包括所用模型的架构,以及模型是否被训练来为其答案选择提供可解释的“理由”。在几乎所有情况下,当需要推断超出其经验的输入或处理完全陌生的属性时,系统的表现很差;这是一个关键且极为重要的研究领域,未来的工作可以集中于这个焦点。
本文首发于微信公众号:新智元。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

- AMD助力微软Windows 11 为用户带来强大、可靠的计算能力2021-10-09 16:20
- 游戏玩家为之疯狂!Chinajoy2021 AMD展台那些火爆的瞬间2021-08-02 15:39
- 全场最佳 AMD Chinajoy2021展台圆满收官2021-08-02 15:38
- AMD 锐龙5000G系列处理器正式亮相Chinajoy20212021-08-02 11:50
- 极速制胜 制霸游戏 AMD携多款游戏神器扬威Chinajoy2021-08-02 11:44
- 央视《新闻联播》头条聚焦铁建重工,聚力攻克“卡脖子”技术难题2021-03-22 11:08
- 刚刚!我又上央视新闻联播头条了!2021-03-22 11:04
- 中国电科(3月1日-3月7日)要闻回顾 | 资讯轻阅读2021-03-22 10:47
- 我国将建第一个国家公园:为何是三江源2021-03-22 10:43
- 美国硅谷上演“大逃亡”:郊区成科技精英避难所2021-03-22 10:41

- 11:24未来更「耀」在一起 —— 2026康力燃梦启新年度盛典璀璨收官!
- 09:48南京市创投集团直投企业贝耐特完成数千万元融资
- 11:32金海汇成投资有限公司如何以创新路径重构产业生态
- 11:31东方药林第4期研修班圆满落幕 以学习型组织建设驱动企业高质量发展
- 17:2240万债权击穿10亿资产酒企?徽酒集团双轮酒业二次破产背后的博弈
- 19:40南京市创投集团合作子基金投资企业壁仞科技成功登陆港交所
- 15:12降价超75%!纳米晶体甲地孕酮医保落地,为肿瘤CACS患者送来诊疗福音
- 14:51纳米晶型甲地孕酮(美适亚)纳入2026医保,为CACS患者打破“厌食-死
- 10:57「山谷奇技,声乐造艺」 全新宝珀北京王府中環旗舰店盛大启航
- 10:57宝珀“大音乐家-四音四锤双旋律大小自鸣”超复杂功能腕表
- 18:57南京先进制造产业专项母基金子基金遴选结果揭晓
- 17:38东方药林:携手第四小组成员单位共推行业党建提质增效
- 12:32兑现“好房子”承诺:解读九牧的“场景答案”
- 20:05全美世界紧急捐赠100万港币 支援香港火灾善后重建
- 19:55皙之密护肤套装测评:秋冬干燥肌的水润守护
- 18:36市占率第一!九牧领跑中国“好房子”卫浴赛道
- 10:41智界潮改车共创大赛:从“用户共创”到“生态共生”的品牌文化构筑新范式
- 13:36南京市紫金生物医药产业投资基金合伙企业子基金遴选结果揭晓
- 14:40前沿技术赋能全域数据安全 安全防控可信数据空间 V1.0 版正式发布
- 14:38第一届濮院电竞节,今日启幕!
- 15:04助推产业链高质量发展·创投实录|清普生物:长效新药破“痛局”
- 11:38响应高质量发展,九牧为“好房子”拓路:从部委示范到全域智慧生态
- 10:28万亿市场税收变局 紫竹药业避孕药份额面临调整压力
- 17:18金海汇成投资有限公司创新路径与全球视野
- 14:22广州易萃享:立足羊城匠心,打造精准营养新标杆
- 14:05易萃享健康:数智驱动,让健康管理触手可及
- 10:11创投集团直投企业他山科技完成新一轮融资
- 09:36易萃享健康:全周期管理,筑起家庭健康屏障
- 08:38易萃享:1000 日夜匠心,精准营养走进万家
- 18:55广东康力医药有限公司:荣誉加身,彰显标杆实力
















![离心(distraction)的影响。在两个PGM中,底层结构S 是[形状,颜色,连续单元],但是(b)包括形状数、形状类型,线颜色和线型的离心。](http://i7.hexun.com/2018-07-12/193441687.jpg)