学界 | 当前机器学习成果真的可靠吗？伯克利&MIT新研究质疑基准测试集

时间：2018-06-06 22:57|来源：未知|编辑： 网友评论

　　编译：小鱼、蒋宝尚、魏子敏

　　近日，伯克利和MIT研究者发布的一篇名为《Do CIFAR-10 Classifiers Generalize to CIFAR-10?》的新论文提出了学界一个尖锐的问题：包括CIFAR10在内的知名基准测试集，都存在验证集过拟合问题。

　　这一论文引起了Keras之父François Chollet的关注与力挺，关于数据集的讨论在推特上一发不可收拾，包括Gary Marcus和François都连发数条推特对此问题进行了讨论。

　　在连续20几个小时的连续发推中，François Chollet肯定了这篇论文带来对过测试集拟合问题的思考，但是也提出了一些论文中不恰当的地方。

　　最后，大神也提出了自己的建议，通过高熵验证过程(如k-fold验证)来解决这个问题。

　　让我们先来看看这篇论文到底说了什么。

　　这篇论文创建了一组真正“未出现过”的同类图像来测量 CIFAR-10 分类器的准确率，以验证当前的测试集是否会带来过拟合风险。

　　论文中称，我们通常只能获取具备同样分布的有限新数据。现在大家普遍接受在算法和模型设计过程中多次重用同样的测试集。但显而易见的是，当前的研究方法论忽视了一个关键假设：分类器与测试集应该独立存在。

　　这种不独立带来了显而易见的威胁——研究社区可能会设计出只在特定测试集上性能良好，但无法泛化至新数据的模型。

　　大数据文摘微信公众号后台回复"过拟合"下载本篇论文

　　显而易见，目前深度学习领域的很多“标题党论文”，都存在验证集过拟合问题，包括CIFAR10在内的知名基准测试集。

大量“标题党”论文

　　François Chollet称很高兴在这篇论文《Do CIFAR-10 Classifiers Generalize to CIFAR-10?》看到对验证集过拟合的量化。从2015年以来，ImageNet数据集也存在这样的问题。

　　接下来的一天中，François Chollet之后还针对这一问题发表了很多评论。

　　以下为François Chollet推特部分内容：

　　如果为了发论文，针对固定验证集，选择特定的方法、体系结构和超参，那么它就已经不再是验证集，而是训练集，而且不能保证选定方法能推广到真实数据。

　　很多深度学习研究并未遵循科学方法，验证集过拟合问题不容忽视。另外，使用弱基准测试集，很难将实验结果与论文提出的重大想法建立明确的联系（因为有的太多可变因素）。

　　同样，想要复现大多数论文中的模型或想法也很困难。例如实验结果的后选择、对比实验结果时缺乏显著性检验等问题。

　　假如你正在参加Kaggle比赛，如果你使用从训练集（包括public leaderboard）分离出来的固定验证集来评估你的模型/想法，那么你的模型在private leaderboard上的表现肯定很一般。学术研究同样如此。

　　François Chollet还提出了克服该问题的一个简单建议：用高熵验证过程(如k-fold验证)，用带shuffling的递归k-fold验证更好。并且只在最终官方验证集上检验结果。[page]分页标题[/page]

　　的确成本更高了，不过成本也是正则化项，迫使你尝试更少更明智的方法。

　　同时，François Chollet对前段时间引起轩然大波的文章，计算机视觉和 AI 领域专家 Filip Piekniewski的文章《AI Winter Is Well On Its Way》也发表了自己的见解：

　　自动驾驶汽车是一个很好的例子，因为在这种情况下，存在两种相互竞争的方法：一种是符号方法，另一种是深入学习方法，即通过端到端的学习。其中一种方法会到达L4，在一定程度上甚至会达到L5，另一种却永远达不到。

　　这并不是说深度学习本质上无法与无人驾驶相融合，而是因为状态空间维度极高，深度学习系统需要在系统运行的同一维度的密度抽样中进行训练。

　　由于这种具有代表性的密度抽样是不可取的，即使在大量利用模拟环境的情况下，符号方法也将占上风，具体来说，虽然这种方法大多是抽象性的，但却将人类抽象概念与学习的感知基元结合了起来。

　　让我们用François Chollet的一段话做结：
　　与大多数事物一样，科学也是一种不精确的艺术，一种靠知识创造的艺术。就像所有的艺术一样，它有我们应该遵循的精确规则。这些规则很容易被破坏，但你破坏的规则越多，你的努力也就越低效。（Science, like most thing, is an inexact art. The art of knowledge creation. And like any art, it has precise rules that one should follow. Any of these rules may be broken, but the more of them you break, the less effective your effort.）
本文首发于微信公众号：大数据文摘。文章内容属作者个人观点，不代表和讯网立场。投资者据此操作，风险请自担。

TAG

相关阅读：

AMD助力微软Windows 11 为用户带来强大、可靠的计算能力2021-10-09 16:20

游戏玩家为之疯狂！Chinajoy2021 AMD展台那些火爆的瞬间2021-08-02 15:39

全场最佳 AMD Chinajoy2021展台圆满收官2021-08-02 15:38

AMD 锐龙5000G系列处理器正式亮相Chinajoy20212021-08-02 11:50

极速制胜制霸游戏 AMD携多款游戏神器扬威Chinajoy2021-08-02 11:44

央视《新闻联播》头条聚焦铁建重工，聚力攻克“卡脖子”技术难题2021-03-22 11:08

刚刚！我又上央视新闻联播头条了！2021-03-22 11:04

中国电科（3月1日-3月7日）要闻回顾 | 资讯轻阅读2021-03-22 10:47

我国将建第一个国家公园：为何是三江源2021-03-22 10:43

美国硅谷上演“大逃亡”：郊区成科技精英避难所2021-03-22 10:41

滚动播报

13:30从“卖线”到“卖价值”：专访纺织行业市场营销专家李超逸

08:34东方药林：布局长远战略，绘就抗衰事业发展新图景

15:21东方药林：聚焦抗衰赛道，创新驱动企业高质量发展

14:31清晨生物发布HiLife数智生态，开启陪伴型健康管理新时代

10:22深圳市“两优一先”｜优秀党务工作者李南青：党建赋能数字金融，坚守初心服务

17:20通辽圣达教育：11 年深耕，零滑档零退档，本地高报标杆

17:12通辽圣达教育：全职师资 + 零失误，让高考志愿填报更稳妥

17:02通辽圣达教育：零滑档零退档，让每一分都不被辜负

17:00通辽圣达教育，靠谱志愿填报首选--深耕本土，用心护航升学路

15:33易萃享：数智科技赋能羊城家庭，成为全民健康守护优选品牌

15:42易萃享：立足华南本土市场，铸就区域精准营养行业新标杆

09:23东方药林：厚植企业文化，以创新精神赋能企业可持续发展

09:11易萃享健康：打造全周期健康体系，担当贴心家庭健康管家

09:09易萃享健康：破除专业壁垒，推动全民健康管理普惠化发展

22:57易萃享：深耕精准营养赛道，匠心研发重塑国民营养补充方式

22:55东方药林：六大战略协同发力，构建全维度产业发展生态

22:50易萃享：借力 AI 科技赋能，让科学精准养生融入日常点滴

22:42东方药林药业有限公司：深耕东南亚市场，探索民族品牌出海新路径

16:16广东康力医药有限公司：创新赋能全域发展，向着全球健康领航者奋勇前行

16:09东方药林：多元数字营销，解锁大健康经营新玩法

16:20广东康力医药有限公司：荣誉加身不忘初心，标杆力量助推产业提质升级

16:12东方药林：精研产品体系，以品质筑牢抗衰产业根基

16:42东方药林药业有限公司：数字赋能转型，凝聚企业精神奔赴全球新征程

16:16广东康力医药：以使命凝心聚力，三十年坚守诠释企业责任

18:09东方药林药业有限公司：秉持长期主义，稳步推进全球化市场布局

17:54广东康力医药：立足本土放眼全球，打造走向世界的中国健康名片

14:15从KS到CES Asia：纵深视觉科技全栈方案引爆光场显示市场

10:32康力医药：聚焦大众健康需求，打造一体化全链条服务生态

09:38华创农食相融，筑牢乡村粮食安全屏障

09:23东方药林小毛巾：天然竹琨选材，打造洗护好产品

新闻排行榜

热点资讯中国氢储能产业加速落地：邹昊参与推动新能

产经聚焦外资垄断75%！海上风电变压器受制于人，国家

产经聚焦初高中生成绩不理想考不上理想的学校怎么办、如

产经聚焦恒基兆业地产集团庆祝成立50周年，深耕内地共

产经聚焦南京先进制造产业专项母基金公布子基金遴选结果

产经聚焦40万债权击穿10亿资产酒企？徽酒集团双轮酒

产经聚焦南京市创投集团合作子基金投资企业壁仞科技成功

热点资讯降价超75%！纳米晶体甲地孕酮医保落地，为肿

热点资讯纳米晶型甲地孕酮（美适亚）纳入2026医保，

产经聚焦「山谷奇技，声乐造艺」全新宝珀北京王府中