业界 | 什么是最小可行性数据产品(MVP)?如何用它做机器学习?
编译:胡笳、睡不着的iris、halcyon
本文作者是一名数据科学家,现在离开了Pivotal公司加入了idealo公司,正在帮助其搭建数据科学团队以及把机器学习整合到公司的产品中。
在执行计划的过程中,他发现,作为一名优秀的数据科学团队的领导人,必须定义机器学习产品路线图。
结合自身经历,本文作者带大家探究一个好的最小可行性产品(MVP)究竟是什么,以及机器学习产品一个好的MVP的不同维度究竟有哪些。
什么是MVP?
在Pivotal Labs工作期间,我接触到了Eric Ries推广的精益创业思想。精益创业其实是当今最一流的产品开发方法论。其核心思想是,通过不断的收集客户的反馈来开发产品或服务,从而可以降低产品/服务失败的风险(开发-衡量-学习)。
![]() |
![]() |
在这个案例中,我们以一辆集成了用户的反馈的汽车告终。一个大众熟悉的例子是Airbnb(爱彼迎,旅行房屋租赁社区)。2007年Brian Chesky 和Joe Gebbia想创业,但是无力承担旧金山的房租。
与此同时,有一个设计展会正要在这个城市举办,他们决定将他们的公寓出租给那些没有在附近找到酒店的展会与会者。他们为公寓拍照,并将照片上传到一个简单的网站上(见下图),很快在展会期间就有三个付费客人。这个小测试带给他们宝贵的领悟:人们愿意付钱留在别人的家中而不是去酒店,并且不只是附近的大学毕业生才会注册这个网站。之后他们便创建了Airbnb,接下来的事大家都知道了。
![]() |
让我们以Juicero(智能榨汁机初创公司)为例。他们从投资者手中募集了1.2亿美元,用于创造一款精心设计的榨汁机,经过一段时间的开发后以非常高的价格进行发售(最初的原价为699美元,随后降至399美元)。[page]分页标题[/page]
除了榨汁机,你还可以购买装满原生水果和蔬菜的果蔬包,每包售价为5-7美元。可能有些人已经听说过这个公司,但这家公司目前已经倒闭了,因为它并没有意识到其实客户并不真正需要一款价格高昂的榨汁机来将果蔬包榨汁。
他们并不真正了解他们的客户。一个简单的用户研究就能让他们意识到,客户并不需要昂贵的机器来挤榨果蔬包,只需要两手挤压就足够了。
![]() |
MVP概念也可以被应用于机器学习,因为最终,机器学习也是整个产品的一部分或者就是最终产品本身。考虑到这一点,我认为有三个重要的维度。
1.最小可行模型
![]() |
![]() |
然后再根据结果,可能会增加越来越多的层。这种方法非常直接,实际上是解决热狗与非热狗分类问题的最佳解决方案,因为不需要特征工程(我们基本上可以将原始图片作为输入数据)。但是对于大多数的分类问题,除非它们不是那些像在计算机视觉或自然语言处理中遇到的专业问题,否则这不是解决这类问题的最佳方法。
深度学习的最主要缺点在于其缺乏可解释性。通过采用的网络种类来解释此神经网络的结果通常很难。并且你会花费大量的时间用在神经网络的调参上,但对模型性能的提升却影响甚微。
从简单开始,建立基线。对于大多数分类问题,从逻辑回归这类线性模型入手会比较可行。尽管在许多实际应用中,线性假设是不切实际的,但是,逻辑回归做得相对好并可以提供基准,亦称为基准模型。它的主要优点也是可解释性,并且可以直接得到条件概率,这在很多情况下十分方便。
为了改进模型并放宽线性假设的条件,可以使用基于树的模型。主要有两大类这样的模型,Bagging和Boosting模型。实际上,它们都使用的是决策树,只是采用不同的方式训练模型。最后,如果所有的方法都已用,你还想不断改进你的模型,那么我们就可以利用深度学习技术。
2.最小可行性平台
![]() |
但在购买之后,他们甚至都不考虑潜在的用例,便将数据加载到他们的数据湖中。然后,他们听说了一个名为Apache Spark的东西,并将其添加到基础设施层。
现在,由于人工智能已经成为流行的风潮,他们也开始购买GPU,并在其上添加如TensorFlow那样的深度学习框架。在一个地方拥有所有(酷)工具听起来很棒吧?然而,最大的问题是,将所有数据放入数据湖之后,发现数据与用例并不匹配。要么他们没有收集到正确的数据,要么不存在支持潜在用例的数据。
更可行的方法不是考虑硬件或者软件,而更多的是解决问题。通过这种方法,可以尽早了解需要哪些数据来解决问题,并且还能避免各种数据错误。除此之外,迄今为止我所看到过的很多机器学习问题,实际上都可以在本地机器上解决。他们并不需要对基础设施进行巨额投资。
而且,如果数据量真的很大,他们可以使用AWS或Google Cloud等云服务提供商的服务,便可以非常轻松地启动一个Spark群集。如果他们有一个深度学习问题,也会有很多的选择。不但可以选择已经提到的云服务提供商,也可以选择如FloydHub那样提供的平台级服务(PaaS),在云上训练和部署深度学习模型。
3.最小可行(数据)产品
最后,我想谈论的一点是数据产品本身。本质上,数据产品有很多例子,比如聊天机器人、垃圾邮件检测器等等——这个清单很长(更多的机器学习产品,请查看Neal Lathia的精彩文章)。但是在这里,鉴于当前我在电子商务领域工作,我将专注于推荐服务。
![]() |
![]() |
总结
在这篇文章中,我讲述了关于MVP对机器学习产品的意义的理解。实质上,就是从小处开始不断迭代。此外,为了更清楚地解释我对机器学习产品的MVP代表的意思,我讨论了三个主要维度,我认为这对于优秀的MVP数据产品至关重要:
最小可行性模型,
最小可行性平台,
最小可行(数据)产品。
本文首发于微信公众号:大数据文摘。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

- AMD助力微软Windows 11 为用户带来强大、可靠的计算能力2021-10-09 16:20
- 游戏玩家为之疯狂!Chinajoy2021 AMD展台那些火爆的瞬间2021-08-02 15:39
- 全场最佳 AMD Chinajoy2021展台圆满收官2021-08-02 15:38
- AMD 锐龙5000G系列处理器正式亮相Chinajoy20212021-08-02 11:50
- 极速制胜 制霸游戏 AMD携多款游戏神器扬威Chinajoy2021-08-02 11:44
- 央视《新闻联播》头条聚焦铁建重工,聚力攻克“卡脖子”技术难题2021-03-22 11:08
- 刚刚!我又上央视新闻联播头条了!2021-03-22 11:04
- 中国电科(3月1日-3月7日)要闻回顾 | 资讯轻阅读2021-03-22 10:47
- 我国将建第一个国家公园:为何是三江源2021-03-22 10:43
- 美国硅谷上演“大逃亡”:郊区成科技精英避难所2021-03-22 10:41

- 11:24未来更「耀」在一起 —— 2026康力燃梦启新年度盛典璀璨收官!
- 09:48南京市创投集团直投企业贝耐特完成数千万元融资
- 11:32金海汇成投资有限公司如何以创新路径重构产业生态
- 11:31东方药林第4期研修班圆满落幕 以学习型组织建设驱动企业高质量发展
- 17:2240万债权击穿10亿资产酒企?徽酒集团双轮酒业二次破产背后的博弈
- 19:40南京市创投集团合作子基金投资企业壁仞科技成功登陆港交所
- 15:12降价超75%!纳米晶体甲地孕酮医保落地,为肿瘤CACS患者送来诊疗福音
- 14:51纳米晶型甲地孕酮(美适亚)纳入2026医保,为CACS患者打破“厌食-死
- 10:57「山谷奇技,声乐造艺」 全新宝珀北京王府中環旗舰店盛大启航
- 10:57宝珀“大音乐家-四音四锤双旋律大小自鸣”超复杂功能腕表
- 18:57南京先进制造产业专项母基金子基金遴选结果揭晓
- 17:38东方药林:携手第四小组成员单位共推行业党建提质增效
- 12:32兑现“好房子”承诺:解读九牧的“场景答案”
- 20:05全美世界紧急捐赠100万港币 支援香港火灾善后重建
- 19:55皙之密护肤套装测评:秋冬干燥肌的水润守护
- 18:36市占率第一!九牧领跑中国“好房子”卫浴赛道
- 10:41智界潮改车共创大赛:从“用户共创”到“生态共生”的品牌文化构筑新范式
- 13:36南京市紫金生物医药产业投资基金合伙企业子基金遴选结果揭晓
- 14:40前沿技术赋能全域数据安全 安全防控可信数据空间 V1.0 版正式发布
- 14:38第一届濮院电竞节,今日启幕!
- 15:04助推产业链高质量发展·创投实录|清普生物:长效新药破“痛局”
- 11:38响应高质量发展,九牧为“好房子”拓路:从部委示范到全域智慧生态
- 10:28万亿市场税收变局 紫竹药业避孕药份额面临调整压力
- 17:18金海汇成投资有限公司创新路径与全球视野
- 14:22广州易萃享:立足羊城匠心,打造精准营养新标杆
- 14:05易萃享健康:数智驱动,让健康管理触手可及
- 10:11创投集团直投企业他山科技完成新一轮融资
- 09:36易萃享健康:全周期管理,筑起家庭健康屏障
- 08:38易萃享:1000 日夜匠心,精准营养走进万家
- 18:55广东康力医药有限公司:荣誉加身,彰显标杆实力












