邓侃:谷歌Talk to books引爆搜索方式革命

新智元专栏
作者:邓侃
昨天,新智元介绍了谷歌的全新搜索工具“Talk to Books”,基于自然语言文本理解,用户能够凭语义而非关键词来实现搜索功能。谷歌搜索的“AI化”令人眼前一亮,谷歌是否即将从当今的搜索引擎,革命性地进化到了回答引擎?本文作者,大数医达创始人、CMU 博士邓侃对谷歌的这个新搜索工具的技术原理进行了解读。

今天读到一则新闻,“谷歌发大招:搜索全面AI化,不用关键词就能轻松撩书”。
介绍产品 Talk to Books 时,作者放了一张产品截图。
当用户提问 “What is fun about computer programming?” Talk to Books 自动回答,
“... has been beneficial on many levels. First, computer programming provides a palette with a virtually unlimited potential for creative expression; the thrill of bringing a useful porgram to life rivals the thrill of hearning a new composition being performed for the fist time. Second, a knowledge of computer ...”
from Arduino for Musicians: A complete Guide to Arduino and Teensy Microcontrollers by Brent Edstrom.

这个例子很震撼,几个原因:
1. 从搜索到回答:
谷歌当今的搜索结果,只是给出文章的链接。而 Talk to Books 的搜索结果,虽然是书的摘要,但是摘要摘得如此精当,几乎是问题的回答。这篇博文是不是在暗示,
谷歌即将从当今的搜索引擎,革命性地进化到了回答引擎?
2. 语义理解:
长期担任过谷歌搜索业务主管,Amit Singhal,在其任内,曾经亲自领衔主持谷歌知识图谱的实现。在介绍知识图谱的价值时,Amit Singhal 说,
谷歌将不再搜索关键词表面上的字符串 “string”,而将直接搜索关键词的内涵语义 “thing”。
在 Talk to Books 的这个例子中,提问中包含 “fun”,而答案中与之呼应的词,包括 “beneficial”、“palette”、“thrill” 等等。注意,是呼应,是相关词,但不是同义词近义词。
如何迅速找到同义词、近义词、相关词?不难猜测,一定与
词向量
有关。如果仅仅用词向量,取代文字表述的词汇,那么基于词向量的搜索引擎,最多是模糊匹配的搜索引擎,但是并非是截图暗示的那种回答引擎。
3. 文章张量树:
论文 [4] 的具体做法是,先把每一篇文章中的每一个词汇,翻译成词汇张量。然后从每一个语句的一连串词汇张量中,提炼出语句张量。再然后把每一个段落的一连串语句张量中,提炼出段落张量。最后从段落张量中,提炼出整个文章的文章张量。
这样,
每篇文章,就构成一个树状的张量集合。
根节点是整个文章的中心思想的文章张量,上层中间节点是段落张量,下层中间节点是语句张量,每个叶子节点是词汇张量。
4. 问答匹配:
输入一个提问语句,Talk to Books 先把提问语句,翻译成一个定长的数值张量,然后在众多文章的张量森林中,寻找最贴切的词汇张量,也就是某棵树的叶子节点。如果不行,就寻找最贴切的语句张量,也就是某棵树的下层中间节点。如果不行,就寻找最贴切的段落张量,也就是某棵树的上层中间节点。如果还不行,就寻找最贴切的文章张量,也就是某棵树的根节点。[page]分页标题[/page]
难题在于,当文章数量很多,一棵树一棵树地逐个找一遍,计算量太大。所以需要一个办法,快速地从提问匹配到回答。
谷歌博文引荐了论文 [4],它用分类器,把提问匹配到数量固定的回答。分类器的办法,似乎不太可行,原因有二:
a.
当回答的数量非常庞大时,分类器势必非常复杂。
分类器越复杂,越需要的训练数据就越多。收集海量的训练数据,几乎是无法办到的事情。
b.
无论是书籍还是网文,数量每天都在快速增多。
分类类目数量增多,分类器的结构就必须随之改变,就必须重新训练分类器。
分类器似乎不可行,倒排索引是否可行呢?原理上似乎可行,但是占用的存储空间会非常庞大,因为倒排索引的 term,已经不再是每篇文章中出现的所有词汇了,而是,词汇张量 + 语句张量 + 段落张量 + 文章张量,组合爆炸的节奏。
5. 答案生成:
答案的生成,有两种方式,一个是摘要,如前所述。另外一个是把诸多段落语句,通过推理,串连在一起,更智能地生成答案。
譬如提问是 “孕妇是否能吃海鲜”,推理的办法是,先找到孕妇子宫中,羊水最重要的营养成分是什么。然后查找破坏羊水的营养成分,会有哪些物质。再然后检查海鲜中,是否富含这些破坏物质。
推理的办法,往往需要把跨段落,甚至跨文章的诸多语句,按逻辑顺序,串连在一起,组合成答案。看样子这次 Talk to Books,并没有涉及推理的难题。
总之,Talk to Books 的截图很震撼,但是两篇论文,似乎并没有满足我们所有的好奇心。
本文首发于微信公众号:新智元。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

- AMD助力微软Windows 11 为用户带来强大、可靠的计算能力2021-10-09 16:20
- 游戏玩家为之疯狂!Chinajoy2021 AMD展台那些火爆的瞬间2021-08-02 15:39
- 全场最佳 AMD Chinajoy2021展台圆满收官2021-08-02 15:38
- AMD 锐龙5000G系列处理器正式亮相Chinajoy20212021-08-02 11:50
- 极速制胜 制霸游戏 AMD携多款游戏神器扬威Chinajoy2021-08-02 11:44
- 央视《新闻联播》头条聚焦铁建重工,聚力攻克“卡脖子”技术难题2021-03-22 11:08
- 刚刚!我又上央视新闻联播头条了!2021-03-22 11:04
- 中国电科(3月1日-3月7日)要闻回顾 | 资讯轻阅读2021-03-22 10:47
- 我国将建第一个国家公园:为何是三江源2021-03-22 10:43
- 美国硅谷上演“大逃亡”:郊区成科技精英避难所2021-03-22 10:41

- 14:59广东康力医药有限公司:以创新为核心驱动力,迈向全球大健康领航者新征程
- 14:24广州易萃享:数智赋能羊城家庭,打造全家健康守护新选择
- 10:47广州易萃享:扎根羊城铸精品,树立华南精准营养新标杆
- 15:24广东康力医药有限公司:荣誉加身实至名归,标杆力量铸就行业典范
- 17:04易萃享健康:数智驱动破壁垒,让健康管理实现零门槛
- 16:58广东康力医药:以使命铸魂,以价值观引领企业高质量发展
- 16:56广东康力医药:以使命铸魂,以价值观引领企业高质量发展
- 18:26易萃享健康:全周期健康守护,化身家庭健康管理超级管家
- 18:02广东康力医药:从深圳走向世界,绘就大健康国际化发展蓝图
- 20:48易萃享:AI科技赋能,让精准养生走进日常
- 20:41康力药业:以用户需求为核心,打造全链条健康服务生态体系
- 11:14未来产业50人论坛在沪隆重启幕 量子专场汇聚顶尖智慧共话未来
- 12:15易萃享:千日磨一剑,解锁精准营养个性化新范式
- 11:32康力药业:30载初心如磐,深耕大健康产业步履不停
- 17:18从单品智能到场景智能,方太智慧烟灶登陆AWE 2026引领厨居生活变革
- 14:14外资垄断75%!海上风电变压器受制于人,国家能源安全底线不容失守
- 22:11全球第一海风装机 核心设备国产化率不足25% 75%市场被外资掌控
- 14:59恩捷李晓明:协同减碳 打造产业生态与经济效益共生样本
- 15:21初高中生成绩不理想考不上理想的学校怎么办、如何根据自身优势择校?
- 11:52东方药林百店齐燃启新程 水润万家汇暖流
- 11:44智启社区 共享美好生活——东方药林2026社区战略发布会(沈阳站)圆满举
- 15:21东方药林:守正创新护权益,合规前行启新程?
- 13:52直击MWC2026,浩鲸科技提出AI正在重写通信软件的价值坐标
- 13:51MWC 2026|浩鲸科技周勇:构建智能生产力,在AI时代重塑运营商角色
- 13:53助推产业链高质量发展·创投实录|致瞻科技:以“学霸”思维,立“身位”优势
- 15:13坚守初心,逐光而行——全美世界的深耕与绽放
- 14:26皙之密:精准护肤时代,让素颜美肌自带底气
- 21:19荣誉见证实力:广东康力医药有限公司的标杆成长之路
- 17:21创新为翼:广东康力医药有限公司迈向全球大健康领航者
- 17:03使命如炬:广东康力医药以价值观引领行业前行



