学霸终结者[校对版]_第583页

假设，因为百度的用户容量够大，有10万人次搜了“权宝儿”这三个字，然后百度根据反馈统计：其中43的人搜索后，点击了百科词条，22的人，点了某娱乐新闻，17的人……

这时候，如果把百度搜索的云端大数据，接为‘初秘’或者siri的服务器端，初秘就会知道：当下一次她的手机主人说出“权宝儿”这三个字的时候，优先把这个词的百度百科词条内容推送给主人——当然，是用语音阅读的方式。

这是最简单的问答型人工智能，靠统计数据，来让机器的回答，更贴近代表所有网民中最大众的那一群人的意见。

这个过程中，机器并不理解“权宝儿”这三字代表了什么，它只是在算法上统计了“所有曾经搜过这个词的人，在搜索后点击查看了哪条答案”，然后把看过人最多的那条答案，推送给最新问这个问题的人。

这样的大数据，只有搜索引擎服务的提供商，才拥有。或者说，只有那类公司的数据，样本容量才足够巨大，足够客观，足够撇掉误差。

在中国，只有百度和谷歌有这个资本。

而且，百度和谷歌除了搜索大数据的历史记录足够庞大、完爆其他搜索服务提供商之外，他们还有一个独门之秘，在2009年只有他们两家形成了规模。

那就是“百度知道”，以及比百度知道逊色一些的“谷歌问答”。

“知道”，是一个比搜索更加贴近人类语言习惯的问答产品。在搜索的时候，人只会打几个关键词，很少会直接长篇大论写一句话，写一个用人类正常语法表述的问题。

而用百度知道的时候，因为背后是人类在回答，所以大家都遵循了人类语言的语法。

一个新买手机的用户，和初秘或者siri聊天的时候，问到的问题，真的是绝无仅有、从来没有前人问过的么？

恐怕不尽然。

十几亿人心中的困惑，有相当大一部分是重合的。同一个问题，可能全国有几百万人想问。

有了百度知道的云端大数据之后，初秘或者siri再听到手机主人的语音发问时，就可以先搜一搜这个云端数据，看看有没有近似的或者重复的前人提问。

如果有，直接把前人提问中的“被采纳答案”推送过来、语音阅读一遍就行了。

在“知道”这个产品上，谷歌其实走得比百度慢。谷歌的强项，是“谷歌学术”那种专业标准化的问答，而缺少家长里短的日常人工智能锻炼。