AI搜索与大模型应用的一些思考
最近读到一篇有趣的文章,讨论了当前许多新的AI搜索产品是否会取代Google:
Here’s why AI search engines really can’t kill Google
先简要地看下这篇文章在说什么:
如果要取代Google,那么这些新的产品必须可以完成Google能做的所有事情。于是,作者先收集了Top100的Google搜索查询,然后将它们输入到当前最好的一些AI搜索产品中。作者认为,虽然在某些情况下,基于LLM的搜索比一页Google搜索结果有用,但在大多数情况下,AI搜索取代Google还是相当困难的。
搜索领域通常有三种类型的查询,第一种也是最流行的是导航查询,即人们只是输入网站的名称以访问该网站。几乎所有在Google上的热门查询,从"youtube"到“yahoo mail”,都是导航查询。实际上,搜索引擎的主要任务之一就是将用户导航至目标网站。
第二种是信息查询,比如实时体育比分,天气和当前时间等等。而在这方面,基于LLM的生成式结果是不可信的,而且常常会给出过时或错误的信息。相较之下,Google可以很好地聚合这些信息并有更好的展示。
只有一种子类型的信息查询AI搜索的效果更好,如“如何在Mac上截屏”。虽然有无数页面包含答案:“Cmd-Shift-3截取整个屏幕,或按下Cmd-Shift-4来截取选定的部分”,但却很难找到,因为它们常常湮没在广告和SEO垃圾中。此时AI搜索都能直接提取这些信息并将其呈现。
这就引出了第三种查询:探索性查询。这些问题没有单一的答案,而是探索的开始。像“如何打领带”、“为什么发明了电锯”和“什么是抖音”这样的问题被视为探索性查询。虽然据统计,这些并不是人们使用Google的主要目的,但这才是AI搜索可以大放异彩之时。对于探索性查询,AI搜索可以提供一系列引用来源,同时针对这些问题做了整合与总结,体验非常好。
作者还特别提到了另一个例子,用Google搜索“what to watch”。Google为此专门设计了一个页面,其中有一排海报,展示了“热门推荐”如《沙丘:第二部》和《想象力》;“适合您”的选项,包括《死侍》和《暂停并捕获火》;然后是流行的标题和按类型分类的选项。在这种情况下,人工智能是正确的思路——不要一堆链接,要问题的答案——但是聊天机器人却是错误的交互界面。
至少对于某些搜索而言,GenAI比过去几十年的搜索技术更好。但现代搜索引擎不仅仅是一堆链接的页面,它们更像是微型操作系统:可以直接回答问题,拥有计算器、转换器、航班选择器以及各种其他内置工具,它们可以通过只点击一两次就把您带到目的地。根据这些图表,大多数搜索查询的目标并不是开始一段信息奇迹和发现之旅,而是获取一个链接或一个答案,然后离开。
作者的结论是这个问题与技术关系不大,而更多地与产品有关。每个人都相信AI可以帮助搜索引擎更好地理解问题并处理信息,就看是Google重新发明搜索更快,还是新兴AI公司将聊天机器人变为更多元的工具更快了。十个蓝色链接不是搜索的答案,但一个全能的文本框也不是。
一些关键点:
- 搜索引擎的主要任务之一就是将用户导航至目标网站
- AI搜索速度太慢,往往要等很久才能生成结果
- 传统搜索引擎是个微型操作系统
- “AI is the right idea but a chatbot is the wrong interface”
对用户而言,搜索引擎本质上是个效率工具,也就是说用户需求是提升自己的查询效率。AI搜索速度慢和信息准确度问题导致了前两种查询的效率降低,在这些方面不能击败Google,但在探索性查询上的表现显然更好地满足了用户需求。因此,搜索在之后的发展一定是二者各取对方所长,从而提供更好的体验。
不过,虽然AI搜索想做成微型操作系统非一日之功,优化下导航查询还是可以的,这些搜索产品并未优化这个点的原因大概率是由于用户画像的幸存者偏差:使用AI搜索的用户就不会用它做导航查询。
对于我个人而言,可能由于是从业者的缘故,我更习惯用Google寻找问题的答案,源于我认为原生搜索结果加一定的鉴别效率更高,结果更可信。去年LLM刚出现时有些朋友说已经不用搜索引擎改用ChatGPT时,我是有些吃惊的。但不可否认,对于探索式查询,AI搜索确实体验不错。关键问题是,这个场景的适用范围到底有多大?是否可与衣食住行的刚需App相提并论?
或者说,到底是“场景+AI”还是“AI-native”?就目前业界落地的情况而言,依然是前者占优,就是说利用LLM的能力优化现有业务场景(如copilot),所谓杀手级应用目前还没有出现。AI搜索是LLM落地的比较直观的应用,但应该不是大家口中的killer app。AI搜索产品会在市场中占有一席之地,但不能成为像移动互联网和短视频一样改变人们生活的产品。有趣的是,业界这么多聪明的脑袋,这么久仍没有发现杀手级应用,说明了什么问题?是锤子的问题还是钉子的问题?
我认为“5%的错误导致LLM完全不可用”的问题会长期存在。有个流行说法叫做“相信scaling law”,意为相信随着规模的扩大必将实现AGI。抛开资本等因素,从技术角度来看,我更倾向于基于统计机器学习的LLM能力是一个收敛级数,而且当前的效果已经一定程度上收敛。要实现AGI,可能还需要更底层的技术革命才能实现。
革命尚未成功,同志仍须努力。