我有一个小习惯,每次参加完活动,总会加一些新朋友,或被人加,为防止加完后忘记这人长啥样;我会习惯性翻看一下对方朋友圈,找到一张照片,保存到备注里,下次见面,以防止认不出来的尴尬。
前两天,活动结束,我加一位技术领域的专家,他在网上还算有名;当时,我从百度百科上保存一张他的照片,想着忙完再备注。
可回到家,怎么也想不起这人是谁,鉴于强迫症人格,我总想弄清楚。很头疼,怎么办?于是,我把照片发给国内的几个AI搜索软件,结果都没找到我想要的答案。
最后,把它发给了GPT-4,也没有识别出来,在快要放弃时我寻思给Perplexity试试吧,没想到,不到5秒时间,它帮我识别出了对方是谁。
我按照线索,在通讯录里找到他的微信,赶紧把备注加上;真惊讶,没想到Perplexity进步这么快,虽然Perplexity PRO版用Claude3.5、GPT4-4o和sonar三个模型,但不得不说,某些方面,它已经超过了GPT-4。
于是我在想,各家AI搜索都在对Perplexity贴脸开大,到底谁能做出Perplexity内核部分?Perplexity仅是问答产品吗?创始人怎么看的?这些问题,有必要挖一挖。
它能让你知道全球正在发生什么
每次要说这个名字,对不太擅长英语的人来说,都有点儿难为情。是的,Perplexity,听起来挺拗口,用中文念出来要五个字,你可以这么读:“佩尔-普莱克-斯提”。
什么意思呢?
简单讲,困惑的。创始人也许在想,如果你有什么困惑,就来问问我们的产品,它能为你解答。
产品是国外的,从生态位上看,介于Google搜索和ChatGPT聊天机器人之间,它不仅有提问窗口还有相关问题,还有发现功能,目前里面收集大量当日的新闻摘要,你可以浏览,还是随时继续追问。
发现的好处在于,它能让你知道全球正在发生什么。
注意,是全球。我觉得比起ChatGPT或Gemini更便捷一些,更像国内AI版知乎,这么说,你也不用感到奇怪,因为它的创始团队中,有不少人以前在Quora工作过,而知乎当年的创业灵感,就来自于Quora。
比如:
技术总监Denis Yarats,以前是Quora的机器学习工程师,创始设计师Henry Modisett在Quora工作超过了8年,做过很多产品设计。
Perplexity的创始人Aravind Srinivas,以前在OpenAI工作,主要研究语言和扩散生成模型,所以,通过几个人的组合,不难看出,这家公司的基因深受其创始团队的经历影响。
知道初心就知道使命,那么,这个产品的设计初心是什么呢?Aravind Srinivas说过,决定做AI问答社区,首先第一点启发来自于谷歌。
Aravind从谷歌两位联合创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)身上学到一件事,即:
早些年,谷歌没有通过模仿其他搜索引擎来竞争,而是选择一种颠覆式创新的模式。
如何颠覆?他们注意到,答案引擎概念比现在用的搜索引擎历史还要悠久,早在1970年代,信息检索领域研究人员就开始用自然语言处理(NLP)来帮助人们从文本中获取信息。
1990年代中期的Ask Jeeves(现在的Ask.com)也提供过类似的问答服务,但是,当时搜索引擎靠文本检索信息效果不理想,后来没办法,谷歌才改变技术结构。
进而,采用了用网页链接结构来提取信息,这种办法后来被称为“页面排名”,非常巧妙的创新。
具体来说,两位联合创始人将搜索过程简化成了幂次迭代,他们聘请大量工程师,来开发关于更多基于传统信息提取技术的排名信息,谷歌与其他搜索引擎的根本区别在于独特的排名信号。
Aravind还注意到,Google的创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)都有深厚的学术背景,并且他们努力将学术研究与产品开发相结合。
这里有一个小事件:
Google在创业阶段时,试图将自己的搜索引擎基础卖给Excite公司,拉里·佩奇做过一个展示,把Excite的搜索结果和Google的搜索结果进行对比。
这个过程中,Excite的首席执行官批评Google的搜索结果,但拉里·佩奇坚持认为,一个优秀的搜索引擎应该能够在用户输入任何内容时都提供高质量的答案。
所以,拉里·佩奇认为,搜索软件应在任何输入下,都得给用户提供高质量答案;但是,很不巧,后来谷歌走了一条与初心违背却很赚钱的事情,即:卖广告,广告赚钱效率在当年要比文本生成赚钱。
因此,Aravind在谷歌学到两点,一,要颠覆式创新,做文本搜索的事情,而非网页检索;二,最好文本和学术挂钩,用户想要一个实际答案,不是一堆有答案的网页列表。
第二点来自于谁呢?投资人Marc Andresson
Aravind在困惑要不要做垂直领域的搜索软件时,Marc Andresson给他过两个建议:
一,不管如何,都不要做搜索,是把业务拓展到像Quora社区这样的有社交特性的领域。
为什么呢?
很多只做垂直领域搜索的公司最后都失败了,相反,那些在特定领域提供全面服务的公司却获得了成功。
比如,Booking.com不只搜索酒店,还可以直接预订;Airbnb也不仅仅是预订住宿,而是提供了全套的旅行服务了;如果Perplexity只做得足够深,竞争优势不会只停留在技术和积累用户上。
二,一个结合社交、AI问答的社区,比单纯的搜索引擎更有价值。
传统的搜索引擎在回答问题时往往反应慢,不能有效地获取知识。如果Perplexity能提升回答的效率,并连接社区成员,那么,这件事会格外的性感。
所以,后来Aravind被说服了,他觉得Perplexity应该做这件事,眼前不止于有网页产品,还有社区,未来还要与一切可穿戴设备连接。
比如,与Brilliant Labs合作(注:Brilliant Labs,是一家总部位在新加坡的科技公司,主要开发具有人工智能功能的开源眼镜),让人们通过AR眼睛进行搜索和查询。
现在来看,Brilliant Labs的确在今年2月9日与Perplexity达成了合作,并且推出Frame眼镜。因此,Perplexity超越了传统搜索引擎的范畴。
第三个启发来自于GitHub Copilot,这当中有个故事。
Aravind说过,像GitHub Copilot这样的工具,很多人都在用,而且还有人为此付费,我自己也在用。(注:GitHub Copilot是由GitHub和OpenAI共同开发的AI编码助手工具,他能辅助开发者更智能的写代码)。
拥有人工智能的公司,收集大量数据,但这些数据只是更大事物的一部分;我要找到一个问题,努力解决它,就能从人工智能的进步中受益。
也就是说:
通过人工智能技术,让人使用技术解决具体问题,不仅能改善产品,吸引用户,还能用用户生成的数据持续迭代人工智能的能力,形成一个正向循环。
但是,大多数公司都没有这种特性,这就是为什么他们都在努力找在哪里可以使用人工智能,并让人用起来的原因。
Aravind觉得,有两款产品做到了这一点。一个是谷歌搜索,任何人工智能、语义理解、自然语言处理的改进都会提升产品的质量,更多的数据会让嵌入变得更好。
另一个是自动驾驶汽车,越来越多的人使用它,它为你提供了更多的数据。这使得模型更好,视觉系统更好,行为克隆也更好。
所以,我一直希望我做的产品有这种特定,它本身不是为消费者搜索行为所设计的,而是,从搜索的那一刻开始,产品才刚刚开始。
第四个启发在数据库上
Aravind说,从技术层面,在如何改变用户搜索体验过程中,我意识到传统的关系数据库面临很多限制,特别在处理复杂的自然语言查询时。
比如:
如果你问数据库,“埃隆·马斯克关注了谁?”或者“莱克斯·弗里德曼关注的是谁?”这种问题,传统数据库是搞不定的。这样的限制,让查询不够灵活,用户和数据的互动也就受限了。
怎么办呢?随着人工智能技术的进步,我们觉得可以破这个局。因为现在有些很棒的编程模型,能懂你说的话,我们就想用这些模型来帮忙。
我们的方法是这样的:
先搜集一些数据,然后把数据放进表里,再根据需要生成SQL查询。我们选择用SQL,是因为它简单明了,选择的东西不多,不像Python那样复杂。
你可以把这个过程想象成在一个大图书馆里找书。
比如:你想找所有关于“太空旅行”的书,但图书馆的索引系统只按作者名、出版年份排序,没按主题来排。这就麻烦了,因为你知道这些书肯定在,但找起来就没那么直接了。
所以,我们用了一种类似的外部助手(就是大模型),让它从内部开始整理和处理信息,然后,把信息整理成表格,生成需要的SQL查询。
虽然这方法听起来很不错,但其实在把自然语言转换成SQL的过程中,我们遇到了很多问题,比如错误处理和系统稳定性问题。
怎么办呢?
我们决定用一种更灵活、能自我调整的方式,来应对挑战。如此一来,一方面,我们提升了自然语言处理系统的能力,让它能更准确地理解和分析用户的意图。
另一方面,引进更高级的机器学习模型和算法,特别是能从大量杂乱无章的数据中,学习和提取有用信息的模型,就形成了技术迭代。
问题是,如何改进呢?我们认为关键点在RAG部分。
什么是RAG?为什么是RAG呢?
RAG,全称Retrieval-Augmented Generation,中文叫检索增强生成技术。
概念是帕特里克·刘易斯(Patrick Lewis)在2020年的一篇文章《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》中首次提出,现在,他是Cohere RAG团队的负责人。
Aravind认为,RAG技术能够连接到任何外部数据源,让用户几乎可以和任何数据存储库进行对话。
例如:在医疗领域,一个聊天机器人可以通过查询医院的数据来帮助医生;在金融领域,分析师使用的机器人也可以通过访问市场数据库来提供更可靠的分析。
以OpenAI为代表的公司采用“微调”方式服务于特定行业客户,即:利用企业自己的数据,来继续训练提供的基础模型,从而开发出更懂该企业的专有模型。
比如:GPT-4在被训练了更多关于法律和财务的知识后,相较于学得较少的GPT-3.5,更容易通过法律和财务方面的考试。
而使用RAG方法不同。
虽然Perplexity也使用了一些大型模型,但并没有继续让这些模型深入学习特定领域的知识,而是,将数据作为随时可查询的资源供模型参考。
什么意思呢?
当OpenAI通过不断喂养数据,让大模型变得更聪明,使其能直接回答用户问题时,这种做法像是在进行闭卷考试,需要凭借已有的记忆来回答问题。
而Perplexity利用RAG技术,则相当于开卷考试,你可以随时查阅资料来找到答案。
也就是说,RAG技术让Perplexity能够利用即时的、广泛的外部数据,为人们提供更精确、更相关的答案,这不仅提高了答案的质量,也极大地增强了系统的应用灵活性和实用性。
所以,让Perplexity与Google不同的是其答案引擎,而与ChatGPT的区别则在于使用了RAG(Retrieval-Augmented Generation)技术。这种技术连接到外部知识库,使得AI生成的内容更加准确和可靠。
虽然,最近Perplexity面临一些技术伦理、版权争议的问题,但我认为,这并没有影响其在提供高质量搜索上的核心能力。
除了从谷歌、投资人、GitHub Copilot、数据库以及RAG这六个方面得到启发之外,国内的创业者可能更关注如何赚钱。
Perplexity并没有像其他公司那样,先做大规模再开始收费,而是一开始就推出了订阅制付费模式,每月20美刀,的确不便宜。但它的模型能力确实很强。
我用它来搜索国内的信息,然后,和使用国内AI软件搜索的结果,以及信息来源的抓取能力进行综合比较,结果毋庸置疑,国内技术还有很长的路要走。
RAG已经成了开卷考试,到底谁更胜一筹呢?
也许用户体验是最好的评判标准,试一试就知道了;此外,国内AI搜索产品中,很多还不支持图片搜索功能、视频搜索功能,并且也面临着如何商业化的挑战。
尽管这个领域,一些企业不差钱,不急于赚钱,但,维持AI技术的开发和运营烧钱迅速,也不小。
我认为,用户诉求会越来越多,先收费再迭代产品,并非是一件坏事。反之,钱都赚不到,额外需求又进一步增加,就会陷入一种怪圈,也许到时候,用户的衡量标准会变得越来越琢磨不透。
总结
AI搜索,到了内卷时刻。
当产品、资源都在同质化时还能拼什么?答案可能只有两个字:速度。谁能赚到钱,更快地迭代技术、谁就更有可能领先。
速度的硝烟,等不到明年,也许下半年,就见分晓。祝你,卷出成绩。