共计 733 个字符,预计需要花费 2 分钟才能阅读完成。
最近 Perplexity 推出的 Sonar 模型在 AI 圈子里引起了不小的讨论。作为一个经常使用各种 AI 工具的用户,我对这种 ’ 最先进 ’ 的宣称总是持保留态度。不过这次 Perplexity 的自信确实让人有点好奇。
他们声称 Sonar 在用户满意度和响应速度上都碾压了 GPT-4o 和 Claude 这些老牌选手。从他们展示的几个对比截图来看,Sonar 的回答确实更简洁明了,引用来源也更多。但这里有个问题 – 我们怎么知道这些引用都是靠谱的?毕竟 AI 的引用质量很大程度上取决于它背后的数据源,而这些数据源又跟各家公司的商业合作脱不了干系。
说到测试方法,Perplexity 的做法有点让人摸不着头脑。他们只展示了结果,却没有说明具体的测试过程。比如用了哪些查询、测试规模有多大、用户反馈是怎么收集的 … 这些关键信息都缺失了。作为一个经常写技术评测的人,我觉得这种不透明的做法确实让人有点不安。
不过话说回来,Sonar 在速度上的表现确实亮眼。每秒 1200 个 token 的处理速度,比 Gemini 2.0 Flash 快了整整 10 倍。这让我想起前几天用 GPT-4o 时,等一个复杂问题的回答等了快 10 秒的尴尬经历。如果 Sonar 真能做到几乎即时响应,那确实是个不小的优势。
有趣的是,Perplexity 还提到 Sonar 在学术基准测试 IFEval 和 MMLU 中表现优异。这两个测试主要评估 AI 对复杂指令的理解能力和跨学科知识的掌握程度。作为一个经常需要 AI 辅助研究的人,这一点确实很吸引我。
总的来说,Sonar 看起来确实有它的独到之处,但要说它完全碾压其他 AI 模型,我觉得还为时过早。毕竟 AI 领域的发展日新月异,今天的领先者可能明天就被超越了。不过如果你是个 Pro 用户,倒是可以亲自试试看,毕竟实践出真知嘛。