Comet 浏览器：AI 代理的未来与浏览器革命

118次阅读

共计 6190 个字符，预计需要花费 16 分钟才能阅读完成。

在深入探讨 Comet 及其工作原理之前，Aravind 回顾了他们在 2023 年 4 月为《Command Line》通讯进行的上一次对话。当时，他们讨论了 Aravind 开发浏览器的动机，他表示：“我们开发浏览器的原因可能是，它可能是构建 AI 代理的最佳方式。”

这个想法从那时起一直萦绕在 Aravind 的脑海中，并且他认为这个想法已经被其他人以及最近的一些发布所验证。但在深入探讨之前，Aravind 进一步阐述了为什么认为浏览器实际上是实现 AI 代理的途径。

Aravind 解释说，首先需要明确什么是 AI 代理。人们期望从 AI 代理中获得的大致描述是，它能够真正为你做事。这显然非常模糊，就像 AI 聊天机器人的定义本身就很模糊一样。人们希望它能对任何事情做出回应。对于代理来说也是如此，它应该能够端到端地执行任何工作流程，从指令到实际完成任务。然后，Aravind 进一步分析了它实际需要做什么：它需要上下文，需要从第三方应用中提取上下文，并代表你在这些应用中采取行动。

因此，你需要登录版本的第三方应用，并且需要从这些应用中访问你的数据，但要以一种不需要反复授权的方式进行。它实际上不需要你的许可来做很多事情。同时，当它无法完成任务时，你可以接管并完成它，因为没有任何 AI 代理是万无一失的，尤其是在推理模型远未完美的当下。

因此，你需要一个界面，让代理和人类都能以相同的方式操作：他们的登录是无缝的，客户端数据易于使用，控制起来非常自然，即使某些功能无法正常工作，也不会造成真正的损害。当你觉得代理无法完成任务时，你仍然可以接管并完成它。那么，在不需要创建虚拟服务器、不需要用户担心隐私等情况下，最直接实现这种环境的方式是什么？那就是浏览器。

一切都可以在客户端完成，一切都可以保持安全。它只访问完成任务所需的信息，就像你自己访问这些网站一样，这样你就可以理解代理在做什么。它不像一个黑匣子，你拥有完全的透明度和可见性，当你觉得它偏离轨道时，你可以随时停止代理并自己完成任务。你还可以让代理在执行任何操作之前征求你的许可。因此，在浏览器这种我们几十年来熟悉的环境中，引入这种控制、透明度和信任，使得重新构想浏览器变得非常有意义。

Aravind 是如何构建 Comet 的？当第一次打开它时，感觉非常熟悉，就像 Chrome 一样。Aravind 的理解是，它是基于 Chromium 构建的，Chromium 是 Google 维护的 Chrome 开源基础，这使得它能够轻松导入数据。

第一次打开 Comet 时，Aravind 惊讶地发现，只需点击一下，就可以将所有 Chrome 的上下文（甚至扩展程序）导入 Comet。那么，为什么决定基于 Chromium 构建 Comet，而不是从头开始开发？

首先，Chromium 是对世界的巨大贡献。它在将标签重新构想为进程、安全性、加密以及核心后端性能方面做得非常好，无需重新发明这些。同时，它是一个开源项目，因此 Perplexity 可以轻松招聘开发人员，让他们在 Comet 浏览器上工作，尤其是它遵循开放标准，他们也希望继续为 Chromium 做出贡献。

其次，Chromium 是目前的主流浏览器。Chrome 几乎占据了主导地位，如果包括 Edge（它也是 Chromium 的分支）、DuckDuckGo 和 Brave，它们都是 Chromium 的分支，只有 Safari 是基于 WebKit 的。因此，没有必要重新发明轮子。

在用户界面方面，Aravind 认为保留人们已经熟悉的最熟悉的 UI 会更好，而这正是 Chrome 的 UI。Safari 的 UI 略有不同，有些人喜欢，有些人不喜欢，但它的市场份额仍然小得多。导入功能必须有效，否则用户会感到不便，比如“哦，这个不起作用，那个没有我的所有联系人，我错过了它。我不想再次经历登录所有应用的麻烦。”

这对于入门步骤非常重要，不仅是用户的入门，也是 AI 的入门。因为当你已经以与 Chrome 相同的安全标准登录所有第三方应用时，代理可以立即访问这些信息，并向你展示产品的魔力。

代理会看到这些信息，但 Perplexity 不会。它不会使用你从 Chrome 导入的所有数据来训练模型或其他用途。

不会。代理只在你提出相关提示时才会看到这些信息。例如，“根据我上个月在亚马逊的订单，推荐一些新的补充剂”或“去订购我经常在亚马逊上购买的镁补充剂”。代理只会在处理这个特定提示时看到这些信息，而不会在你的服务器上存储整个亚马逊历史记录，你始终可以确保提示从服务器中删除。

即使是提示，他们也可以选择不查看，即使是为了微调目的。假设他们想让代理在汇总或用户进行亚马逊购物查询方面表现得更好，他们甚至不需要查看这些信息，如果你选择不保留提示的话。这就是他们希望提供的隐私和安全级别。

同时，前沿智能全部在服务器端。这是 Apple 难以将 Apple Intelligence 完全集成到 iOS 或 macOS 中的主要原因之一，因为人们普遍期望一切都需要在客户端完成。但这并不是实现隐私的必要条件。你仍然可以在服务器端的前沿智能中保持安全和隐私。这就是他们在 Comet 中引入的架构。

他们在 Comet 发布几周后进行了这次对话，它仍然是邀请制，或者仅限于每月 200 美元的高级用户。但 Aravind 在推特上分享了很多人们使用它的例子，比如制作 Facebook 广告、进行 FedEx 客户支持聊天、运行智能家居配件、制作 Facebook 市场列表、安排日历会议等。

退订垃圾邮件是很多人喜欢的用例。

这可能是其中之一。但 Aravind 认为，目前人们使用 Comet 的主要用例是什么？

虽然这些是更引人注目的用例，但 Aravind 认为，最普遍、最无聊的用例是调用侧边栏并让它在你所在的网页上为你做事。不仅仅是简单的总结，而是更复杂的问题。比如，他在观看 Alex Heath 与 Zuckerberg 的播客时，想知道 Zuckerberg 对某个话题的具体看法，并希望将其作为消息发送给 Slack 上的队友。

他认为，这就是你可以直接在网站上调用助手并立即完成的事情。它连接到你的 Gmail 和日历，还能够从 YouTube 视频中提取转录文本。它具有细粒度的访问权限，能够立即检索到相关的片段。他甚至可以要求它从特定时间戳开始播放，而不是浏览整个转录文本。这种优势是无与伦比的。

这几乎让人觉得，除非你有大量时间，否则你不应该再单独观看 YouTube 视频了，这太棒了。人们还将其用于 LinkedIn。老实说，在 LinkedIn 上搜索非常困难，它基本上没有一个有效的搜索引擎。因此，代理会找出所有快捷方式，比如如何使用过滤器进行人员搜索、连接搜索，并能够提供前所未有的招聘能力。他认为它比使用 LinkedIn Premium 更好。

Aravind 很高兴提到了侧边栏，因为对于没有尝试过或见过它的人来说，这是 Comet 与 Chrome 的主要区别。你有一个 AI 助手编排层，它位于网页的侧面，可以用来与网页互动，也可以直接去做事。

这种界面表明，他们认为网络不再仅仅是浏览。Aravind 刚刚说，没有人有时间观看 YouTube 视频，更多的是关于一个操作界面。在 AI 的世界里，浏览器的浏览部分是否变得不那么重要了？

Aravind 认为，人们仍然会为了娱乐或探索而观看 YouTube 视频。但当他真正观看视频时——他做了很多智力工作，所以观看整个视频并不总是有趣的——他喜欢观看视频中的特定内容。而且，当他在工作中时，他不能观看 The Verge 的播客。他想立即知道 Zuckerberg 在你的视频中关于他们的集群或其他内容的观点，然后在周末他可以回去观看整个视频。他可能有更多的时间，所以这并不会阻止常规的浏览。

实际上，他认为人们会更多地浏览社交平台或观看 Netflix 或 YouTube，因为他们有更多的时间。AI 会做很多他们的工作，只是他们会选择更多地花在娱乐上，而不是智力工作上。或者如果人们从智力内容中获得娱乐，比如智力娱乐，他认为这也是可以的。

比如阅读书籍，这些都是可以的，比如阅读你在工作中没有时间阅读的博客文章。他认为这是他们希望浏览器发展的方式，人们启动一堆 Comet 助手任务，这些任务需要几分钟在后台完成，而他们则在放松并浏览 X 或其他他们喜欢的社交媒体。

Comet 的口号是让人们“以思维的速度浏览”。Aravind 发现，理解它能做什么实际上有一个非常陡峭的学习曲线。

顺便说一下，Alex 想指出一点。有一篇文章（可能是 The Verge 或其他地方的）提到，Google 正试图使用 Gemini 预测 YouTube 视频的最大参与时间，并在该时间戳附近显示广告。Perplexity 在 Comet 浏览器中使用 AI 来节省你的时间，精确地获取你想要的细粒度时间戳，而不是浪费你的时间。因此，人们经常问，为什么 Google 不做这些事情？这里的激励机制完全不同。

Aravind 想深入探讨这个问题，并且他对 Comet 的商业模式有很多疑问，因为它对你来说也非常计算密集且运行成本高昂，这也是你之前提到过的。但关于学习曲线和使其易于接近的问题，你如何做到这一点？因为当我第一次打开它时，我有点不知道该用它做什么。我的意思是，我去你的 X 账户，看到你分享的所有内容。但我确实认为，这些产品的开发者可能没有充分意识到学习曲线的存在。

不，不，Aravind 意识到了这一点，并且作为一个用户，即使构建所有这些代理用例很有趣，也需要一段时间才能停止以通常的方式做事，并开始更多地使用 AI，这甚至包括基本的操作，比如你在电子邮件线程中输入的回复。尽管 Google 有这些自动建议的回复，但 Aravind 通常不喜欢它，而且它通常不会从 Gmail 之外提取上下文来帮助他做到这一点。或者比如检查未读的 Slack 消息。Aravind 通常只是打开 Slack 作为一个标签，然后尝试滚动浏览他所在的 50 到 100 个频道，点击每个频道，阅读所有未读的消息。这需要时间才能真正训练自己使用 Comet。因此，他们计划做的是，实际上发布很多早期用例的教育材料，并使其广泛可访问。

Aravind 认为，这将经历与聊天机器人相同的轨迹。当 ChatGPT 刚推出时，他相信很多人并不知道如何使用它。你可以利用它的所有方式是什么？事实上，他仍然不认为人们真的……它并不是一个普遍存在的东西。有些人真的非常了解如何使用这些 AI 工具，大多数人每周至少使用它一两次，但他们实际上并没有在日常工作流程中使用它。

浏览器将经历类似的轨迹，但另一方面，一个非常自然、非常直观的用例，你甚至不需要教人们如何使用，那就是侧边栏。它已经获得了如此多的关注，以至于 Aravind 觉得它会非常直观。几乎会让人觉得，如果没有侧边栏，为什么还要使用浏览器？这就是它的感觉。

它确实很快让传统的聊天机器人界面（如 Perplexity 或 ChatGPT）感觉有点过时，当你有网页旁边的侧边栏时。

确实，很多人使用 ChatGPT 是为了……你在电子邮件中，想知道如何回复，所以你复制 / 粘贴一堆上下文。你到那里，让它做某事，然后你复制 / 粘贴回来。你最终在你的 Gmail 收件箱中编辑它，或者你在 Google Sheets 或 Google Docs 中做。Comet 会感觉更加直观。你就在旁边拥有它，你可以进行编辑，或者你用它来起草一条推文，或者 Elon Musk 发布了什么，你想发布一个有趣的回复。你可以直接问 Comet，“嘿，为我起草一个有趣的回复推文，”它会自动为你准备好。你只需要点击发布按钮。

所有这些事情肯定会减少你真正打开另一个标签并不断询问 AI 的次数。从你当前的网站直接启动任务，为你提取相关上下文，并在它准备好时推送通知你，这感觉像是另一种级别的委托。

根据你看到的早期数据，Comet 在哪里遇到困难？

它肯定还不完美，对于需要 15 分钟或更长时间的长期任务。Aravind 举了一些例子。比如，他想要一份曾在斯坦福大学学习并曾在 Anthropic 工作过的工程师名单。他们不必目前在 Anthropic 工作，但必须至少曾在 Anthropic 工作过一次。他希望这份名单详尽无遗，并导入到 Google Sheets 中，附带他们的 LinkedIn 链接，并希望代理去 ZoomInfo 获取他们的电子邮件，以便他联系他们。他还希望代理批量起草个性化的冷邮件，联系他们进行咖啡聊天。

Aravind 不认为 Comet 今天可以做到这一点。它可以完成部分任务，因此你仍然需要作为协调者将它们拼接在一起。他相当确定，六个月到一年后，它可以完成整个任务。

你认为它会这么快实现吗？

Aravind 押注于推理模型的进步来实现这一点。就像 2022 年他们押注 GPT-4 和 Claude 3.5 Sonnet 等模型的出现，使得 Perplexity 中的幻觉问题在拥有良好索引和模型的情况下基本不存在一样。他押注于在浏览器环境中，访问所有这些标签和工具，一个足够好的推理模型——比如稍微更好的 GPT-5 或 Claude 4.5——可能会让他们突破界限，使得所有这些事情突然变得可能，然后一个招聘人员一周的工作只是一个提示：寻找和联系。然后你需要进行状态跟踪。

这不仅仅是完成这一个任务，而是希望它继续跟进，跟踪他们的回复。如果有些人回复了，去更新 Google Sheets，将状态标记为已回复或进行中，并跟进这些候选人，与我的 Google 日历同步，然后解决冲突并安排聊天，然后在会议前推送一份简报。其中一些事情应该是主动的。它甚至不需要是一个提示。

这就是他们希望将浏览器变成一个更像操作系统的雄心，这些进程一直在运行。今天做到这一切并不容易，但总的来说，他们已经成功地确定了那些处于工作边缘的甜蜜点，并抓住了这些用例，让早期采用者爱上产品，然后乘着推理模型进步的浪潮。这就是他们的策略。

Aravind 不确定这只是推理模型的问题，还是产品早期的问题，或者他还没有弄清楚如何正确使用它。他的经验——

这并不是说他认为一切都会在新模型下开箱即用。你真的需要知道如何利用这些功能，并拥有正确的评估和提示的版本控制，以及对辅助模型进行任何后期训练，这基本上是他们的专长。他们非常擅长这些事情。

Aravind 会说，基于——他会附带说明他还没有花几周时间使用它——但基于他的早期经验，他会将其描述为在成功率方面有点脆弱或不可预测。他要求它带他去预订他想要的一个非常具体航班的页面，它做到了。它带他到了页面并填写了一些内容，而普通的 Perplexity 或 ChatGPT 界面只会带他到网页。它实际上带他走得更远。它没有预订，但它带他走得更远，这很好。

但随后他要求它，“创建一个在 X 上关注我的所有人的名单，他们在 Meta 工作，”它给了他一个人，而他知道实际上有很多人。或者例如，他说，“找到我与 Perplexity CEO 的最后一次采访，”它说它找不到，但随后它显示了采访的源链接，所以答案说它找到了，但源没有。他在产品中看到了一些脆弱性，他知道这是早期阶段，但他只是想知道，这些只是错误，还是模型或架构中的固有问题？

如果 Aravind 可以分享链接，他可以查看一下，但他会说，他们自己宣传的大多数广告用例都是预期会工作的。现在，它会始终以确定性的方式 100% 工作吗？不会。他们会在几个月内实现这一点吗？他认为会，而且你必须计时自己，你不是在等待一切都可靠地工作的那一刻。你希望稍微早一点，你希望……

正文完