Google的AI革命：Gemini 2.0如何引领未来？

87次阅读

共计 2406 个字符，预计需要花费 7 分钟才能阅读完成。

Google 一直以来都对速度有着近乎痴迷的追求。无论是搜索结果的返回速度，还是新产品的发布速度，Google 总是争分夺秒。这种对速度的执着在很大程度上帮助公司取得了成功。更快的搜索结果和更全面的信息让 Google 成为了搜索引擎市场的领导者。,

然而，快速发布产品的策略也带来了一些问题。许多产品在经过短暂的公开测试后就被放弃，甚至有一个专门的网站“Killed by Google”记录了这些失败的产品。尽管如此，Google 也推出了一些非常成功的产品，比如 Gmail 和 Adsense，这些产品不仅巩固了 Google 在搜索领域的地位，还帮助公司扩展到了其他领域。

Google 的 AI 革命：Gemini 2.0 如何引领未来？

当 AI 革命似乎让 Google 落后时，管理层的心情可想而知。虽然 Google 多年来一直在投资 AI 技术，但 ChatGPT 的迅速崛起让 Google 措手不及。为了应对这一挑战，Google 在 2023 年底推出了 Gemini 生成式 AI 工具，并将其嵌入到搜索引擎结果页面（SERP）的顶部。

Google 和 Alphabet 的首席执行官 Sundar Pichai 在最近的一篇博客文章中提到：“我们的 AI 概览现在覆盖了 10 亿人，使他们能够提出全新类型的问题——迅速成为我们最受欢迎的搜索功能之一。”不过，根据我个人的测试，Google 的 AI 在编码和自我认知方面表现并不理想。,

尽管如此，Pichai 在文章中还提到：“自去年 12 月我们推出 Gemini 1.0 以来，已有数百万开发者使用 Google AI Studio 和 Vertex AI 与 Gemini 进行构建。”这表明 Google 的 AI 可能在某些开发任务中表现不错，尤其是在与 Python 相关的项目上。

当然，Google 的 AI 还有很大的改进空间。幸运的是，Google 似乎已经意识到了这一点，并在今天宣布了 Gemini 2.0 的发布，以及一系列与开发者相关的改进。

Gemini 2.0 的公告是由 Google DeepMind 的首席执行官 Demis Hassabis 和首席技术官 Koray Kavukcuoglu 发布的。他们称 Gemini 2.0 是“我们为代理时代打造的新 AI 模型”。Gemini 2.0 实际上是一个模型家族，今天宣布的是 Gemini 2.0 Flash 的实验版本。Google 将其描述为“我们的主力模型，具有低延迟和在我们技术前沿的增强性能，并在大规模上实现。”

Gemini Flash 模型并不是聊天机器人，而是为聊天机器人和其他应用程序提供动力的模型。Flash 的称号意味着该模型主要面向开发者。根据 Hassabis 和 Kavukcuoglu 的说法，Gemini 2.0 Flash 的性能比 Gemini 1.5 Flash 高出两倍。

早期的 Gemini Flash 版本支持多模态输入，如图像、视频和音频。而 Gemini 2.0 Flash 不仅支持多模态输入，还支持多模态输出，比如“原生生成的图像与文本混合，以及可控的文本到语音（TTS）多语言音频。”此外，它还可以原生调用工具，如 Google 搜索、代码执行以及第三方用户定义的函数。

开发者现在可以通过 Google API 在 Google AI Studio 和 Vertex AI 中访问 Gemini 2.0 Flash。多模态输入和文本输出对所有开发者开放，但文本到语音和图像生成功能仅对 Google 的早期访问合作伙伴开放。

非开发者也可以通过 Gemini AI 助手在桌面和移动版本中体验 Gemini 2.0。这个“聊天优化”版本的 2.0 Flash 可以在模型下拉菜单中选择，用户可以体验到更加有帮助的 Gemini 助手。,

至于“代理”部分，Google 将其描述为提供具有“行动能力”的用户界面。Pichai 在他的博客文章中表示，代理 AI“可以更好地理解你周围的世界，提前思考多个步骤，并在你的监督下代表你采取行动。”虽然这听起来很科幻，但至少 Pichai 强调了“在你的监督下”，这让我稍微放心了一些。

Gemini 2.0 有一系列改进，包括多模态推理、长上下文理解、复杂指令遵循和规划、组合功能调用、原生工具使用以及改进的延迟。这些改进共同为 Gemini 2.0 的代理活动奠定了基础。

Google 的 Project Astra 展示了这些能力如何结合在一起。Astra 是一个原型 AI 助手，将现实世界的信息整合到其响应和结果中。它可以推荐餐厅或制定行程，甚至可以根据用户的现有知识做出决策，甚至在某些情况下采取主动。

另一个项目 Project Mariner 则有点让人感到不安。Mariner 与浏览器屏幕上的内容一起工作，本质上是在阅读你正在阅读的内容，然后根据某些标准做出响应或采取行动。虽然 Google 承认 Mariner 做得相当好，但并不总是准确，有时可能会有些慢。

Jules 是一个面向开发者的实验性代理，集成到 GitHub 工作流中，预计将管理和调试代码。根据 Google 的博客文章，“你可以将 Python 和 Javascript 编码任务交给 Jules。”Jules 可以处理错误修复和其他耗时的任务，而开发者则可以专注于实际想要构建的内容。

虽然 Jules 听起来很有潜力，但我也感到有些不安。毕竟，将代码交给 AI 去修改似乎有一定的风险。如果出现问题，找到并还原更改的内容可能会非常麻烦。

尽管如此，Google 似乎已经意识到了 AI 的潜在风险，并采取了一系列措施来确保安全。Hassabis 和 Kavukcuoglu 表示，他们正在“采取探索性和渐进的方法进行开发，进行多项原型研究，迭代实施安全培训，与可信赖的测试人员和外部专家合作，并进行广泛的风险评估和安全与保证评估。”

总的来说，Google 的 AI 项目虽然充满雄心，但也面临着巨大的挑战。AI 有潜力成为生产力的助推器，但也极具风险。希望 Google 能够继续优先考虑安全和责任，确保 AI 的发展不会走向不可控的方向。

正文完