共计 2098 个字符,预计需要花费 6 分钟才能阅读完成。
Google 最近推出的 Gemini,无疑是其在生成式 AI 领域的一次重大突破。作为 Google 的旗舰产品,Gemini 不仅与 OpenAI 的 ChatGPT、Meta 的 Llama 以及 Microsoft 的 Copilot 齐名,更在多模态处理和应用场景上展现了其独特优势。
什么是 Gemini?
Gemini 是由 Google DeepMind 和 Google Research 共同开发的下一代生成式 AI 模型家族。它包含四个版本:
- Gemini Ultra
- Gemini Pro
- Gemini Flash,这是 Pro 的“精简版”,速度更快,还有一个更小的版本叫 Gemini Flash-8B。
- Gemini Nano,包含两个小型模型:Nano- 1 和稍微更强大的 Nano-2,主要设计用于离线运行。
这些模型都是多模态的,能够处理文本、音频、图像、视频等多种数据类型。与 Google 自家的 LaMDA 模型不同,Gemini 不仅限于文本处理,还能理解和生成多种形式的内容。
Gemini 应用与模型的区别
Gemini 应用(以前叫 Bard)和 Gemini 模型是两个不同的概念。Gemini 应用是一个连接到各种 Gemini 模型的客户端,提供类似聊天机器人的界面。它可以在网络上找到,并在 Android 和 iOS 上作为 Google Assistant 和 Google Search 应用的替代品。
Gemini 应用可以接受图像、语音命令和文本,包括 PDF 文件和即将支持的视频,并能生成图像。在移动设备上与 Gemini 应用的对话会转移到网络上的 Gemini,前提是你在这两个地方都登录了同一个 Google 账户。
Gemini Advanced 的功能
通过订阅 Google One AI Premium 计划,用户可以访问 Gemini Advanced 功能。这个计划提供了对 Google Workspace 应用中的 Gemini 的访问权限,并启用了 Gemini Advanced,将公司更复杂的 Gemini 模型引入 Gemini 应用。
Gemini Advanced 用户还可以获得一些额外功能,如优先访问新功能、直接在 Gemini 中运行和编辑 Python 代码的能力,以及更大的“上下文窗口”。
Gemini 在 Google 服务中的应用
Google 正在逐步将 Gemini 功能注入到其核心应用和服务中,如 Gmail、Google Docs、Maps、Slides、Sheets、Drive 和 Meet。Gemini 在 Gmail 中可以撰写电子邮件并总结消息线程,在 Docs 中帮助撰写和完善内容,在 Slides 中生成幻灯片和自定义图像,在 Sheets 中跟踪和组织数据,在 Maps 中总结咖啡店的评论或提供旅行建议。
Gemini 的影响力还延伸到 Drive、Meet、Photos、YouTube 和 Chrome 浏览器,为用户提供全方位的 AI 支持。
Gemini 扩展和 Gems
Gemini Advanced 用户可以创建 Gems,由 Gemini 模型驱动的自定义聊天机器人。Gems 可以从自然语言描述中生成,并可以与他人共享或保持私有。
Gemini 应用可以通过 Google 所谓的“Gemini 扩展”访问 Google 服务,如 Drive、Gmail 和 YouTube。
Gemini Live 深度语音聊天
Gemini Live 允许用户与 Gemini 进行“深度”语音聊天,可以在移动设备上的 Gemini 应用和 Pixel Buds Pro 2 中使用。
Gemini Live 还被设计为一种虚拟教练,帮助用户为活动排练、集思广益想法等。
通过 Imagen 3 生成图像
Gemini 用户可以使用 Google 内置的 Imagen 3 模型生成艺术和图像。Imagen 3 在生成过程中更具“创造性和细节”,并且是迄今为止渲染文本的最佳 Imagen 模型。
Imagen 3 的一个样本。
面向青少年的 Gemini
Google 推出了一款面向青少年的 Gemini 体验,允许学生通过其 Google Workspace for Education 学校账户注册。
Gemini 在智能家居设备中的应用
越来越多的 Google 制造的设备利用 Gemini 来增强功能,从 Google TV Streamer 到 Pixel 9 和 9 Pro,再到最新的 Nest Learning Thermostat。
在最新的 Nest 恒温器上,Gemini 将增强 Google Assistant 的对话和分析能力。
Gemini 将很快能够总结来自 Nest 设备的安全摄像头 footage。
Gemini 模型能做什么?
由于 Gemini 模型是多模态的,它们可以执行一系列多模态任务,从转录语音到实时为图像和视频添加字幕。
你可以用 Gemini Ultra 做什么
Gemini Ultra 可以用于帮助完成诸如物理作业、在工作表上逐步解决问题,并指出已填写的答案中的可能错误。
Gemini Pro 的能力
Gemini Pro 在推理、计划和理解能力方面优于 LaMDA。最新版本 Gemini 1.5 Pro 在某些领域甚至超过了 Ultra 的性能。
Gemini Flash 更轻但功能强大
Gemini Flash 是为狭窄、高频的生成式 AI 工作负载而构建的,是多模态的,可以分析音频、视频、图像和文本。