共计 5394 个字符,预计需要花费 14 分钟才能阅读完成。
Isaac Reynolds 在 Google 的 Pixel 相机团队已经工作了近十年——从 2016 年第一款 Google Pixel 手机发布开始。然而,可以说他从未像今年对 Pixel 10 Pro 这样,对 Google 集成到手机相机中的技术如此乐观。过去一年中,新一波的 AI 突破使 Google 能够利用大型语言模型、机器学习和生成式 AI 成像来解锁新功能,推动手机摄影的又一次重大飞跃。
在 Pixel 10 手机发布后不久,Reynolds 还在喘息之际,笔者有机会与他坐下来深入交谈。与此同时,他所在的团队正在为 2026 年 Pixel 手机的下一波相机升级做准备。
笔者向 Reynolds 提出了关于 Pro Res Zoom、对话式编辑、相机教练、AI 模型、Tensor G5 芯片、自动最佳拍摄以及 Pixel 相机团队的更大雄心的所有问题。与此同时,他也用关于长焦全景、C2PA AI 元数据、引导框架以及公众 AI 教育的信息挑战了笔者的认知。
笔者深入了解了 Google 团队如何在 Pixel 10 Pro 相机系统中实现如此巨大的进步,并深入探讨了 Google 在 2025 年 Made by Google 活动或发布的博客文章中未提及的新摄影功能。
以下是笔者整理的笔记。
Pixel 相机团队的使命
Reynolds 表示:“我认为团队一直专注于我称之为‘持久性摄影问题’的领域——低光、变焦、动态范围和细节。每一代 Pixel 都带来了新技术。”
相机教练
Reynolds 指出:“大型语言模型(LLMs)具有巨大的上下文窗口,它们在理解方面非常强大,因此我们实际上可以教人们做一些技术无法完成的事情。如今,技术无法将相机向下移动四英尺,也无法将相机移动到 100 码外的更好视角,更无法告诉你旋转 90 度。现在,相机教练可以做到这些。这是我们利用技术解决这些持久性问题的另一种方式。”
对话式编辑
Google 在 Pixel 10 中宣布的最令人惊讶的新功能之一是对话式照片编辑——尽管这实际上是 Google Photos 应用中的一项功能。用户只需通过语音或文字描述想要更改的内容,AI 就会完成其余工作。例如,可以移除一棵树、重新居中图像或在天空中添加更多云彩。
Reynolds 解释道:“对话式编辑完全去除了界面,本质上是一个从自然语言到编辑器功能的映射。你可以说‘删除左边的东西’,它会识别左边的内容并调用魔术橡皮擦。你可以说‘嘿,我记得在犹他州时岩石比这更红’,它会稍微增加暖色调。你可以说‘能聚焦在中间的东西吗’,它会在周围添加一个小晕影。这种映射大大节省了时间。AI 的承诺不仅是提供信息,而是为你执行操作。我认为这是 AI 不仅提醒你某事,还为你完成它的最完美案例之一。看到它的效果真的非常酷。
它甚至会给你建议。AI 会查看图片并说‘我认为你可能想移除一些旁观者。’然后它会弹出这些小建议标签。最有趣的是,当你点击它们时,它所做的只是在文本框中输入内容。这不是一个单独的路径。你只需点击标签,它就会在文本框中输入内容。你可以自己输入这些内容。它并没有做任何你无法完成的事情……它还有一个语音按钮,非常酷。你可以直接对它说话。AI 的进步速度远超我的想象,而我可是这个领域的专业人士。”
Pro Res Zoom
作为一名热爱变焦摄影的摄影师,这是笔者最想与 Reynolds 讨论的功能。虽然笔者用智能手机拍摄了很多照片,但在长距离变焦时,通常需要拿出索尼无反相机和 70-200mm 镜头。笔者已经写过对全面测试 Pro Res Zoom 的期待,因为它可以通过生成式 AI 填补数字变焦的空白,从而从手机中生成更多可用的变焦照片。
Reynolds 评论道:“根本问题在于,如何将数字变焦中的传感器像素从右上角到底左下角,并填充中间的所有像素。你可以进行插值,也可以将它们全部设置为某种颜色,比如取平均值。我们经历了整个过程,从多帧降噪到多代升级器以改进插值。我们进行了逐块的多帧合并,而 Super Res Zoom 的主要进步是从逐块多帧到逐像素概率多帧……与此同时,升级器也在改进。最新一代的升级器是我们迄今为止在 Pixel 相机中运行的最大模型……它是一个非常非常好的插值器。
它不会简单地说这是黑色,那是白色,所以中间是灰色。它会说,我知道那个黑色像素是更大结构的一部分,我知道那个更大结构似乎是外墙砖块之间的灰浆。因此,它可能会保持黑色直到某个点,然后变成红色——这比简单地说‘这是黑色,这是红色,所以我不知道,我们边走边混合它们’要聪明得多。我们仍然保留这些真实的像素,然后填充中间的内容。现在模型在这方面表现得非常出色。”
我们有一系列升级器,这是最新的一款。所有升级器都有伪影。不同的升级器有不同的问题。过去我们有一些升级器在文字处理上非常出色——因为文字有非常清晰的线条——但在处理水时表现很差,因为水本质上是混沌的。这款升级器也有自己的伪影,但由于新模型在生成与场景 100% 一致的内容方面非常出色,人眼很难识别这些伪影。
比如,那是一棵树上的叶子。那就是树上叶子的样子。它完美无瑕。但对于人脸来说,人类大脑的很大一部分专门用于识别人脸,因此任何程度的伪影都无法被接受。在叶子上,你可能永远不会注意到这种细微的伪影。但在人脸上,同样的细微伪影你会立即注意到——仅仅因为我们是人类,我们天生就能识别人脸。我们是社会性生物,因此对人脸处理的要求非常高。”
因此,当 Pro Res Zoom 识别人脸时,它不会使用 AI 进行升级。
C2PA 元数据标记 AI
由于 Google 现在是内容来源与真实性联盟(C2PA)的一部分,它已经开始在照片中嵌入元数据,以表明是否使用了生成式 AI 来制作照片。这通过使用 Google DeepMind 创建的 SynthID 水印实现。Reynolds 深度参与了将这一功能纳入 Pixel 相机的项目。
Reynolds 表示:“C2PA 元数据标识了这是否是 AI 生成的,并告诉你图片的历史,我们将其嵌入其中。我亲自担任了该产品的产品经理。我不再经常亲自处理这些事情,但我接手了这个项目,因为我知道它有多重要、多微妙。随着我深入参与这个功能,我意识到人们对 AI 的了解有多么少,无论是它是什么、能做什么、不能做什么,还是它的发展速度。”
公众 AI 教育
“世界在意识到 AI 已经有多好方面确实落后了。因此,我们需要进行一些教育。我们意识到,如果用户更好地理解 AI 的功能,他们会非常喜欢它。因此,我们在 Pro Res Zoom 中不处理人脸。我认为这会让人们更放心。我们还向他们展示前后对比——使用新升级器的版本和不使用的版本,用户可以自己决定 AI 做了什么?我觉得它可接受还是不可接受?绝大多数人发现它不仅是可接受的,而且是高度偏好的。他们想要升级后的版本。但如果他们没有看到对比,他们就不会知道这一点。
然后我们还用内容凭证 [C2PA] 标记它,这样每当他们传输照片时,其他人可以自己决定‘我如何看待这张照片?我是否认为它可能是 AI 生成的?或者我会说,哦不,内容凭证就在那里,它说这根本不是 AI。这太棒了。我现在更加信任了。’随着用户了解更多,接受更多教育,获得更多关于什么是 AI、什么不是 AI 的真实数据点,我认为他们最终会随着时间的推移变得更加放心,这就是我们在 Pro Res Zoom 中已经看到的情况。我们在发布前测量的客户满意度非常高。
随着技术的进步,我们会做更多的事情。我们可能会将这些东西应用到更多模式中。我们会将变焦质量进一步提高。但我们真的希望确保我们在用户期望和理解的情况下做到这一点。因此,我们为你提供选择和透明度,但我们也在以保持客户满意度的方式推动技术边界。”
长焦全景
Reynolds 告诉笔者:“相机应用中总是隐藏着一些小惊喜。我们构建的东西比我们实际能谈论的要多。”
Google 在 Pixel 10 Pro 中未过多提及的一项新摄影功能是长焦全景,或者他们亲切地称之为“5 倍长焦全景”。这些功能允许用户使用变焦镜头、新的取景器控制以及拍摄 360 度和高达 100MP 分辨率的能力,拍摄更具电影感的风景照片。Reynolds 表示:“用镜头放大然后拼接全景的感觉非常棒。”
但 Google 没有提到的是,它使用了一种全新的方法来捕捉这些全景图像。
Reynolds 指出:“市场上的许多全景图像,以及我们历史上的全景图像,都是基于视频的。这意味着要制作全景图像,你需要拍摄 100 到 1000 张照片,每张照片拼接一个微小的垂直切片。这意味着两件事。首先,你得到的伪影往往是曲线、拉伸和压缩,因为你只是逐片拼接。另一个问题是在那 30 秒内,你必须处理 [多达] 1000 张图像。
所以我们决定不再使用视频,而是使用照片输入。我们拍摄五张照片,而不是数百张,并将所有处理放在后面——完整的 HDR Plus、完整的计算摄影、夜景模式——然后我们拼接一些重叠部分。因此,每张照片不再是一个小切片,而是一些重叠部分。例如,这就是 [Adobe] Lightroom 的做法。我们采用了 Lightroom 的方法。
因此,我们得到了夜景全景。我们现在可以拍摄高达 100 兆像素的全景照片。我们得到了超级、超级详细的图像,并且可以打开以前无法使用的变焦管道部分。因此,你可以使用 2 倍变焦,这在 Pixel 手机上具有光学质量。你甚至可以调用 5 倍长焦 [在 Pixel Pro 上]。这是一种非常计算摄影导向的、基于照片的全景。”
引导框架(无障碍功能)
Reynolds 想指出的另一项被忽视的功能是引导框架。
“引导框架是一项无障碍功能。如果你失明或视力低下,我们使用 Gemini 来帮助你构图任何照片,”Reynolds 说。“在这种情况下,你指向相机,调用引导框架,它会说‘这是一张森林场景的照片,右边有一些树,左边有一个人。人在画面中,微笑,适合自拍。’然后它会拍摄照片。因此,如果你看不清屏幕,它可以帮助你拍摄自拍和照片,因为 [自拍] 是人们交流的方式。无论你是否失明或视力低下,人们都使用图片交流。因此,它为他们提供了这种能力。”
自动最佳拍摄
笔者还询问了 Reynolds 关于今年从最佳拍摄到自动最佳拍摄的演变,并惊讶地发现这一功能实际上使用了更多的机器学习。
Reynolds 评论道:“自动最佳拍摄更像是传统的处理。你可以将其想象为一个决策树,因为这本质上就是这一功能。你按下快门一次。如果那次快门按下是完美的,每个人都微笑着,每个人都看着相机,那么很好。完成。一张照片。
好吧,假设它不完美。那么我们会稍微延长快门时间,我们会查看每一帧。因此,在几秒钟内,我们最多可以查看 150 帧。如果我们看到更好的帧,我们会保存它,并以完整的 HDR Plus 质量处理它……因此,当你进入图库时,你会看到我们拍摄的主要照片,称为最佳拍摄。这是决策树的一步。
假设我们查看了 150 帧,找不到一张完美的照片,但我们找到了一张几乎完美的照片,以及另一张以不同方式几乎完美的照片,比如不同的面部表情。那么我们会保存这两张照片,然后将其传递给最佳拍摄,最佳拍摄会将它们混合成一张完美的照片。最佳拍摄会故意选择一系列照片,以确保至少有一张照片中每张脸都在微笑。因此,如果在一组照片中至少有一张照片中每张脸都在微笑,那么它会进行最佳拍摄。一旦你查看了 150 张照片,大多数情况下你都能得到满意的照片。因此,实际上很少会进行最佳拍摄。因此,我们称之为自动最佳拍摄有点奇怪,因为在现实中,我们并不经常这样做,因为它位于决策树的末端。
目标是你按下快门一次,你得到一张照片,那张照片是完美的。我们如何实现这一点并不重要。我们再也不希望你不得不为同一张集体照拍摄三张照片。因为当 [AI] 可以查看 150 张照片时,为什么要拍摄三张随机照片呢?所以我们说只需按下 [快门按钮] 一次。给它几秒钟。你会在用户界面中看到它。它会在人们的面部周围绘制框。当它认为它完美时,它会将它们变成金色。所以按下快门,给它几秒钟,然后看看你最终得到了什么。”
Tensor G5 的差异
Google 在 2025 年做出了重大举措,使用 Tensor G5 芯片为 Pixel 10 手机提供动力——从过去由三星制造 Tensor 芯片转向使用台积电 3nm 工艺,利用台积电的先进技术提高 AI 性能。笔者询问了 Reynolds 这一变化的影响。
“Tensor G5 的提升是我在处理延迟方面见过的最大的前后对比之一,”他指出。“Pro Res Zoom 的第一个版本处理时间大约为两分钟。而在最后,一旦它在 Tensor G5 上运行并且所有错误都得到修复,处理时间缩短到仅几秒钟……因此,Tensor G5 TPU 的性能提升了 60%,我们确实能看到这一点。”
驱动 Pixel 摄影的 AI 模型
由于 Pixel 10 的许多重要新功能都是由 AI 进步驱动的,笔者想了解更多关于 Pixel 相机团队如何与 Google 内部 AI 能力合作的信息。
Reynolds 说:“并不是说有一个单一的 Gemini。它非常精心地调整和测试,一次只针对一个特定的用例……Google 内部有比你在外部看到的更多的 Gemini 版本。然后你必须决定,我是要提示这个 Gemini,还是要微调这个 Gemini?这一切都非常、非常定制化,针对特定的实现。”例如,他补充道,“魔术橡皮擦是生成式的,但它不是 Gemini。”
最后的思考
Google 是世界上为数不多的构建前沿 AI 模型的公司之一,同时也是唯一一家制造自己智能手机的公司。而随着 Pixel 10 Pro 的推出,其影响开始显现。