Google Pixel 10 Pro 相机技术揭秘：AI 驱动的摄影革命

85次阅读

共计 5394 个字符，预计需要花费 14 分钟才能阅读完成。

Isaac Reynolds 在 Google 的 Pixel 相机团队已经工作了近十年——从 2016 年第一款 Google Pixel 手机发布开始。然而，可以说他从未像今年对 Pixel 10 Pro 这样，对 Google 集成到手机相机中的技术如此乐观。过去一年中，新一波的 AI 突破使 Google 能够利用大型语言模型、机器学习和生成式 AI 成像来解锁新功能，推动手机摄影的又一次重大飞跃。

在 Pixel 10 手机发布后不久，Reynolds 还在喘息之际，笔者有机会与他坐下来深入交谈。与此同时，他所在的团队正在为 2026 年 Pixel 手机的下一波相机升级做准备。

笔者向 Reynolds 提出了关于 Pro Res Zoom、对话式编辑、相机教练、AI 模型、Tensor G5 芯片、自动最佳拍摄以及 Pixel 相机团队的更大雄心的所有问题。与此同时，他也用关于长焦全景、C2PA AI 元数据、引导框架以及公众 AI 教育的信息挑战了笔者的认知。

笔者深入了解了 Google 团队如何在 Pixel 10 Pro 相机系统中实现如此巨大的进步，并深入探讨了 Google 在 2025 年 Made by Google 活动或发布的博客文章中未提及的新摄影功能。

以下是笔者整理的笔记。

Reynolds 表示：“我认为团队一直专注于我称之为‘持久性摄影问题’的领域——低光、变焦、动态范围和细节。每一代 Pixel 都带来了新技术。”

Reynolds 指出：“大型语言模型（LLMs）具有巨大的上下文窗口，它们在理解方面非常强大，因此我们实际上可以教人们做一些技术无法完成的事情。如今，技术无法将相机向下移动四英尺，也无法将相机移动到 100 码外的更好视角，更无法告诉你旋转 90 度。现在，相机教练可以做到这些。这是我们利用技术解决这些持久性问题的另一种方式。”

Google Pixel 10 Pro 相机技术揭秘：AI 驱动的摄影革命

Google 在 Pixel 10 中宣布的最令人惊讶的新功能之一是对话式照片编辑——尽管这实际上是 Google Photos 应用中的一项功能。用户只需通过语音或文字描述想要更改的内容，AI 就会完成其余工作。例如，可以移除一棵树、重新居中图像或在天空中添加更多云彩。

Google Pixel 10 Pro 相机技术揭秘：AI 驱动的摄影革命

Reynolds 解释道：“对话式编辑完全去除了界面，本质上是一个从自然语言到编辑器功能的映射。你可以说‘删除左边的东西’，它会识别左边的内容并调用魔术橡皮擦。你可以说‘嘿，我记得在犹他州时岩石比这更红’，它会稍微增加暖色调。你可以说‘能聚焦在中间的东西吗’，它会在周围添加一个小晕影。这种映射大大节省了时间。AI 的承诺不仅是提供信息，而是为你执行操作。我认为这是 AI 不仅提醒你某事，还为你完成它的最完美案例之一。看到它的效果真的非常酷。

它甚至会给你建议。AI 会查看图片并说‘我认为你可能想移除一些旁观者。’然后它会弹出这些小建议标签。最有趣的是，当你点击它们时，它所做的只是在文本框中输入内容。这不是一个单独的路径。你只需点击标签，它就会在文本框中输入内容。你可以自己输入这些内容。它并没有做任何你无法完成的事情……它还有一个语音按钮，非常酷。你可以直接对它说话。AI 的进步速度远超我的想象，而我可是这个领域的专业人士。”

作为一名热爱变焦摄影的摄影师，这是笔者最想与 Reynolds 讨论的功能。虽然笔者用智能手机拍摄了很多照片，但在长距离变焦时，通常需要拿出索尼无反相机和 70-200mm 镜头。笔者已经写过对全面测试 Pro Res Zoom 的期待，因为它可以通过生成式 AI 填补数字变焦的空白，从而从手机中生成更多可用的变焦照片。

Reynolds 评论道：“根本问题在于，如何将数字变焦中的传感器像素从右上角到底左下角，并填充中间的所有像素。你可以进行插值，也可以将它们全部设置为某种颜色，比如取平均值。我们经历了整个过程，从多帧降噪到多代升级器以改进插值。我们进行了逐块的多帧合并，而 Super Res Zoom 的主要进步是从逐块多帧到逐像素概率多帧……与此同时，升级器也在改进。最新一代的升级器是我们迄今为止在 Pixel 相机中运行的最大模型……它是一个非常非常好的插值器。

它不会简单地说这是黑色，那是白色，所以中间是灰色。它会说，我知道那个黑色像素是更大结构的一部分，我知道那个更大结构似乎是外墙砖块之间的灰浆。因此，它可能会保持黑色直到某个点，然后变成红色——这比简单地说‘这是黑色，这是红色，所以我不知道，我们边走边混合它们’要聪明得多。我们仍然保留这些真实的像素，然后填充中间的内容。现在模型在这方面表现得非常出色。”

我们有一系列升级器，这是最新的一款。所有升级器都有伪影。不同的升级器有不同的问题。过去我们有一些升级器在文字处理上非常出色——因为文字有非常清晰的线条——但在处理水时表现很差，因为水本质上是混沌的。这款升级器也有自己的伪影，但由于新模型在生成与场景 100% 一致的内容方面非常出色，人眼很难识别这些伪影。

比如，那是一棵树上的叶子。那就是树上叶子的样子。它完美无瑕。但对于人脸来说，人类大脑的很大一部分专门用于识别人脸，因此任何程度的伪影都无法被接受。在叶子上，你可能永远不会注意到这种细微的伪影。但在人脸上，同样的细微伪影你会立即注意到——仅仅因为我们是人类，我们天生就能识别人脸。我们是社会性生物，因此对人脸处理的要求非常高。”

因此，当 Pro Res Zoom 识别人脸时，它不会使用 AI 进行升级。

由于 Google 现在是内容来源与真实性联盟（C2PA）的一部分，它已经开始在照片中嵌入元数据，以表明是否使用了生成式 AI 来制作照片。这通过使用 Google DeepMind 创建的 SynthID 水印实现。Reynolds 深度参与了将这一功能纳入 Pixel 相机的项目。

Reynolds 表示：“C2PA 元数据标识了这是否是 AI 生成的，并告诉你图片的历史，我们将其嵌入其中。我亲自担任了该产品的产品经理。我不再经常亲自处理这些事情，但我接手了这个项目，因为我知道它有多重要、多微妙。随着我深入参与这个功能，我意识到人们对 AI 的了解有多么少，无论是它是什么、能做什么、不能做什么，还是它的发展速度。”

Google Pixel 10 Pro 相机技术揭秘：AI 驱动的摄影革命

“世界在意识到 AI 已经有多好方面确实落后了。因此，我们需要进行一些教育。我们意识到，如果用户更好地理解 AI 的功能，他们会非常喜欢它。因此，我们在 Pro Res Zoom 中不处理人脸。我认为这会让人们更放心。我们还向他们展示前后对比——使用新升级器的版本和不使用的版本，用户可以自己决定 AI 做了什么？我觉得它可接受还是不可接受？绝大多数人发现它不仅是可接受的，而且是高度偏好的。他们想要升级后的版本。但如果他们没有看到对比，他们就不会知道这一点。

然后我们还用内容凭证 [C2PA] 标记它，这样每当他们传输照片时，其他人可以自己决定‘我如何看待这张照片？我是否认为它可能是 AI 生成的？或者我会说，哦不，内容凭证就在那里，它说这根本不是 AI。这太棒了。我现在更加信任了。’随着用户了解更多，接受更多教育，获得更多关于什么是 AI、什么不是 AI 的真实数据点，我认为他们最终会随着时间的推移变得更加放心，这就是我们在 Pro Res Zoom 中已经看到的情况。我们在发布前测量的客户满意度非常高。

随着技术的进步，我们会做更多的事情。我们可能会将这些东西应用到更多模式中。我们会将变焦质量进一步提高。但我们真的希望确保我们在用户期望和理解的情况下做到这一点。因此，我们为你提供选择和透明度，但我们也在以保持客户满意度的方式推动技术边界。”

Google Pixel 10 Pro 相机技术揭秘：AI 驱动的摄影革命

Reynolds 告诉笔者：“相机应用中总是隐藏着一些小惊喜。我们构建的东西比我们实际能谈论的要多。”

Google 在 Pixel 10 Pro 中未过多提及的一项新摄影功能是长焦全景，或者他们亲切地称之为“5 倍长焦全景”。这些功能允许用户使用变焦镜头、新的取景器控制以及拍摄 360 度和高达 100MP 分辨率的能力，拍摄更具电影感的风景照片。Reynolds 表示：“用镜头放大然后拼接全景的感觉非常棒。”

但 Google 没有提到的是，它使用了一种全新的方法来捕捉这些全景图像。

Reynolds 指出：“市场上的许多全景图像，以及我们历史上的全景图像，都是基于视频的。这意味着要制作全景图像，你需要拍摄 100 到 1000 张照片，每张照片拼接一个微小的垂直切片。这意味着两件事。首先，你得到的伪影往往是曲线、拉伸和压缩，因为你只是逐片拼接。另一个问题是在那 30 秒内，你必须处理 [多达] 1000 张图像。

所以我们决定不再使用视频，而是使用照片输入。我们拍摄五张照片，而不是数百张，并将所有处理放在后面——完整的 HDR Plus、完整的计算摄影、夜景模式——然后我们拼接一些重叠部分。因此，每张照片不再是一个小切片，而是一些重叠部分。例如，这就是 [Adobe] Lightroom 的做法。我们采用了 Lightroom 的方法。

因此，我们得到了夜景全景。我们现在可以拍摄高达 100 兆像素的全景照片。我们得到了超级、超级详细的图像，并且可以打开以前无法使用的变焦管道部分。因此，你可以使用 2 倍变焦，这在 Pixel 手机上具有光学质量。你甚至可以调用 5 倍长焦 [在 Pixel Pro 上]。这是一种非常计算摄影导向的、基于照片的全景。”

Reynolds 想指出的另一项被忽视的功能是引导框架。

“引导框架是一项无障碍功能。如果你失明或视力低下，我们使用 Gemini 来帮助你构图任何照片，”Reynolds 说。“在这种情况下，你指向相机，调用引导框架，它会说‘这是一张森林场景的照片，右边有一些树，左边有一个人。人在画面中，微笑，适合自拍。’然后它会拍摄照片。因此，如果你看不清屏幕，它可以帮助你拍摄自拍和照片，因为 [自拍] 是人们交流的方式。无论你是否失明或视力低下，人们都使用图片交流。因此，它为他们提供了这种能力。”

笔者还询问了 Reynolds 关于今年从最佳拍摄到自动最佳拍摄的演变，并惊讶地发现这一功能实际上使用了更多的机器学习。

Reynolds 评论道：“自动最佳拍摄更像是传统的处理。你可以将其想象为一个决策树，因为这本质上就是这一功能。你按下快门一次。如果那次快门按下是完美的，每个人都微笑着，每个人都看着相机，那么很好。完成。一张照片。

好吧，假设它不完美。那么我们会稍微延长快门时间，我们会查看每一帧。因此，在几秒钟内，我们最多可以查看 150 帧。如果我们看到更好的帧，我们会保存它，并以完整的 HDR Plus 质量处理它……因此，当你进入图库时，你会看到我们拍摄的主要照片，称为最佳拍摄。这是决策树的一步。

假设我们查看了 150 帧，找不到一张完美的照片，但我们找到了一张几乎完美的照片，以及另一张以不同方式几乎完美的照片，比如不同的面部表情。那么我们会保存这两张照片，然后将其传递给最佳拍摄，最佳拍摄会将它们混合成一张完美的照片。最佳拍摄会故意选择一系列照片，以确保至少有一张照片中每张脸都在微笑。因此，如果在一组照片中至少有一张照片中每张脸都在微笑，那么它会进行最佳拍摄。一旦你查看了 150 张照片，大多数情况下你都能得到满意的照片。因此，实际上很少会进行最佳拍摄。因此，我们称之为自动最佳拍摄有点奇怪，因为在现实中，我们并不经常这样做，因为它位于决策树的末端。

目标是你按下快门一次，你得到一张照片，那张照片是完美的。我们如何实现这一点并不重要。我们再也不希望你不得不为同一张集体照拍摄三张照片。因为当 [AI] 可以查看 150 张照片时，为什么要拍摄三张随机照片呢？所以我们说只需按下 [快门按钮] 一次。给它几秒钟。你会在用户界面中看到它。它会在人们的面部周围绘制框。当它认为它完美时，它会将它们变成金色。所以按下快门，给它几秒钟，然后看看你最终得到了什么。”

Google Pixel 10 Pro 相机技术揭秘：AI 驱动的摄影革命

Google 在 2025 年做出了重大举措，使用 Tensor G5 芯片为 Pixel 10 手机提供动力——从过去由三星制造 Tensor 芯片转向使用台积电 3nm 工艺，利用台积电的先进技术提高 AI 性能。笔者询问了 Reynolds 这一变化的影响。

“Tensor G5 的提升是我在处理延迟方面见过的最大的前后对比之一，”他指出。“Pro Res Zoom 的第一个版本处理时间大约为两分钟。而在最后，一旦它在 Tensor G5 上运行并且所有错误都得到修复，处理时间缩短到仅几秒钟……因此，Tensor G5 TPU 的性能提升了 60%，我们确实能看到这一点。”

由于 Pixel 10 的许多重要新功能都是由 AI 进步驱动的，笔者想了解更多关于 Pixel 相机团队如何与 Google 内部 AI 能力合作的信息。

Reynolds 说：“并不是说有一个单一的 Gemini。它非常精心地调整和测试，一次只针对一个特定的用例……Google 内部有比你在外部看到的更多的 Gemini 版本。然后你必须决定，我是要提示这个 Gemini，还是要微调这个 Gemini？这一切都非常、非常定制化，针对特定的实现。”例如，他补充道，“魔术橡皮擦是生成式的，但它不是 Gemini。”

Google 是世界上为数不多的构建前沿 AI 模型的公司之一，同时也是唯一一家制造自己智能手机的公司。而随着 Pixel 10 Pro 的推出，其影响开始显现。

正文完