共计 2064 个字符,预计需要花费 6 分钟才能阅读完成。
谷歌最新推出的 Pixel 10 系列智能手机,以其精致的外观、流畅的 Android 16 系统、七年的支持、出色的显示屏和卓越的摄像头(包括首次在标准非 Pro 版本上配备的长焦镜头)令人印象深刻。然而,最引人注目的卖点仍然是其 AI 功能。
从最新的 Gemini 模型到新的计算摄影方法,谷歌将 Pixel 10 宣传为市场上最智能的智能手机。那么,这些功能到底表现如何呢?
Magic Cue
自 2017 年的 Pixel 2 及其“一览”小部件以来,谷歌一直试图利用其应用程序了解用户信息,并在需要时提供帮助。Pixel 10 上仍然存在“一览”功能,它偶尔会以先见之明的方式提醒用户及时赶到会议地点所需的时间,但 Magic Cue 的目标是达到另一个层次。
其基本理念是,手机应该在使用某个应用程序时,为用户提供来自其他应用程序的信息。为此,AI 模型会考虑存储在特定谷歌应用程序中的信息,包括 Gmail、日历、截图等——这些信息是或最近显示在屏幕上的信息——以及“基础”数据,如用户的电话号码。
Magic Cue 可能出现的例子包括:当用户拨打某个特定企业电话时(可能会显示最近订单的号码,该号码取自一封电子邮件),或者如果有人在短信中提到某个地点(可能会弹出一个提示,显示从用户到该地点的路线,或根据上下文显示该地点的天气预报)。
这是一个非常短暂的功能,因为它只在认为有帮助时才会出现。例如,当用户收到妻子询问牙医预约时间的消息时,Magic Cue 会显示日历中的预约详情。但点击通知打开消息应用程序时,提示就消失了。
如果一切如广告所述,Magic Cue 可能是 AI 助手的理想形式。例如,当用户等待与能源供应商通话时,手机应该能够显示客户编号,而不是让用户匆忙找回 20 分钟前因无聊而滑掉的电子邮件。如果有人发短信询问酒店的地址,或 Uber 的预计到达时间,手机应该能够直接提供这些信息,因为它已经知道答案。但目前,由于 Magic Cue 仅限于某些谷歌应用程序,并且出现的频率较低,它并没有带来变革性的体验。
Pro Res Zoom
使用智能手机中的微型摄像头放大远处的物体是一个很大的挑战,但这一功能(仅限于配备更高级摄像头的 Pro 手机)承诺通过 AI 实现这一点。
Pixel 10 Pro 的长焦镜头设置为 5 倍光学变焦,用户可以放大到 30 倍进行传统的裁剪,这意味着结果将是整体图像的一小部分,经过一些锐化和清理。如果继续放大超过 30 倍并拍照,AI 就会介入。用户可以一直放大到 100 倍拍照,如果这是一个价值数万美元的专业长焦镜头,这意味着可以拍摄一公里外的细节。
这里需要注意的明显一点是,以这种方式拍摄的照片本质上是由 AI 生成的。如果以它们看起来有多逼真来评判,那么它们做得很好。例如,拍摄的建筑上的砖石细节看起来不错,远处的植物有叶子和花朵,看起来好像是从更近的地方拍摄的。但这些结果从来都不是物体的真实样子——它们只是猜测。在 AI 在训练中见过很多次的物体照片上,它的猜测是可信的。
另一方面,文本和象形图(如标志上的图像)等精细细节通常会清晰地呈现出来,但完全是无意义的,系统会主动拒绝将其处理应用于人物图像,原因显而易见。总的来说,如果给 AI 一张光线良好的 40 倍到 50 倍的照片,效果可能是微妙且有用的。但在最大变焦时,可能会得到一个完全虚构的结果。手机会保存一张经过传统锐化的图像以及 AI 生成的图像,因此用户可以进行比较。
Camera Coach 和 Gemini Live
为了继续将现实世界与 AI 创作结合的主题,这两个功能利用谷歌的机器智能和摄像头来帮助用户,但效果参差不齐。如果用户在拍照时不确定如何构图,可以点击屏幕顶部的 Camera Coach 按钮,它会分析能看到的一切,以生成建议。通常,它会询问用户想聚焦什么;例如,只是前景中的植物,还是植物和后面的窗户。然后它会提供一步一步的指示,可能涉及更改相机设置(它会突出显示它们)或实际移动(它会显示屏幕上的指南)。
在初始选项旁边,通常有一个“启发我”按钮,它会启动第二轮 AI 处理并提供另一组选项。这些选项伴随着 AI 生成的模拟照片,效果往往相当不错。例如,在办公室植物示例中,一个选项是近距离拍摄一些叶子细节,而另一个是广角拍摄整个窗户。在这两种情况下,AI 都不得不猜测它看不到的细节,但它给出了一个很好的想法,并再次提供了实现它的步骤。
与此同时,如果用户按住电源按钮召唤 Gemini,然后点击 Live 按钮,将进入一种与聊天机器人的电话通话,它可以看到手机屏幕上正在发生的事情,用户可以谈论它。这本身并不新鲜,但如果用户选择打开摄像头并让 Gemini 看到所看到的,它现在可以在上面绘制简单的图形来说明它的观点。
与 Magic Cue 一样,它并不总是这样做。例如,当用户询问如何重置 AirPods 时,Gemini 会描述配对按钮的位置,而不是指出来。然后用户看着电视遥控器,询问如何打开字幕,一个白色圆圈出现在其中一个按钮上方。“按下这个按钮应该可以打开字幕,”Gemini 说。它完全错了,但一如既往地自信。这是一个非常困难的问题,因为遥控器型号太多了。