Google 推出 AI 新功能：TalkBack 整合 Gemini 提升无障碍体验

155次阅读

共计 904 个字符，预计需要花费 3 分钟才能阅读完成。

Google 周四宣布，将在 Android 和 Chrome 平台上推出多项新的 AI 和辅助功能。其中最为引人注目的是，Android 的屏幕阅读器 TalkBack 现已整合了 Gemini 的功能，允许用户直接向 AI 询问图像内容和屏幕信息。

去年，Google 已将 Gemini 引入 TalkBack，为盲人或视力障碍者提供 AI 生成的图像描述，即使在没有 Alt 文本的情况下也能使用。如今，用户不仅可以获得图像描述，还能对图像提出问题并得到回答。例如，如果朋友发送了一张新吉他的照片，用户可以通过 Gemini 了解品牌和颜色等详细信息。此外，用户还可以获取整个手机屏幕的描述，并在特定场景下提问，例如在购物应用中询问商品的材质或是否有折扣。

Google 还宣布了 Expressive Captions 的更新，这是 Android 的实时字幕功能，利用 AI 捕捉说话者的内容及其表达方式。Google 表示，人们常常通过拉长单词的发音来表达情感，因此他们在 Expressive Captions 中开发了新的时长功能。现在，用户可以更准确地感知情感表达，例如体育评论员喊出的“amaaazing shot”或某人强调的“nooooo”。此外，用户还将看到新的声音标签，例如口哨声或清嗓子的提示。这一更新将首先在美国、英国、加拿大和澳大利亚的英语设备上推出，适用于运行 Android 15 及更高版本的设备。

在 Chrome 方面，Google 也推出了多项改进。此前，用户无法在桌面版 Chrome 浏览器中使用屏幕阅读器与扫描的 PDF 进行交互。现在，Chrome 能够自动识别此类 PDF，允许用户像处理普通网页一样突出显示、复制和搜索文本，并通过屏幕阅读器进行阅读。这一功能得益于光学字符识别（OCR）技术的引入。

此外，Android 上的 Chrome 页面缩放功能也得到了优化。用户现在可以增加文本大小而不影响网页布局，并自定义缩放幅度。用户可以选择将缩放偏好应用于所有访问的页面，或仅针对特定页面进行调整。这一功能可通过点击 Chrome 右上角的三点菜单进行访问。

这些更新进一步体现了 Google 在提升用户体验和可访问性方面的持续努力，尤其是在 AI 和辅助功能领域的创新。

正文完