Google I/O 大会上最重要的人工智能公告

谷歌正在全力开发人工智能——它想让你知道这一点。在周二举行的 I/O 开发者大会的主题演讲中，谷歌提到“AI”超过 120 次。好多啊！

但并非谷歌所有的人工智能公告本身都具有重要意义。有些是渐进的。其他人则被重新讨论。因此，为了帮助您去芜存菁，我们汇总了 2024 年 Google I/O 大会上推出的顶级人工智能新产品和功能。

搜索中的生成式人工智能

谷歌计划使用生成式人工智能来组织整个谷歌搜索结果页面。

人工智能组织的页面会是什么样子？嗯，这取决于搜索查询。但谷歌表示，它们可能会显示人工智能生成的评论摘要、Reddit 等社交媒体网站的讨论以及人工智能生成的建议列表。

目前，谷歌计划在检测到用户正在寻找灵感时（例如，当他们正在计划旅行时）显示人工智能增强的结果页面。很快，当用户搜索餐饮选项和食谱时，它还将显示这些结果，其中包括电影、书籍、酒店、电子商务等的结果。

Project Astra 和 Gemini Live

Google I/O 大会上最重要的人工智能公告 — **图片来源：**谷歌/谷歌

谷歌正在改进其人工智能聊天机器人 Gemini，以便它能够更好地了解周围的世界。

该公司预览了 Gemini 中名为 Gemini Live 的新体验，它可以让用户在智能手机上与 Gemini 进行“深入”的语音聊天。用户可以在聊天机器人说话时打断 Gemini，提出澄清问题，它会实时适应他们的语音模式。 Gemini 可以通过智能手机摄像头拍摄的照片或视频来查看用户的周围环境并对其做出反应。

Gemini Live 直到今年晚些时候才会推出，它可以回答有关智能手机摄像头视野内（或最近视野内）事物的问题，例如用户可能位于哪个社区或损坏的自行车上的某个部件的名称。推动 Live 的技术创新部分源于 Project Astra，这是 DeepMind 内部的一项新举措，旨在创建人工智能驱动的应用程序和“代理”，以实现实时、多模式理解。

谷歌Veo

谷歌正在使用Veo来对标 OpenAI 的 Sora，这是一种人工智能模型，可以在给出文本提示时创建大约一分钟长的 1080p 视频剪辑。

Veo 可以捕捉不同的视觉和电影风格，包括风景和延时拍摄的镜头，并对已生成的素材进行编辑和调整。该模型可以根据提示很好地理解摄像机运动和视觉特效（想想“平移”、“缩放”和“爆炸”等描述符）。 Veo 对物理学（例如流体动力学和重力）有一定的了解，这有助于其生成的视频的真实感。

Veo 还支持对视频特定区域进行更改的蒙版编辑，并可以从静态图像生成视频，就像 Stability AI 的稳定视频等生成模型一样。也许最有趣的是，给定一系列提示一起讲述一个故事，Veo 可以生成更长的视频——长度超过一分钟的视频。

询问照片

谷歌照片正在注入人工智能，推出了一项名为“Ask Photos”的实验性功能，该功能由谷歌的 Gemini 系列生成人工智能模型提供支持。

Ask Photos 将于今年夏天晚些时候推出，它允许用户使用自然语言查询来搜索他们的 Google 照片集，这些查询利用了 Gemini 对照片内容和其他元数据的理解。

例如，用户将能够执行更广泛和更复杂的搜索，例如查找“我访问过的每个国家公园的最佳照片”，而不是搜索照片中的特定内容，例如“One World Trade”。 ”在该示例中，Gemini 将使用光线、模糊度和无背景失真等信号来确定哪些照片在给定的集合中成为“最佳”照片，并将其与对地理位置信息和日期的理解相结合以返回相关图像。