谷歌正在全力开发人工智能——它想让你知道这一点。在周二举行的 I/O 开发者大会的主题演讲中,谷歌提到“AI”超过 120 次。好多啊!
但并非谷歌所有的人工智能公告本身都具有重要意义。有些是渐进的。其他人则被重新讨论。因此,为了帮助您去芜存菁,我们汇总了 2024 年 Google I/O 大会上推出的顶级人工智能新产品和功能。
搜索中的生成式人工智能
谷歌计划使用生成式人工智能来组织整个谷歌搜索结果页面。
人工智能组织的页面会是什么样子?嗯,这取决于搜索查询。但谷歌表示,它们可能会显示人工智能生成的评论摘要、Reddit 等社交媒体网站的讨论以及人工智能生成的建议列表。
目前,谷歌计划在检测到用户正在寻找灵感时(例如,当他们正在计划旅行时)显示人工智能增强的结果页面。很快,当用户搜索餐饮选项和食谱时,它还将显示这些结果,其中包括电影、书籍、酒店、电子商务等的结果。
Project Astra 和 Gemini Live
谷歌正在 改进其人工智能聊天机器人 Gemini, 以便它能够更好地了解周围的世界。
该公司预览了 Gemini 中名为 Gemini Live 的新体验,它可以让用户在智能手机上与 Gemini 进行“深入”的语音聊天。用户可以在聊天机器人说话时打断 Gemini,提出澄清问题,它会实时适应他们的语音模式。 Gemini 可以通过智能手机摄像头拍摄的照片或视频来查看用户的周围环境并对其做出反应。
Gemini Live 直到今年晚些时候才会推出,它可以回答有关智能手机摄像头视野内(或最近视野内)事物的问题,例如用户可能位于哪个社区或损坏的自行车上的某个部件的名称。推动 Live 的技术创新部分源于 Project Astra,这是 DeepMind 内部的一项新举措,旨在创建人工智能驱动的应用程序和“代理”,以实现实时、多模式理解。
谷歌Veo
谷歌正在使用Veo来对标 OpenAI 的 Sora,这是一种人工智能模型,可以在给出文本提示时创建大约一分钟长的 1080p 视频剪辑。
Veo 可以捕捉不同的视觉和电影风格,包括风景和延时拍摄的镜头,并对已生成的素材进行编辑和调整。该模型可以根据提示很好地理解摄像机运动和视觉特效(想想“平移”、“缩放”和“爆炸”等描述符)。 Veo 对物理学(例如流体动力学和重力)有一定的了解,这有助于其生成的视频的真实感。
Veo 还支持对视频特定区域进行更改的蒙版编辑,并可以从静态图像生成视频,就像 Stability AI 的稳定视频等生成模型一样。也许最有趣的是,给定一系列提示一起讲述一个故事,Veo 可以生成更长的视频——长度超过一分钟的视频。
询问照片
谷歌照片正在注入人工智能,推出了一项名为“Ask Photos”的实验性功能,该功能由谷歌的 Gemini 系列生成人工智能模型提供支持。
Ask Photos 将于今年夏天晚些时候推出,它允许用户使用自然语言查询来搜索他们的 Google 照片集,这些查询利用了 Gemini 对照片内容和其他元数据的理解。
例如,用户将能够执行更广泛和更复杂的搜索,例如查找“我访问过的每个国家公园的最佳照片”,而不是搜索照片中的特定内容,例如“One World Trade”。 ”在该示例中,Gemini 将使用光线、模糊度和无背景失真等信号来确定哪些照片在给定的集合中成为“最佳”照片,并将其与对地理位置信息和日期的理解相结合以返回相关图像。
Gmail 中的双子座
Gmail 用户很快将能够 搜索、总结和起草电子邮件(由 Gemini 提供),以及对电子邮件采取行动以执行更复杂的任务,例如帮助处理退货。
在 I/O 大会上的一次演示中,谷歌展示了家长如何通过要求 Gemini 总结学校最近发来的所有电子邮件来了解孩子学校的最新动态。除了电子邮件正文之外,Gemini 还将分析 PDF 等附件,并给出包含要点和行动项目的摘要。
从 Gmail 的侧边栏,用户可以要求 Gemini 帮助他们整理电子邮件中的收据,甚至将它们放入 Google Drive 文件夹中,或者从收据中提取信息并将其粘贴到电子表格中。如果这是您经常做的事情(例如,作为商务旅行者跟踪费用),Gemini 还可以提供自动化工作流程以供将来使用。
在通话过程中检测诈骗
谷歌 预览了一项人工智能功能, 可在通话过程中提醒用户注意潜在的诈骗。
该功能将内置于 Android 的未来版本中, 使用 Gemini Nano(Google 生成式人工智能产品的最小版本),可以完全在设备上运行,实时侦听“通常与诈骗相关的对话模式” 。
该功能尚未设定具体的发布日期。与许多其他事情一样,谷歌正在预览 Gemini Nano 未来的功能。然而,我们确实知道该功能将被选择加入——这是一件好事。虽然使用 Nano 意味着系统不会自动将音频上传到云端,但系统仍然有效地监听用户的对话——这是一个潜在的隐私风险。
人工智能辅助无障碍
谷歌正在 通过一些生成人工智能魔法来增强 Android 的 TalkBack 辅助功能。
很快,TalkBack 将利用 Gemini Nano 为弱视和盲人用户创建物体的听觉描述。例如,TalkBack 可能会这样描述一件衣服:“黑白格子连衣裙的特写。这件衣服很短,有领子和长袖。腰间系着一个大蝴蝶结。”
据 Google 称,TalkBack 用户每天会遇到大约 90 张左右未标记的图像。使用 Nano,系统将能够提供对内容的洞察——可能不需要有人手动输入该信息。
文章来源于互联网:Google I/O 大会上最重要的人工智能公告