在今年的 Google I/O 大会上,Google 全力展示了其最新的 AI 媒体创作引擎:Veo 和 Imagen 3。Veo 可以生成高质量的 1080p 视频,而 Imagen 3 是最新的文本生成图像框架。这两款产品虽然并未完全颠覆业界,但它们使 Google 能够在与 OpenAI 的 Sora 视频模型和几乎成为 AI 生成图像代名词的 Dall-E 3 的竞争中保持优势。
Google 声称 Veo 拥有“对自然语言和视觉语义的高级理解”,可以根据用户的描述生成超过一分钟的视频。Veo 还能理解电影和视觉技术概念,比如延时摄影。对于一个 AI 视频生成模型来说,这些功能几乎已经成为标配。
为了证明 Veo 并非要取代艺术家的工作,Google 还与唐纳德·格洛弗及其创意工作室 Gilga 合作,展示了该模型的能力。在一段简短的宣传视频中,我们看到格洛弗和他的团队使用文本生成了敞篷车到达欧洲住宅和帆船滑过海洋的视频。根据 Google 的说法,Veo 在模拟现实世界物理现象方面比之前的模型更出色,并且在高清画面的渲染上也有显著提升。
格洛弗在视频中表示:“每个人都将成为导演,每个人都应该成为导演。所有这一切的核心就是讲故事。我们越能讲述彼此的故事,我们就越能理解彼此。”
虽然目前还不清楚是否有人会真正愿意观看 AI 生成的视频,除了出于对机器算法重现人类艺术作品的好奇,但这并未阻止 Google 和 OpenAI 推广这些工具,并希望它们能有用(或者至少能赚很多钱)。Veo 今天将在 Google 的 VideoFX 工具中对部分创作者开放使用,并且公司表示它还将登陆 YouTube Shorts 等产品。如果 Veo 最终成为 YouTube Shorts 的内置功能,这将是 Google 可以用来压制 TikTok 的一个特点。
至于 Imagen 3,Google 做出了惯常的承诺:据称这是公司“最高质量”的文本生成图像模型,能够生成“逼真、栩栩如生”的图像,且减少了伪影。真正的考验当然是看它如何处理与 Dall-E 3 相比的提示。据 Google 介绍,Imagen 3 在处理文本方面表现更好,并且在处理长提示的细节上也更聪明。
此外,Google 还与录音艺术家 Wyclef Jean 和 Bjorn 合作,测试其音乐 AI 沙箱(Music AI Sandbox),这一工具集可以帮助进行歌曲和节拍创作。虽然我们只看到了这一工具的简短演示,但它带来了一些有趣的示例。
日升日落。我们都在慢慢老去。而 AI 正在一天天变得更智能。这似乎是 Google 最新媒体创作工具的主要结论。当然,它们正在变得更好!Google 正投入数十亿资金,使 AI 梦想成真,力图成为计算领域的下一个重大飞跃。所有这些是否真的能让我们的生活变得更好?它们是否能生成具有真正灵魂的艺术?请每年关注 Google I/O,直到 AGI 出现,或者我们的文明崩溃。
文章来源于互联网:Google 发布最新 AI 媒体创作模型 Veo 和 Imagen 3