苹果研究人员开发AI系统，可“看见”并理解屏幕内容

tekbb • 2024年 4月 14日 pm10:33 • AI • 阅读 114

苹果的研究人员开发了一种新的人工智能系统，该系统可以理解对屏幕实体的模糊引用，以及对话和背景语境，从而实现与语音助手更自然的交互。这项研究成果于周五发表。

该系统名为ReALM（Reference Resolution As Language Modeling），利用大型语言模型将复杂的引用解析任务（包括理解对屏幕上视觉元素的引用）转换为纯语言建模问题。这使得ReALM相比现有方法能够取得显著的性能提升。

“理解上下文，包括引用，对于会话助手至关重要，”苹果研究人员团队写道。“让用户能够查询他们在屏幕上看到的内容是确保语音助手实现真正的免提体验的关键一步。”

增强对话助手

为了解决基于屏幕的引用，ReALM的一个关键创新是使用解析的屏幕实体及其位置重构屏幕，以生成捕获视觉布局的文本表示。研究人员证明了这种方法与针对引用解析专门微调的语言模型相结合，可以在任务中胜过GPT-4。

“我们在不同类型的引用上都展示了与现有具有类似功能的系统相比的大幅度改进，我们的最小模型对屏幕引用获得了超过5%的绝对增益，”研究人员写道。“我们的较大模型明显优于GPT-4。”

实际应用和局限性

这项工作突显了专注语言模型处理诸如引用解析等任务的潜力，在生产系统中，由于延迟或计算约束而使用庞大的端到端模型是不可行的。通过发布这项研究，苹果表明了其继续投资于使Siri和其他产品更加善于对话和了解背景的意愿。

但研究人员警告称，依赖自动解析屏幕存在局限性。处理更复杂的视觉引用，如区分多个图像，可能需要结合计算机视觉和多模式技术。

苹果努力缩小与竞争对手之间的人工智能差距

苹果在人工智能研究方面正在悄然取得重大进展，尽管在主导快速发展的人工智能领域中落后于技术竞争对手。

从融合视觉和语言的多模态模型，到AI驱动的动画工具，再到在预算范围内构建高性能专用AI的技术，公司研究实验室不断涌现的突破表明其人工智能雄心正在迅速升级。

但作为以跟随者而不是领先者而闻名的秘密科技巨头，苹果现在面临着由人工智能迅速改变的市场。预计在6月举办的备受瞩目的全球开发者大会上，该公司将推出新的大型语言模型框架、一个“苹果GPT”聊天机器人，以及其生态系统中的其他人工智能功能。

文章来源于互联网:苹果研究人员开发AI系统，可“看见”并理解屏幕内容