苹果的研究人员开发了一种新的方法,用于训练大型语言模型(LLMs),该方法无缝地整合了文本和视觉信息。
该公司的研究成果详细介绍在一篇名为《MM1: 多模态LLM预训练方法、分析与洞见》的研究论文中,展示了一种创建更智能、更灵活的人工智能系统的新方法。通过利用包括图像-标题对、交错的图像文本文档和仅文本数据在内的多样化数据集,苹果声称MM1模型在执行诸如图像字幕生成、视觉问题回答和自然语言推理等任务时,具有更高水平的准确性,创立了人工智能的新标准。
苹果的研究着重于不同类型的训练数据和模型架构的结合,使人工智能能够基于视觉和语言线索的混合进行理解和生成语言。这种能力对于需要对世界进行细致理解的任务至关重要,例如解释复杂的图像或回答涉及视觉元素的问题。
该论文还强调了MM1模型在最大的30亿参数配置下的卓越的上下文学习能力,尤其是该版本通过少量示例展示出了在多个图像上进行多步推理的非凡能力的“链式思维”提示。这种技术允许人工智能基于最少的示例进行复杂的、开放式的问题解决。
这项研究是苹果在日益激烈的竞争中增强其人工智能能力的广泛倡议的一部分。今天早些时候,《彭博社》的马克·古尔曼报道称,苹果正在与谷歌就许可谷歌的Gemini生成式大语言模型进行讨论,以用于推动即将推出的新功能,这些功能将成为iOS 18的一部分,应用于iPhone。
文章来源于互联网:苹果发布关于新型 ‘MM1’ 人工智能模型的详细信息