苹果终于发布了MM1 — 一款可以在 iPhone 上运行的多模态AI模型

苹果终于发布了MM1 — 一款可以在 iPhone 上运行的多模态AI模型

在过去的几年里,我一直热切地关注着生成式AI的快速发展。虽然谷歌、Meta、微软和亚马逊等科技巨头凭借其AI语言模型占据了头条新闻,但有一家公司却明显缺席:苹果。如果你想了解更多关于苹果公司的内容,可以阅读以下这些文章:
为什么2024年将最终成为苹果的人工智能年
苹果不让居家办公了?GAN之父 Ian Goodfellow 果断离职!
苹果封杀FB?保护用户隐私问题上,两巨头差了几条街?
44个苹果公司面试最难问题

为什么Apple不加入LLM游戏?

今天,一切都变了。苹果终于打破沉默,宣布推出其首个多模态语言模型MM1。这可能是一个沉睡的巨人即将醒来并撼动AI行业。

什么是MM1?

MM1 是最先进的多模态大语言模型 (MLLM),可以理解和生成文本和图像。

由于其大规模的多模态预训练,它可以进行上下文预测。这使得 MM1 具有以下能力:

  •  计数对象并遵循自定义格式。
  •  引用图像的部分并执行光学字符识别(OCR)。
  •  展示关于日常物品的常识和词汇知识。
  •  执行基本的数学函数。

MM1 的工作原理

该模型基于 Transformer 架构,类似于其他尖端语言模型,例如GPT-4和双子座。MM1 是视觉变换器 (ViT) 图像编码器和仅解码器变换器语言模型的组合。

ViT 使用对比损失在大量图像-文本对数据集上进行了预训练,使其能够学习丰富的视觉表示。与此同时,语言模型是在不同的文本数据语料库上进行预训练的,以获得对人类语言的深入理解。

为了连接视觉和文本域,MM1 使用视觉语言连接器模块,将 ViT 的输出转换为语言模型可以处理的视觉标记序列。

MM1 研究的主要发现之一是预训练数据构成的重要性。

MM1 研究的主要发现之一是预训练数据构成的重要性。该团队发现,使用图像标题对、交错的图像文本文档和纯文本数据的仔细平衡组合对于实现最先进的性能至关重要。

他们还开发了一系列包含 30 亿到 300 亿个参数的模型,包括密集模型和专家混合 (MoE) 变体,可有效扩展模型容量。

如果你想深入了解 MM1 的详细信息,请查看此白皮书。

为什么苹果花了这么长时间?

苹果喜欢在深入研究新技术趋势之前花些时间,这已不是什么秘密。他们已经通过智能手机、平板电脑和智能手表做到了这一点——让其他人先试水,然后再推出自己的精美产品。但对于AI来说,这种策略可能会适得其反。

那么,苹果的AI延迟是怎么回事呢?有人说这是因为他们自己的大型语言模型(代号 Ajax)正在努力跟上 GPT-4 和 Gemini 等语言的步伐。其他人指出,与竞争对手相比,苹果的研发支出相对较少,这表明该公司在尖端AI研究方面的投资不够。

苹果已将资源从其他项目(例如已停产的电动汽车项目)转向AI,但尚未将尖端AI技术融入到 Siri 等产品中,而 Siri 被认为落后于其他语音助手。 

或许苹果还有一些我们不知道的秘密。随着 WWDC 即将到来,蒂姆·库克 (Tim Cook) 有机会揭开一些令人兴奋的AI进步的帷幕。

你为什么要关心?

MM1 最令人兴奋的方面之一是它的图像理解功能。想象一下能够拍摄餐厅菜单的照片并询问你的手机,

“点所有的开胃菜要多少钱?”

MM1 可以分析菜单、识别价格并为你提供准确的总计。

或者,你可以向 MM1 展示你客厅的照片并询问

“什么颜色的抱枕适合我的沙发?”

该模型可以根据对色彩理论和室内设计原理的理解提供个性化建议。

这是另一个很酷的例子,用户询问 MM1 根据菜单上的价格,他愿意为桌子上的所有啤酒付多少钱。

上图显示了 MM1 与其最接近的竞争对手Emu和LLaVA之间的响应比较。MM1 是正确猜出价格的人。

最后的思考

作为一名苹果产品的长期用户和AI爱好者,我对MM1的未来和苹果的AI之旅不禁感到兴奋和期待。MM1 背后的研究前景令人难以置信,我很高兴看到苹果最终在生成AI领域取得了进展。

值得注意的是,苹果尚未真正推出 MM1;该公司刚刚发表了其研究论文及其测试结果。然而,既然苹果已经停止了昂贵的苹果汽车项目,我乐观地认为他们将把更多资源投入AI开发,并有望在不久的将来赶上竞争对手。

AI霸主的竞争正在升温,我很高兴看到苹果最终加入了这场竞争。

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Jim Clyde Monge
翻译作者:诗彤
美工编辑:诗彤
校对审稿:Jason
原文链接:https://generativeai.pub/apple-finally-unveils-mm1-a-multimodal-ai-model-that-can-run-on-iphones-32e20864a67e