小语言模型:你必须了解的未来趋势

小语言模型:你必须了解的未来趋势

大型语言模型(LLM)就像游轮。

游轮提供各种各样的活动,以满足广泛的兴趣。仅举几例,你可以享受几乎任何种类的食物、现场娱乐、电影院、夜总会、水上公园、针对年龄的俱乐部、零售购物和各种体育赛事。

但是如果我想去钓鱼,我不会预订游轮旅行,我会租一艘小型摩托艇,因为它们更方便。

如果我想去滑水,我会选择一艘为速度和尾流冲浪设计的滑雪船。

这是对小模型和大模型之间区别的一个很好的比喻。LLM是一种通用体验,几乎可以满足任何需求,这相当于访问整个网络。如果你想了解更多关于LLM的相关内容,可以阅读以下这些文章:
如何为你的业务选择合适的大型语言模型(LLM)
如何使用Code Llama构建自己的LLM编码助手
LLMs能否取代数据分析师?
LeMA:对于一个LLM来说,学习数学就是在犯错!

但是SLMss可以更有效、更有针对性。

让我们从定义SLM的含义开始。

语言模型的大小主要由它们包含的参数数量来定义,语言模型中的参数是模型在训练期间调整的旋钮和杠杆,以创建其预测。

据传,像GPT4o这样的LLM有数万亿个参数。例如,Gemini Ultra有大约5000亿个参数,而新发布的开源Llama 405b正是如此 – 4050亿个参数。

当人工智能模型公司现在发布新模型时,他们倾向于分层发布——所以通常是模型的大、中、小版本。

“小”的定义可以根据较大模型的大小而变化,但是可以肯定地说,小语言模型(SLM)可以被视为参数少于100亿个的任何模型。

下面是一些例子:

  • Meta的Llama 3.1 (8B)
  • 谷歌的Gemma (7B & 2B)
  • Mistral (7B)
  • 微软的Phi-3 small (7B), mini (3.8B) & vision (4.2B)
  • OpenAI GPT4o mini (8B)
  • Anthropic Claude Haiku (?B)

所有这些模型都是开源的,除了GPT4o mini和Haiku,它们虽然不是开源的,但可以用于微调。

这些模型需要用于培训的原因是,这是SLM的一大优势。

因为SLM可以针对特定领域的任务进行微调,所以对于那些想要自己定制模型的公司来说,它们非常有吸引力。

LLM很难进行微调,因为需要大量的计算,更不用说成本了。这种情况在SLM中发生了变化——你可以用一个像NVIDIA A100这样的高端GPU来微调7B参数模型。

公司可以创建特定于领域的目标SLM,并与自己的数据保持一致,现在使用SLM更容易管理。老实说,这是每个公司都想做的事情,现在通过成本和效率,这是可能的。

当然,运行模型是昂贵的,它们可能是计算密集型的。100万代币(大约相当于一本标准书籍的2500页)的标准GPT4o定价为代币输入5.00美元,代币输出15.00美元。

GPT-4o

  • 输入:$5.00 / 1M代币
  • 输出:$15.00 / 1M代币

相比之下,以下是你为某些SLM支付的费用:

GPT-4o mini

  • 投入:0.15美元/ 1M代币
  • 产出:$0.60 / 1M代币

Claude Haiku

  • 输入:0.25美元/ 1M代币
  • 输出:$1.25 / 1M代币

Llama-3 8b (Groq)

  • 输入:$0.05 / 1M代币
  • 输出:$0.08 / 1M代币

Gemini 1.5 Flash

  • 输入:$0.35 / 1M代币
  • 输出:$1.05/ 1M代币

很疯狂对吧?

当价格降到这么低时,人工智能推理就会商品化,更多的公司可以大规模发布人工智能产品。当然,如果型号没有可比性或不能产生良好的输出,成本和性能就没有任何意义。

当你查看下面的图表时,请注意右边第二个绿色的条形图,它代表GPT 3.5 Turbo。这个LLM是一年前发布的,而每个位于这个条形图左边的较小模型都大大超过了它。

来源:OpenAI- GPT4o mini版本

那么,这些SLM如何优于GPT 3.5这样的LLM呢?

这与数据的质量有关。

2023年5月,负责微软生成式人工智能研究的副总裁Sebastien Bubeck和他的团队进行了一项有趣的研究。他们用一种非常规的方法创建了一个名为“TinyStories”的数据集:

他们促使一个大型语言模型只用有限的词汇和精心挑选的单词来写儿童故事。

这种创造性的技术导致了非常小的语言模型的开发,只包含大约1000万个参数。尽管这些模型体积很小,却出人意料地写出了语法完美的连贯故事。

在这一成功的基础上,研究人员开发了一个更复杂的数据集,名为“CodeTextbook”,使用高质量的教育内容来训练更高级的SLMs Phi-1。

微软研究院在Phi-1上的工作强调了高质量数据在提高代码生成任务的语言模型的有效性方面所起的重要作用。

这可以比作一本精心编写的教科书帮助学生理解一门新学科的方式。通过开发精心策划的“教科书质量”数据,他们能够训练出一个在关键编码基准(如HumanEval和MBPP)上超过大多数开源模型的模型。

虽然Phi-1专门用于代码生成,更具体地说是“Python编码”,但这证明了一个重要的方面:

尽管他们的模型尺寸小了10倍,使用的数据集也小了100倍,但他们的模型仍然取得了出色的性能。

小语言模型(SLMs)的成功正在重塑人工智能模型的发展。虽然具有高级推理能力的大型模型继续发展,但较小的模型呈现出有价值且独特的替代方案。

它们可以在你的设备上本地运行。

“SLMs的独特定位是……你不需要去云计算就能完成任务的计算。”

——Ece Kamar,微软研究实验室副总裁

智能手机、智能家居设备、可穿戴技术、汽车系统、个人电脑和平板电脑……基本上任何带有数字存储的东西都可以包含SLMs。其优势不仅在于本地处理带来的超快速度,还在于每个请求的隐私性。

SLMs有可能满足大多数请求的任务,但是这种方法真正的亮点在于有一个编排层,可以在需要时利用更大的模型。

因此,其思想是请求最初由本地小语言模型(SLMs)处理,只有在需要时才路由到更强大的世界模型。这种方法类似于苹果正在实施的“苹果智能”,尽管它使用的是专有架构。

谷歌刚刚发布了搭载Gemini多模态Nano SLMs的Pixel 9。它在Tensor G4芯片上每秒处理45个令牌。

谷歌Pixel 9

这意味着所有设备上的AI应用程序和功能都非常快,而且非常私密。

如果该公司的计划是将语言模型交到用户手中(从字面上讲),那么在智能手机设备上就没有比这更接近的了。

如果你听像Mark Zuckerberg这样的人工智能创新者和企业家谈论人工智能的未来,他们会经常提到,人工智能的未来将不是一个单一的大型前沿模型,而是在边缘运行的数百万个SLM的编排。

未来看起来更像是在带有人工智能功能的边缘设备上运行的小型模型。低延迟、快速性能、安全,最重要的是,可以与其他语言模型联网。代理可能会根据用户请求编排网络。

这些设备可以是你戴的眼镜,手腕上的手表,或者耳朵里的耳塞。

未来的模型可能很小,但用户体验将是巨大而丰富的。

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Paul DelSignore
翻译作者:过儿
美工编辑:过儿
校对审稿:Jason
原文链接:https://generativeai.pub/why-you-need-to-know-about-small-language-models-d4c0a4c292a0