xAI发布Grok-1 -最大的开源LLM
Elon Musk的人工智能公司xAI在Apache 2.0许可下发布了其3140亿个参数混合专家模型Grok-1的权重和架构。
在此之前,马斯克于上周一承诺将向公众免费提供Grok。作为一个密切关注人工智能领域发展的人,我不得不说,就开放性和可访问性而言,这是向前迈出的一大步。如果你想了解更多关于人工智能的相关内容,可以阅读以下这些文章:
2024年每个开发人员都需要掌握的生成式人工智能技能
Google的Gemini AI模型:揭开人工智能的未来
世界上最好的人工智能模型:谷歌DeepMind的Gemini已经超过了GPT-4!
我尝试了50种人工智能工具,以下是我的最爱
Grok是什么?
Grok是一个巨大的语言模型,有3140亿个参数,是目前可用的最大的开源模型。相比之下,这是OpenAI GPT-3的两倍多,GPT-3在2020年发布时被认为是一项突破。
在X用户Andrew Kean Gao分享的图表中,你可以看到Grok的规模与其竞争对手相比有多大。
但是Grok不仅更大,它还利用了混合专家(MoE)架构,使其能够针对不同任务策略性地激活其参数子集。从理论上讲,这使得它比传统的密集模型更高效、适应性更强。
以下是Grok-1发布的摘要:
- 314B参数的专家混合模型,每个token上有25%的权重处于活跃状态
- 基本模型是在大量文本数据上训练的,没有针对任何特定任务进行微调。
- 8名专家(2名活跃)
- 860亿个参数
- Apache 2.0许可证
摘要:https://x.ai/blog/grok-os
代码:https://github.com/xai-org/grok-1
如何安装Grok
有关加载和运行Grok-1的说明在此GitHub存储库中有解释,将存储库克隆到本地。
从HuggingFace或Academic torrent下载权重,并将它们放在“checkpoints”目录中。
另一方面,有些人质疑为什么权重是通过Bittorrent磁铁链接发布的。由于模型变得越来越大,这可能会成为未来的一种规范。另外,通过torrent分发300GB的数据比直接分发要便宜。
打开CLI,运行以下命令测试代码:
pip install -r requirements.txt
python run.py
该脚本从测试输入的模型中加载检查点和样本。
值得注意的是,由于Grok-1模型的庞大规模(包含3140亿个参数),因此需要一台具有足够GPU内存的机器来使用所提供的示例代码测试模型。
不幸的是,我目前无法访问能够在本地运行Grok的硬件,因此我无法提供实际模型的第一手示例。
xAI存储库中的专家混合(MoE)层的当前实现并未针对效率进行优化。故意选择此实现是为了优先考虑模型正确性验证并避免开发自定义内核的需要。
如何尝试Grok
如果你只是对Grok的功能感到好奇,它目前在X上可用,但只有Premium+用户可以使用,价格为每月16美元。
Grok-1许可
此版本中的代码和相关的Grok-1权重在Apache 2.0许可下获得许可。
Apache 2.0许可证是一个宽松的自由软件许可证。许可证允许出于任何目的使用该软件,用户可以分发、修改它,以及分发该软件的修改版本。
该许可证仅适用于此存储库中的源文件和 Grok-1 的模型权重。
最终的想法
Grok-1 的发布正值关于意识形态在人工智能发展中的角色的激烈辩论之际。Elon Mus直言不讳地表达了他对“苏醒的人工智能”的担忧,他以谷歌的Gemini为例,指出了一种可能过度推动多样性倡议的人工智能系统的危险程度。
在这种背景下,Grok代表了另一种方法——旨在创造“基于基础的人工智能”,拒绝马斯克所认为的过度政治正确。
你呢?你更喜欢像谷歌Gemini这样的人工智能系统,它的设计是为了优先考虑某些社会和政治价值观,还是更喜欢像Grok这样更开放的方法,它旨在最大程度地减少训练和输出中的意识形态偏见?
双方都有各自的理由。虽然开源如此强大的语言模型肯定存在风险,但我相信它的好处远远大于潜在的缺点。
我特别激动地看到LoRA和Dreambooth这样的技术如何扩展了微调和定制的可能性。
感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/
原文作者:Jim Clyde Monge
翻译作者:文杰
美工编辑:过儿
校对审稿:Jason
原文链接:https://generativeai.pub/xai-releases-grok-1-the-biggest-open-source-llm-28fe8ab84575