Llama3来了！

Llama3来了！

Llama3来了！

Meta发布了Meta Llama 3，这是他们最新的开源大型语言模型，具有8B和70B参数模型。

新的分词器：与Llama 2相比，Llama 3使用了一个具有128K个标记词汇量的分词器，可以更有效地对语言进行编码，并且生成的标记数最多可减少15%。
分组查询注意：在所有模型中都实施了这一技术，使得较小的模型相比Llama2更为强大，而在Llama 2中仅在最大模型中使用。
使用15T个标记进行预训练，其中95%是英语内容。
同时在16K个GPU上进行训练，并开发了用于管理GPU正常运行时间的新工具。希望他们会发布这些工具，因为GPU利用率是我在微调过程中看到的最大挑战。
Llama2的有趣用法：它被用来清理数据集，以便进行微调，这标志着LLM在数据质量领域的一个有趣用例。
新的微调方法：将推理跟踪与指令集中的偏好排序相结合，旨在减少模型幻觉和错误率，类似于OpenAI尝试的分步推理。
新库：TorchTune，一个pytorch原生库，用于编写，微调和实验LLM，提供了高效的内存使用和可调试的训练方案。
责任：Meta强调负责任的AI开发，提供信任和安全工具，如Llama Guard 2和Code Shield。
性能：Llama 3在性能方面树立了新的标准，拥有改进的推理能力和行业基准的最先进性能。我看到的详细基准测试主要是与Claude对比，而不是与GPT4。

虽然它没有提供与GPT4的详细比较，也没有链接到研究论文，但这暗示了即将推出更多内容，可能是400B参数模型。早期的400B参数模型的检查结果表明，这可能是 GenAI领域的下一次重大突破。

#llama最酷的一点是，它实际上是开放的，可以在#huggingface和#watsonx等开放平台上使用。

感谢阅读！你还可以订阅我们的YouTube频道，观看大量大数据行业相关公开课：https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ；在LinkedIn上关注我们，扩展你的人际网络！https://www.linkedin.com/company/dataapplab/

原文作者：Kunal Sawarkar
翻译作者：文玲
美工编辑：过儿
校对审稿：Jason
原文链接：https://medium.com/towards-generative-ai/llama3-is-here-key-takeaways-fb42e589367d

May 3, 2024 | Blog | Tags: AI, 机器学习