每周AI和NLP新闻 – 2024年4月23日
网络新闻
- Meta Llama 3简介:迄今为止功能最强大的开源LLM。Meta推出了Meta Llama 3,这是一种最先进的开源大型语言模型(LLM),具有高达700亿个参数的版本,提供了增强的推理和多语言功能。目前最好的模型在8B和70B两个规模上进行了预训练和指令微调。此外,超过4000亿个参数的更大的模型正在开发中,有望在未来几个月发布时进一步突破界限。(链接:https://ai.meta.com/blog/meta-llama-3/)
- Mistral发布了Mixtral 8x22B。Mistral推出了Mixtral 8x22B,这是一种高效的稀疏混合专家模型,在141B个总参数中有39B个有效,专门用于多语言通信、编码、数学,并擅长推理和知识任务。该模型拥有64K标记的上下文窗口,与多个平台兼容,并在开源Apache 2.0许可下使用。(https://mistral.ai/news/mixtral-8x22b/)
- OpenAI解雇泄露信息的研究人员。在内部泄密后,OpenAI解雇了其安全和AI推理团队的两名成员,这表明在创新的AI组织中,平衡透明度和安全性一直是一项挑战。该公司正在积极评估此次泄露的影响。(https://futurism.com/the-byte/openai-fires-researchers-leaks)
- Google的新芯片将挑战Nvidia、Microsoft和Amazon。Google推出了Cloud TPU v5p,这是一款AI芯片,其训练速度几乎是其前身TPU v4的三倍,巩固了Google在AI服务和硬件方面的地位。在Google Cloud Next活动上,首席执行官Pichai强调了公司在AI方面的进步和合作,包括在AI超级计算机中使用A3超级计算机和Blackwell芯片。此外,Google还推出了GoogleAxion CPU,这是一款基于Arm的处理器,与Microsoft和Amazon的同类产品竞争,拥有30%的性能提升和更好的能效。(https://qz.com/google-ai-chip-nvidia-axion-arm-microsoft-1851397201)
- OpenAI否认Elon Musk的诉讼指控,并在法庭上寻求驳回。OpenAI正在抗辩Elon Musk提起的诉讼,后者指控OpenAI在与Microsoft的商业合作中偏离了最初的使命。OpenAI反驳了这一指控,表示Musk在AI方面的利益冲突可能会影响他的行为,并辩称没有做出避免商业化的具体承诺,对Musk因缺乏明确协议而提起诉讼的基础提出了质疑。(https://www.newsbytesapp.com/news/science/openai-refutes-allegations-by-early-investor-elon-musk/story)
网络指南
- 欢迎Llama 3-Meta的新开源LLM。Meta推出了Llama 3,这是其Llama系列的最新产品,可以在Hugging Face上使用。它有两个版本,8B和70B,每个版本都有基本版本和指令调优版本,具有增强的多语言标记化功能,专为在Google Cloud和Amazon SageMaker等平台上轻松部署而设计。(https://huggingface.co/blog/llama3)
- 2024年Stanford AI指数报告。Stanford发布了2024年AI指数报告,介绍了AI的主要趋势,包括技术进步、先进模型成本上升以及AI提高的劳动力生产率。报告还指出,以AI为重点的法规和投资有所增加,尤其是在生成式AI方面。与此同时,公众对AI的社会影响的意识和关注度也在上升。(https://aiindex.stanford.edu/report/)
- CUDA仍是Nvidia的巨大护城河。通过CUDA软件生态系统和NVLink互连的协同作用,Nvidia在AI领域保持了领先地位,这巩固了其硬件性能,使AMD等竞争对手难以与Nvidia在AI工作负载方面的熟练程度相抗衡。(https://weightythoughts.com/p/cuda-is-still-a-giant-moat-for-nvidia)
- OpenAI还是自建?揭示自建LLMs的真实成本。这篇文章探讨了使用OpenAI的API与自建LLM的财务考虑。它强调了通过自建获得更大的数据控制的优点,但这伴随着微调和维护的更高成本,以及OpenAI基于使用的定价模型可能带来的潜在成本节省。这两者之间的选择取决于特定业务的需求和要求。(https://venturebeat.com/ai/openai-or-diy-unveiling-the-true-cost-of-self-hosting-llms/)
- 无法通过AI建造护城河。AI应用的成功越来越依赖于利用独特的、客户特定的数据进行培训,而不仅仅是LLM等模型的创新。数据工程是创造有竞争力的AI解决方案的关键。(https://generatingconversation.substack.com/p/you-cant-build-a-moat-with-ai)
有趣的论文和储存库
- VASA-1:实时生成逼真的音频驱动的面部表情。Microsoft开发了VASA,一个可以通过单个图像和音频输入生成逼真的讲话面孔的框架,具有同步口型和动态面部表情,以增强真实性。(https://www.microsoft.com/en-us/research/project/vasa-1/)
- Megalodon:具有无限上下文长度的高效LLM预训练和推理。Megalodon是一种新的模型架构,专为具有无限上下文长度的高效序列建模而设计,旨在解决Transformers由于其二次复杂性和长序列性能差而造成的可扩展性限制。在Mega架构的基础上,它结合了复杂指数移动平均(CEMA)、时间步归一化、标准化注意力机制等先进技术,旨在在预训练效率和下游任务准确性方面优于经典的Transformer和次二次替代方案,如线性注意力和状态空间模型。(https://arxiv.org/abs/2404.08801)
- 压缩代表智能的线性关系。最近的研究发现,语言模型(LLM)在智能基准上的表现与其文本压缩能力之间存在线性相关性,这表明压缩效率可以作为评估LLM能力的有效、无监督指标。(https://arxiv.org/abs/2404.09937)
- 了解你的参考模型以实现真正的对齐。研究人员通过提出Trust Region DPO (TR-DPO)来解决RLHF和DPO等LLM对齐方法中的不稳定性问题,该方法在训练过程中主动更新参考策略。该方法超越了DPO的隐性限制,在Anthropic HH和TLDR数据集上进行了改进,根据GPT-4自动评估,TR-DPO的性能比DPO高出19%。(https://arxiv.org/abs/2404.09656)
- BabyLM挑战。BabyLM挑战赛2024年致力于在与人类语言学习类似的数据限制下改进语言模型的预训练。该挑战提供了新的数据集。例如5000万字的多模态语料库,并允许参与者在特定的字数限制内使用定制的数据集。(https://babylm.github.io/)
感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/
原文作者:Fabio Chiusano
翻译作者:文玲
美工编辑:过儿
校对审稿:Jason
原文链接:https://medium.com/nlplanet/weekly-ai-and-nlp-news-april-23rd-2024-6ccdc6449e25