每周AI和NLP新闻——2024年5月第4周
NVIDIA的预期收入超出预期,Mistral更新了其7B模型,OpenAI澄清了ChatGPT中使用Scarlett Johansson声音的问题。
以下是NLPlanet为你精选的每周NLP和AI相关文章、指南和新闻!
网络新闻
- NVIDIA股价飙升,销售预测带来人工智能希望。令人鼓舞的销售预测发布后,NVIDIA股票上涨了9.3%,这表明市场对人工智能技术的需求强劲。预计第二季度营收为280亿美元,超出预期,突显出该公司在新的Blackwell芯片和可观的数据中心营收的支撑下,在人工智能市场的强势地位。
- Microsoft推出Phi-Silica,一款为Copilot+ PC NPU设计的3.3B参数模型。Microsoft发布了Phi-Silica,一款具有33亿参数的紧凑型语言模型,专为配备NPU的Copilot+ PC设计。该模型旨在实现快速的本地推理,提高Windows用户的生产力和可访问性,同时优化能效。Phi-Silica是Microsoft首个本地语言模型,预计将于6月发布。
- mistralai / Mistral-7B-Instruct-v0.3。Mistral推出了其7B模型的第3版,包括“Mistral-7B-v0.3”和“Mistral-7B- instruct -v0.3”模型。增强功能包括扩展了32,768个术语的词汇表、与v3 Tokenizer的集成以及新的函数调用功能。
- 据报道,OpenAI澄清并非有意模仿Scarlett Johansson的声音。OpenAI为其Sky助手选择的声音因其温暖和魅力引发争议,Scarlett Johansson指出该声音与她的声音非常相似,引发了公众和法律问题。OpenAI否认故意模仿Johansson的声音,并在她提出异议后停止使用Sky的声音。此前,Johansson与OpenAI的Sam Altman关于为ChatGPT提供声音的讨论未果。
- OpenAI发送内部备忘录,解除前员工有争议的离职协议。OpenAI 撤销了一项决定,该决定要求前员工同意永久不贬损条款,以保留其既得股权。在CNBC看到,该公司在一份内部备忘录中确认,不会取消任何已归属的单位,无论是否签署了该协议。
- Amazon计划对Alexa进行人工智能升级,并按月收取订阅费。为了应对来自Google和OpenAI聊天机器人的竞争,Amazon正在为Alexa升级先进的生成人工智能功能,并推出了一项独立于Prime的额外订阅服务,这反映了该公司在内部和领导层变动中对人工智能的战略重视。
网络指南
- 映射一个大型语言模型的思维。Anthropic通过分析大型语言模型Claude Sonnet,将神经元激活与大量概念联系起来,在人工智能可解释性方面取得了长足进步。这项工作通过改进监控、去偏差以及操控特性来引导模型行为,促进了更安全的人工智能。
- 构建交互式嵌入可视化。作者介绍了如何使用PyMDE和Emblaze等工具为来自不同数据集的嵌入创建高级交互式可视化。这项工作包括数据收集、嵌入计算和可视化渲染,展示了人工智能应用中更好的探索性分析的迭代增强。
- 作为AI UX模式的动态文档。作者研究了LLM在生成动态、人工智能辅助的“动态文档”以简化科学文献综述中的应用。该系统采用语义分析将数据结构成可修改的表,重点克服复杂的人工智能管理、维护用户友好的界面、最小化运营费用等障碍。
- GPU Poor Savior:革新低比特开源LLM和经济高效的边缘计算。本文探讨了针对边缘计算优化的低比特量化大型语言模型的开发进展,重点介绍了可以在GTX 3090等消费类GPU上运行的200多个模型的创建。这些模型通过先进的量化方法实现了显著的资源效率,并借助Bitorch Engine和green-bit-llm等新工具简化了培训和部署过程。
- 使用训练器API训练定制AI模型并适配至Hugging Face。本文提供了使用Hugging Face训练器 API的指南,以最少的编码工作简化AI模型的适应、训练和集成。内容包括设置必要的依赖项、数据预处理、模型调整和分布式训练,并以通过Hugging Face Hub共享模型的教程为结尾。
有趣的论文和库
- 无提示的链式思维推理。研究通过改变解码过程以考虑多个标记选项,调查了预训练大型语言模型中的链式思维推理。结果表明,这种方法可以揭示内在的推理路径,提高对模型能力的理解,并将推理与更高的输出信心联系起来,在不同推理基准测试中得到了验证。
- 并非所有的语言模型特征都是线性的。最近的一项研究通过稀疏自编码器揭示了语言模型中的多维表示,特别是GPT-2和Mistral 7B中时间概念的循环表示,从而对线性表示假设提出了质疑。这些表示在模运算任务中表现出色,对Mistral 7B和Llama 3 8B的干预实验突显了其在语言模型计算中的重要性。
- 热力学自然梯度下降。本文提出了一种新的数字模拟混合算法,该算法模仿自然梯度下降用于神经网络训练,在保持类似于一阶方法的计算效率的同时,保证了二阶方法更好的收敛速度。利用热力学模拟系统的性质,这种方法绕过了当前数字技术典型的昂贵计算。
- 你的Transformer其实是线性的。最近的研究表明,GPT、LLaMA、OPT和BLOOM等模型中的Transformer解码器显示出意想不到的跨层近线性关系。实验表明,省略或简化这些Transformer中最线性的块并不会实质性地影响它们的损耗或性能,这就对目前关于Transformer操作复杂性的假设提出了质疑。
- 世界建模的扩散:Atari中的视觉细节问题。DIAMOND是一种新型的强化学习代理,它使用基于扩散的世界模型来捕获离散潜在模型通常会忽略的的视觉细节。它表现出卓越的性能,如它在Atari 100k基准测试中创下了新的人工标准分数记录。作者已经公开了他们的代码和模型,以供将来的研究使用。
感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/。
原文作者:Fabio Chiusano
翻译作者:文玲
美工编辑:过儿
校对审稿:Jason
原文链接:https://medium.com/nlplanet/weekly-ai-and-nlp-news-may-27th-2024-367471f0c7a9