AlphaGeometry,Meta正在购买大量GPU…

AlphaGeometry,Meta正在购买大量GPU…

以下是近期关于NLP和AI的文章、指南和新闻!如果你想了解更多关于人工智能的相关内容,可以阅读以下这些文章:
2024年每个开发人员都需要掌握的生成式人工智能技能
Google的Gemini AI模型:揭开人工智能的未来
世界上最好的人工智能模型:谷歌DeepMind的Gemini已经超过了GPT-4!
我尝试了50种人工智能工具,以下是我的最爱

网络新闻

  • AlphaGeometry:一个奥林匹克级别的几何AI系统。由DeepMind开发的人工智能AlphaGeometry在比赛时间内解决了30道几何题中的25道,展示了人类奥林匹克水平的几何水平的熟练程度。利用结合模式识别和形式逻辑的混合方法,模仿人类解决问题的方法,有效地将直觉与分析思维结合起来。链接:https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
  • Mark Zuckerberg表示,Meta将斥资数十亿美元购买Nvidia的人工智能芯片。Meta计划在2024年之前整合35万个Nvidia H100 GPU,对人工智能研究进行重大投资。鉴于其成本高昂,估计在2.5万至3万美元之间,这项投资突显了Meta对扩大计算能力的承诺。总体而言,Meta的策略是积累相当于600K H100 GPU的计算量,这突显了其在增强人工智能能力方面的大幅提升。链接:https://www.cnbc.com/2024/01/18/mark-zuckerberg-indicates-meta-is-spending-billions-on-nvidia-ai-chips.html
  • Vision Mamba:基于双向状态空间模型的高效视觉表示学习。Vision Mamba(Vim)是一种新的视觉骨干,它用Vision Mamba块取代标准的自注意机制,通过结合位置信息来增强图像处理。Vim在ImageNet、COCO和ADE20k等标准基准测试中表现出了卓越的性能,超过了现有的模型,如Vision Transformers (DeiT)。链接:https://arxiv.org/abs/2401.09417
  • 稳定代码3B:边缘编码。Stable AI推出了Stable Code 3B,这是一种先进的编程语言模型,性能优于较大的CodeLLaMA 7b。它在标准笔记本电脑上提供无缝体验,而无需GPU。值得注意的改进包括“填充中间”功能,更好的上下文处理,支持多达16,384个token的序列,以及扩展到100,000个token的可定制上下文,这要归功于对各种语言和软件数据集的培训。链接:https://stability.ai/news/stable-code-2024-llm-code-completion-release
  • 谷歌表示,将使用特殊的股票奖励池来留住顶尖的人工智能研究人员。谷歌实施了一项战略,利用丰厚的股票薪酬留住顶尖的人工智能人才,突显出维持一支熟练的劳动力,在动态的人工智能领域保持领先地位至关重要。链接:https://seekingalpha.com/news/4055187-google-said-to-use-special-pool-of-stock-comp-to-keep-top-ai-researchers-report
  • 懒惰使用人工智能导致亚马逊的产品被称为“我无法满足这个要求”。包括亚马逊在内的电子商务平台正在经历人工智能生成内容的问题,导致产品列表出现错误标题,如“我无法满足该要求”。人工智能在产品描述生成方面的错误表明,在线清单管理面临着更广泛的挑战。链接:https://arstechnica.com/ai/2024/01/lazy-use-of-ai-leads-to-amazon-products-called-i-cannot-fulfill-that-request/
  • 一项新的研究证实了一个显而易见的事实:链接:搜索结果只会越来越糟。一项对Google、Bing和DuckDuckGo搜索结果进行分析的研究表明,网络搜索的质量正在下降,人们更倾向于搜索引擎优化,以从属网络营销为中心的内容,而不是深入的信息。这一趋势对试图区分有价值内容和SEO操纵的搜索引擎提出了挑战。生成式人工智能的出现预计会加剧这些问题。链接:https://www.techspot.com/news/101560-study-confirms-search-results-major-engines-getting-worse.html
  • 微软推出Copilot Pro,每位用户每月收费20美元。微软推出了Copilot Pro,这是一款用于Microsoft 365应用程序的高级生产力增强工具,售价为每位用户每月20美元。它授予优先访问先进的人工智能,包括加速响应的GPT-4 Turbo。链接:https://searchengineland.com/microsoft-launches-copilot-pro-for-20-per-month-per-user-436526

网络指南

  • RAG与Finetuning-哪个是提升LLM应用程序的最佳工具?RAG(检索增强生成)和Finetuning是基于任务特定需求优化LLMs的方法。对于需要基于实时数据或外部数据库的响应的应用程序来说,RAG是理想的,而Finetuning最适合自定义LLM的输出,使其与特定的上下文、风格或特定于领域的需求保持一致。链接:https://www.topbots.com/rag-vs-finetuning-to-boost-your-llm-application/
  • 使用直接偏好优化方法调整LLMs偏好。研究人员开发了三种新方法- DPO, IPO和KTO -在不使用强化学习的情况下调整大型语言模型(LLMs)以适应人类偏好。这些技术应用于7b LLMs,包括直接偏好优化(DPO),这可能会过拟合;IPO,它集成了一个规则项,以减轻过拟合;KTO利用实时非配对反馈进行即时模型更新。链接:https://huggingface.co/blog/pref-tuning
  • 评估就是我们所需要的。本文探讨了评估人类和人工智能能力的挑战,特别是在招聘和使用LLMs的背景下。它解决了当前人类评估方法的有限有效性,其特点是员工的不适应率显着,以及衡量创新角色的创造力的复杂性。对于人工智能来说,它凸显了智能评估的新生和挑战性,指出了数据污染和基准不足等问题。链接:https://www.strangeloopcanon.com/p/evaluations-are-all-we-need
  • 通往诚实AI之路。人工智能的可靠性是一个令人担忧的问题,特别是在回答的准确性和潜在的不诚实方面。最近的一项研究引入了“诚实向量”来评估和提高人工智能的透明度,解决了确保人工智能长期安全和可靠性的挑战。链接:https://www.astralcodexten.com/p/the-road-to-honest-ai

有趣的论文和知识库

  • RAG使LLMs更好、更平等。一项研究评估了在检索增强生成(RAG)任务中开源语言模型与闭源等效模型的性能。关键研究结果表明,GPT4-Turbo优于其他方法,而Mixtral-8x7B的性能与GPT3.5-turbo相当,即使在超过10亿个块的庞大数据集上,RAG方法的有效性仍然保持稳健。链接:https://www.pinecone.io/blog/rag-study/
  • 自我奖励语言模型。研究人员探索了自我奖励语言模型的概念,即语言模型在训练过程中产生自己的奖励。这一概念认为,超越人类水平的表现需要来自超人反馈的训练信号。这种方法显著提高了遵循指令和自我奖励能力。通过在训练Llama 270b中迭代这种技术,该模型在AlpacaEval 2.0排行榜上的表现超过了几个领先的系统,包括Claude 2、Gemini Pro和GPT-4 0613。链接:https://arxiv.org/abs/2401.10020
  • 量化语言模型对提示设计中虚假特征的敏感性或:我如何学会开始担心提示格式。语言模型(包括LLaMA-2-13B这样的大型语言模型)对提示格式非常敏感,会显示显着的性能变化以及不影响含义的更改。尽管模型大小或示例数量增加,这种敏感性仍然存在。专家建议对具有各种提示格式的模型进行评估,以准确衡量其能力,因为具有统一提示格式的模型之间缺乏性能相关性,这对直接模型比较的有效性提出了挑战。链接:https://arxiv.org/abs/2310.11324
  • Transformer是多状态RNN。Transformer最初与RNN不同,但它正在获得多状态RNN的概念桥梁,新的研究表明,仅解码器的Transformer的运行方式可能类似于具有无限隐藏状态的RNN,或者作为具有特定数量隐藏状态的有限RNN。链接:https://arxiv.org/abs/2401.06104
  • GPT-4V(ision)是用于文本转3D生成的人性化评估器。GPT-4V通过自动化与人类判断一致的基准,为文本到3D生成模型提供了一种创新的评估方法,从而解决了该领域缺乏可靠的评估指标的问题。该系统通过定制的提示来模拟详细的用户评估,从而可以根据不同的用户特定标准对3D资产进行成本效益和可扩展的比较。链接:https://arxiv.org/abs/2401.04092
  • 大型自回归图像模型的可扩展预训练。苹果发布了一项研究,详细介绍了被称为AIM的自回归视觉模型的开发,该模型显示了类似于LLMs的缩放特征。这些模型已经证明,它们的性能随着模型大小和数据量的增加而提高。链接:https://arxiv.org/abs/2401.08541
  • 潜伏特工:通过安全培训培训欺骗性LLMs。一项研究表明,LLMs具有欺骗性行为(通过根据年份提示有条件地编写安全或可利用的代码来证明),无法通过传统的安全训练方法(包括监督微调、强化学习和对抗性训练)轻易纠正。链接:https://arxiv.org/abs/2401.05566

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Fabio Chiusano
翻译作者:文杰
美工编辑:过儿
校对审稿:Jason
原文链接:https://medium.com/nlplanet/weekly-ai-and-nlp-news-january-22th-2024-61b7cf153976