深入大型语言模型:从基础到进阶的学习指南
如果你想理解大型语言模型,应该学习哪些基础概念?
我们与大型语言模型(LLM)交互的大部分代码通常隐藏在几个API后面——这其实是好事。
不过,如果你和我一样,对这些神奇的模型的工作原理感兴趣,那就有希望了。目前,除了那些致力于开发和训练新模型的研究人员外,主要有两类人在使用这些模型:
通过ChatGPT或Gemini等应用程序与模型交互的用户。
使用库(如LangChain、Llama-Index,甚至是Gemini或OpenAI API)来简化在这些模型上进行开发的数据科学家和开发人员。
问题在于——你可能已经有所察觉——文本挖掘和自然语言处理的基础知识在消费级产品或API中几乎被完全隐藏。别误会我的意思——这些工具非常适合围绕这些技术开发出色的应用场景。但是,如果你想更深入地理解,以便构建复杂的用例或更好地操控LLM,就需要掌握一些基础知识,尤其是在模型行为与你预期不一致的时候。
在本文中,我将介绍一些理解大型语言模型时应掌握的核心概念!如果你想了解更多关于LLM的相关内容,可以阅读以下这些文章:
大语言模型:AI如何改变医疗现状
为什么大语言模型不适合编码?
AI驱动的财务分析:多代理LLM系统将数据转化为见解
2024年打造生产级LLM应用的最佳技术栈
让我们开始吧!
基本NLP / NLTK
基本的自然语言处理(NLP)是你应学习的第一个概念。使用传统的NLP管道是理解计算机如何“努力”理解书面文本的一个很好方式。NLTK(自然语言工具包)是一个很好的工具,它可以让你在机器学习的背景下首次接触文本处理。
探索NLTK库是一个很棒的起点。它是开源界首批专注于文本挖掘的Python库之一。它包含了许多基础技术,用于开发简单的原型,如标记化、词干提取、词形还原、词性标注和命名实体识别。
丰富的文档和社区支持使NLTK成为学习NLP的绝佳选择。
Word2Vec
通过使用NLTK,你会意识到仅依靠经典机器学习无法构建高级AI应用。尽管你可以使用基本的情感分析或文本生成管道,但随着系统复杂度的增加,性能会显著下降。
那么,我们是如何进展到可以拥有类似图灵测试的通用模型的呢?
Word2Vec的论文是彻底改变NLP领域的开创性工作。尽管之前已经有研究在进行,但这篇论文将Word Vectors带入主流,成为了NLP的重要突破。
在Word2Vec之后,人们找到了以数学方式表示单词的方法,并保留了两个关键特性:
向量根据单词的含义进行表示,而不依赖单词的表面形式。
向量长度和大小固定,不依赖于词汇表的大小。
这些向量是如何构建的?通常,通过训练神经网络预测上下文中的单词。映射到神经网络的特定单词的权重转换为数学关系,反映出空间中单词间的相似性。
事实证明,能够用数学方法表达语言的语义关系是NLP领域急需的突破。词向量(Word Embeddings)是大型语言模型的核心组件之一。
文本分类
接下来,结合嵌入和简单的机器学习管道,我们可以将文本转换为特征,并在机器学习模型中应用。
在文本分类中,通常使用逻辑回归、朴素贝叶斯分类器或基于树的模型。你可以在此尝试不同的标记、预处理方法和嵌入方式,从而观察到性能的差异。
常见的文本分类项目包括:
- 垃圾邮件分类器:判断邮件是否为垃圾邮件
- 情感分析:检测文本的情感极性
- 主题分类:识别不同文档的主题
- 语言检测:判断文本所使用的语言
你可以在Kaggle上找到一些比赛,如情感分析和灾难推文分类。
文本生成
文本生成是另一个值得探索的领域,是大型语言模型的关键部分,尤其是在许多应用中需要预测下一个词。
在文本生成方面,主要有两种研究方法:
- 传统NLP方法,依赖于单词的当前状态并建立基于条件概率的系统。
- 基于嵌入的神经网络方法,例如循环神经网络(RNN)。
马尔可夫链(Markov Chain)是学习文本生成的好工具。尽管它们主要模拟依赖于重复模式的文本,但非常适合作为入门方式。
随着深入研究,你可以了解循环神经网络和嵌入等方法,从而提升生成文本的连贯性和质量。
注意力机制和Transformer模型
最后,在掌握以上基础概念后,你可以开始学习注意力机制。
2017年发表的Attention论文彻底改变了NLP领域。如果没有注意力机制,我们今天看到的许多应用都不可能实现。
注意力机制依赖于对神经网络的深入理解,因此在学习神经网络时,理解它如何与神经网络整体理论相适应会非常有帮助。
基于注意力机制,Transformer模型应运而生。它取代了循环神经网络,成为文本生成和理解的标准。掌握注意力机制和Transformer模型可能具有挑战性,但在掌握基础NLP知识后,会更容易上手。
总结
以下是掌握大型语言模型工作原理的学习路线:
- 首先学习基本的NLP管道,推荐从NLTK入手
- 学习词向量,并深入研究Word2Vec架构
- 尝试文本分类项目,了解不同的标记和预处理技术对结果的影响
- 学习文本生成,包括马尔可夫链和循环神经网络
- 最后学习注意力机制,这是文本挖掘领域的重大突破
感谢你花时间阅读本文!
原文作者:Ivo Bernardo
翻译作者:过儿
美工编辑:过儿
校对审稿:Jason
原文链接:https://medium.com/towards-data-science/what-to-study-if-you-want-to-master-llms-8d720f16c559