Live 线上讲座
数据科学读书会 Book 12 – NLP 自然语言处理
第九讲
数据应用学院(Data Application Lab)专注于数据科学,人工智能和大数据的职业教育, 每年向全球各地,包括硅谷和华尔街的知名企业输送数百 Data Scientists, 更有大量的 Data Analysts,Business Analysts,Machine Learning Engineers,Software Engineers 以及 Data Engineers。多年的钻研积累和专一打造了独一无二教学方法和求职经验。被多家北美英文科技媒体列为 Top 10 North American Data Bootcamp。学员遍布美国加拿大,还有来自欧洲, 澳洲和亚太等地的慕名者报名参加。
伴随人工智能技术的推广,使用Natural Language Processing (NLP)的技术越来越普遍, 例如,电话和掌上电脑支持文本预测和手写识别, 网络搜索引擎让我们可以访问非结构化文本中的信息,机器翻译让我们可以检索各种语言编写的文本,并以另一种语言阅读它们。语言处理在多语种信息社会中发挥着核心作用,它可以提供更自然的人机交互界面并且可以访问更复杂的存储信息。
在本系列讲座中,我们将以O‘Reilly的Natural Language Processing with Python(Steven Bird, Ewan Klein & Edward Loper)一书为参考展开讲述。你将学习到什么是NLP,什么是非结构化数据。你将可以在Python中对文本数据执行各种操作,有许多RegEx方法可以帮你更好地理解文本数据。你将学习到NLTK库的基础知识,NLTK库是构建Python程序用以使用人类语言数据的领先平台。你还将了解不同的概念和注解器,比如标记、POS标记和命名实体识别。
数据科学读书会的第12本书《NLP 自然语言处理》 已经接近尾声。在过去接近两个月的时间里,同学们一起学习了Regex函数、用Python进行NLP、文本数据、情感分析和深度学习等等,围绕着英文的自然语言处理的相关知识。
现在,我们应广大同学的反馈和建议,将在6月5日增加本书的最后一讲,这一讲会以中文的自然语言处理为中心展开话题。由于中英文在词性标注、句法分析等任务上的差异,这两种语言在NLP上也不尽相同。本期中文NLP会带大家了解,中文NLP用到的工具包和神经网络模型,中文分词的特点,中文词性标注,句法分析等知识,让大家对自然语言处理的理解更近一步,帮助大家在更广阔的领域灵活运用NLP。
第1讲: NLP
NLP简介
NLP用例
NLP面临的挑战
Python基础知识
第2讲: 使用Python的Regex函数
为什么用Python
探索Regex函数
Regex函数的应用
Regex函数的标记
第3讲:了解数据和预处理
什么是文本数据
预处理文本数据
词干和词元化
词袋和TF-IDF
第4讲: NLTK
NLTK简介
句子和字标记
词类标记
命名实体识别
第5讲:NLP情感分析
什么是情感分析
情感分析的范围
情感分析的方法
如何使用Python进行情感分析
第6讲:端到端文本分类
获取数据
数据预处理
为模型做数据准备
文本分类模型
第7讲:使用深度学习的NLP
为什么将深度学习用于NLP
单词嵌入
序列建模的简介
序列建模的应用
第8讲:NLP中的序列模型
循环神经网络
LSTM(长短期记忆网络)
门控循环单元
第9讲:中文的自然语言处理
中文NLP用到的工具包和神经网络模型
中文分词的特点
中文词性标注,句法分析
【所有成功注册并全程出席的同学将获得特别礼品】
获得资格加入北美求职互助群
获得数据应用学院奖学金积分50美金
可以领取数据应用学院的数据科学家课程优惠券
2021年6月19日 “商业分析师求职训练营” 开营啦!https://www.dataapplab.com/ba/
数据应用学院 — 北美留学生求职的最佳路径 www.dataapplab.com