analysis Archives - Data Application Lab

Nov

【深度长文科普】非NLP数据处理――词向量Word Vector

词向量 (Word Vector) 代表了人们在理解词与词，句与句，文章与文章之间关系的能力上的一大进步。与之前使用传统的表达词的方式相比，这项技术的进步在于机器可以得到更多关于词的信息。有了词向量这项技术，演讲识别和机器翻译才变得可能。在这篇文章中我会尽量用数据来解释词向量的概念，让不太熟悉自然语言处理 (NLP) 的人也能理解词向量的概念。
词向量是什么？

By romanluo | Blog

DETAIL

Oct

100000个故事中的性别与动词分析：有一些很有意思的发现

受到我的同事 Julia Silge’s 最近一篇博客（what verbs tend to occur after “he” or “she” in several novels）的启发，我想用这个包含了100000个故事的数据及来分析性别和动词的关系。

我在之前的文章里探索过的Mark Riedl’s Wikipedia plots dataset很适合用来研究这个问题。这个数据集包好100000个关于电影、小说、电视剧和电视游戏的剧情。这些故事横跨几个世纪，由成百上千作者创作。但剧情介绍是由当代的观众撰写的，这意味着我们可以对这些千奇百怪的艺术形式进行统一的角色性别鉴定。由于这个数据集包含的是剧情介绍而不是原始的小说之类的，所以文本内容更多是“发生”了什么事，很少会出现某个角色“认为”或者“说”之类的表述。

By romanluo | Blog

DETAIL

analysis

【深度长文科普】非NLP数据处理――词向量Word Vector

100000个故事中的性别与动词分析：有一些很有意思的发现

Latest post

加州州长挽救裁员危机

大语言模型的工资出乎你的想象

白领工作的消亡，人工智能开启的第四次革命

Courses

Events

Lecture 17: 100 Days of LLM Mastery

Trade Stocks and Crypto with AI Agents

Lecture 18: 100 Days of LLM Mastery

Consulting

ABOUT US

Contact Info: