数据

Oct
26

100000个故事中的性别与动词分析:有一些很有意思的发现

受到我的同事 Julia Silge’s 最近一篇博客(what verbs tend to occur after “he” or “she” in several novels)的启发,我想用这个包含了100000个故事的数据及来分析性别和动词的关系。

我在之前的文章里探索过的Mark Riedl’s Wikipedia plots dataset很适合用来研究这个问题。这个数据集包好100000个关于电影、小说、电视剧和电视游戏的剧情。这些故事横跨几个世纪,由成百上千作者创作。但剧情介绍是由当代的观众撰写的,这意味着我们可以对这些千奇百怪的艺术形式进行统一的角色性别鉴定。由于这个数据集包含的是剧情介绍而不是原始的小说之类的,所以文本内容更多是“发生”了什么事,很少会出现某个角色“认为”或者“说”之类的表述。

By romanluo | Blog
DETAIL
Oct
26

抛弃幻想,谈谈现实中的数据科学家

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it — Dan Ariely

By romanluo | Blog
DETAIL
Oct
19

神奇动物在哪里:数据科学家和数据工程师大揭秘!

人们对于大数据和AI究竟是什么总是含糊不清并有很多困惑,“数据黑箱子”的技术性让那些分析巨大数据集的人变成了某种神秘人物。这些有着技术和意愿去分析数字并据此提供见解的人通常就被叫做:数据科学家。

By romanluo | Blog
DETAIL
Aug
22

化数据为音乐,倾听中子星的声音……

从股票走势到气温波动,随时间而变化的数据常以图表形式展现在我们面前。相比于平淡的二维图表,我们是否能让人们用听觉感受股价的骤跌,或全球气温呢?一种将平面数据转换成柔和的声波的技术——超声处理——实现了这个想法。

By KellyZzz | Blog
DETAIL
Aug
14

经验分享 | 学商业分析的我,是怎样让Recruiter主动找上门的?

当初作为一个没有工作经验的文科生,因为一些原因放弃当初申请的Marketing专业,一入学就转入现在学校STEM专业的Business Analytics专业。15年来美国的时候,我们学校BA专业算是第一届招生,因此,无论是课程选择还是职业发展,都是算是瞎子过河。

By KellyZzz | Blog
DETAIL
Jul
24

H1B和绿卡数据猿年薪分别为多少?

本文内容搬运自正宗老字号Coursera上的Data Visualization with Tableau — Duke University。

By ivankahu | Blog
DETAIL
May
24

使用TensorFlow分类手写数字

回到2013年,我写了一篇关于使用Python进行数字识别的帖子。 从那时起,Python数据生态系统发生了很大变化。 Google给了我们Tensorflow,scikit-learn已经成熟,“AI”现在是最新的热潮。
所以我认定是时候把精力放到手写识别这个领域。 它仍然是一个非常简单,但迷人的概念:收集某人的手写素材,并试图预测这个人写的东西。 好消息是,在过去几年我们已经学习并掌握了几个新的技巧,我会在这里与大家分享一些。

By ivankahu | Blog
DETAIL