data analysis

Oct
26

100000个故事中的性别与动词分析:有一些很有意思的发现

受到我的同事 Julia Silge’s 最近一篇博客(what verbs tend to occur after “he” or “she” in several novels)的启发,我想用这个包含了100000个故事的数据及来分析性别和动词的关系。

我在之前的文章里探索过的Mark Riedl’s Wikipedia plots dataset很适合用来研究这个问题。这个数据集包好100000个关于电影、小说、电视剧和电视游戏的剧情。这些故事横跨几个世纪,由成百上千作者创作。但剧情介绍是由当代的观众撰写的,这意味着我们可以对这些千奇百怪的艺术形式进行统一的角色性别鉴定。由于这个数据集包含的是剧情介绍而不是原始的小说之类的,所以文本内容更多是“发生”了什么事,很少会出现某个角色“认为”或者“说”之类的表述。

By romanluo | Blog
DETAIL
Oct
19

神奇动物在哪里:数据科学家和数据工程师大揭秘!

人们对于大数据和AI究竟是什么总是含糊不清并有很多困惑,“数据黑箱子”的技术性让那些分析巨大数据集的人变成了某种神秘人物。这些有着技术和意愿去分析数字并据此提供见解的人通常就被叫做:数据科学家。

By romanluo | Blog
DETAIL
Sep
05

7 个被随机性愚弄的陷阱

随机性 就在我们身边。
它的存让所有预测分析专家心中恐惧
如果一个进程是真正随机的,
那么它从分析的角度是不可预测的 。
随机性是指在一个系统中不存在的规律,顺序,连贯性,和可预测性。
不幸的是,我们经常因为在系统任何时候出现明显的秩序时而上当将他作为随机事件 。
即使在统计意义上有弱点的情况下,一些人甚至还发展理论来解释这样的“秩序”规律。
但是,如果事件是真正随机的,那么任何关联性都是纯属巧合而不是因果关系。

By KellyZzz | Blog
DETAIL
Sep
05

如果你想成为一名称职的数据分析师,请把你刷微博的时间都拿来看看这些…

每当我们与客户或者在数据分析师论坛进行讨论时,我们总是能发现大家都时不时地去逛一些网站或是论坛。他们从中了解最及时的数据分析信息或者学习自己弄不懂的地方。
那么在今天这篇文章中,将告诉大家对每个数据分析师都超级有用的而且现在还在时常更新的博客和网站。另外也欢迎大家补充!

By KellyZzz | Blog
DETAIL