Data

Jul
04

E-Commerce 数据岗位求职必知KPI清单

要想进入E-Commerce领域,首先要了解这个行业的发展现状和趋势。

By Zhang Bonnie | Blog
DETAIL
Jan
11

kaggle模拟人力资源数据——如何预测员工失业率?

在这篇文章中,我们将从kaggle中选择模拟人力资源数据,建立一个分类器,帮助我们预测在给定属性的情况下,哪些员工更可能离职。这样的分类器将有助于企业预测员工流失率,并帮助解决带来的高成本。我们将使用最常见的分类器:随机森林(RandomForest),渐变增强树(Gradient Boosting Trees),临近算法(K-NearestNeighbors),Logistic回归和支持向量机(SupportVector Machine)

By romanluo | Blog
DETAIL
Nov
13

从0开始:神经网络分类器

我们的目标只是提供一个从头开始编写的隐藏层完全连接的神经网络分类器(没有深度学习库),以帮助消除神经网络中神秘的黑匣子感觉。
所提供的神经网络对描述属于三类小麦的内核的几何属性的数据集进行分类(你可以轻松地将其替换为你自己的自定义数据集)。假设一个L2丢失函数(lossfunction),并且在隐藏和输出层中的每个节点上使用S形传递函数(sigmoidtransfer function)。权重更新方法使用具有L2范数的梯度下降(gradient descent)的增量规则(deltarule)。

By romanluo | Blog
DETAIL
Nov
11

没时间读?那就听听——Podcasts 轻松学习大数据

人工智能,数据科学,机器学习和机器人
是当今科技时代中最受欢迎的话题
下面的播客节目你可不能错过

By romanluo | Blog
DETAIL
Nov
11

【商业分析师专栏】Business Analyst面试必须准备的63个问题

BA的面试一般分成behavioral和technical interview两种。有一些公司有时不会设置technical interview。下面我们来看看命中率百分之90的面试问题!

By romanluo | Blog
DETAIL
Nov
11

哪些因素影响了数据科学家的薪水呢?

Andres Gonzalez

“在我的职业经历中,目前为止我最感兴趣的部分就是网络数据收集项目。尽管在我们的数据科学拟真课中还有一些其他的更简明的项目,但网络数据收集提取是我最中意的。”

这个项目的目标是

找出最直接影响数据科学家薪水的因素。

By romanluo | Blog
DETAIL
Oct
26

100000个故事中的性别与动词分析:有一些很有意思的发现

受到我的同事 Julia Silge’s 最近一篇博客(what verbs tend to occur after “he” or “she” in several novels)的启发,我想用这个包含了100000个故事的数据及来分析性别和动词的关系。

我在之前的文章里探索过的Mark Riedl’s Wikipedia plots dataset很适合用来研究这个问题。这个数据集包好100000个关于电影、小说、电视剧和电视游戏的剧情。这些故事横跨几个世纪,由成百上千作者创作。但剧情介绍是由当代的观众撰写的,这意味着我们可以对这些千奇百怪的艺术形式进行统一的角色性别鉴定。由于这个数据集包含的是剧情介绍而不是原始的小说之类的,所以文本内容更多是“发生”了什么事,很少会出现某个角色“认为”或者“说”之类的表述。

By romanluo | Blog
DETAIL
Oct
26

抛弃幻想,谈谈现实中的数据科学家

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it — Dan Ariely

By romanluo | Blog
DETAIL