python

Jul
22

长文总结:时间序列分类的实践指南(附Python代码)

我们大多数人所接触的时间序列数据主要用于生成预测,我们习惯于利用成熟的时间序列技术来预测需求。但是,随着生成的数据量呈指数级增长,尝试新思想和新算法的机会也随之增加。处理复杂的时间序列数据集仍然是一个有潜力的领域。

By Zhang Bonnie | Blog
DETAIL
Jul
04

哥大门口受灾严重?热点图告诉你纽约哪里老鼠最多…

只要你在纽约待过一段时间,你一定是跟纽约的另一大居民——老鼠打过照面。无论是在等地铁,还是在Washington Square Park散步,你都有可能看到在健身跑步的老鼠们。

By Zhang Bonnie | Blog
DETAIL
May
13

女性比例上升,阿三减少16%,Python占比激增…19年数据科学家求职都有哪些变化?

我们调查了一个典型的数据科学家是什么样子的,看看这与去年的这个时候有什么不同,看看技能集、编程语言、就业行业、就业国家等等。

By Zhang Bonnie | Blog
DETAIL
Apr
08

关于C罗“冲刺速度”这种隐私问题,我们在Kaggle上找到了数据集,然后。。。

今天这篇文章,就让我给你细细描述如何用这些可爱的数据们根据变量和特点预测出球员的速度,毕竟这可能是世界上存在的最好战斗攻略了。

By Zhang Bonnie | Blog
DETAIL
Jan
04

Merry Christmas~ 请收下刚从圣诞树上摘下来的6个新年新Flag!

2019 年到了,新的一年,新的 flag,你准备好了吗?

By Zhang Bonnie | Blog
DETAIL
Dec
21

python的线性优化——你需要知道的有哪些?

大数据科学通常通过过数据的预测、规律与表现(通常没有约束的概念)的方式来呈现,但是对做商业情况中的决策是远远不够的。大数据科学的输出或呈现效果必须能够被商业决策所吸收并利用,同时,在商业情况下的优化模型需要有商业条件的约束。
例如在分析超市产业链案例的情况下 – 你的大数据处理过程需要来预测未来的销售数据。你将需要使用初始数据来建立一个优化库存与销售策略的模型。

By romanluo | Blog
DETAIL
Nov
13

【编程&数据处理】pandas 1 | 入门,SO EASY!!!

这些天,我看到了一篇妖艳贱货文“10 Minutes to Pandas (10分钟搞定pandas)”。

我的内心os是:开什么玩笑,怎么可能…

但是pandas官方文档标题就是这么写的。。。

By romanluo | Blog
DETAIL
Aug
14

如何画XGBoost里面的决策树?

最近用XGBoost很多, 训练完模型后, 一般只是看看特征重要性(feature importance score)。我对这种黑箱模型一般是不放心的, 所以喜欢把结果尽可能的画出来看看。XGBoost是一种Boosting Tree方法, 模型中每个决策树是可以画出来看看的。以为这是个很简单问题, 后来发现其实坑还挺多的, 这里简单总结一下。

By KellyZzz | Blog
DETAIL