Blog

Apr
07

如何使用Python处理丢失的数据来进行机器学习

现实世界的数据中常常包含丢失的数据。原因很多,比如观察结果没有记录,或数据损坏。

处理丢失的数据很重要,因为许多机器学习算法不支持具有丢失值的数据库。

本教程将讨论如何使用Python处理丢失的数据来进行机器学习。

By guoguoguo22 | Blog
DETAIL
Apr
07

领英知识图谱(LinkedIn Knowledge Graph)提升数据价值

这是一篇关于领英知识图谱(LinkedIn Knowledge Graph)如何利用大数据和机器学习技术来为会员带来价值的非技术类文章,应insideBigData的邀请,由我和我的同事Bee-Chung Chen共同完成

By guoguoguo22 | Blog
DETAIL

纽约,旧金山,伦敦和班加罗尔的码农比较分析

当我告诉某人Stack Overflow在纽约市,他们常常感到惊讶:许多人认为它在旧金山。 (我甚至在求职信中看到了“我在纽约,但愿意搬到旧金山”的工作申请。)旧金山是一个符合常识的猜测,美国科技公司可能位于那里:它在心脏的硅谷,靠近技术巨头如苹果,谷歌和Facebook的总部。但纽约也有一个丰富的创业生态系统,这是一个与旧金山非常不同的世界,开发人员使用不同的语言和技术。

By Ying Niu | Blog
DETAIL
Mar
31

从洛杉矶到府南河:1.洛杉矶雾霾斗争史

环境问题在各个国家都是一个很复杂的问题。环境问题本身既需要科学上的解释,又需要在社会分工与协调中寻找矛盾的本源。而解决环境问题除了需要科技的进步,往往更需要在政治与经济利益的取舍。所以非常困难。

By Ying Niu | Blog
DETAIL
Mar
30

XGBoost VS LightGBM

武林至尊,宝刀屠龙,号令天下,莫敢不从!倚天不出,谁与争锋?想要在Kaggle这样一个拥有来自全世界超过5万数据科学家参与的数据科学竞赛拔得头筹,什么工具才能称作是屠龙刀和倚天剑呢?在当今的数据科学江湖中,XGBoost作为多个Kaggle冠军的首选工具,当之无愧拥有屠龙刀的称号。而开源刚2个月的LightGBM以其轻快敏捷而著称,成为了Kaggle冠军手中的倚天剑。接下来,笔者就以Kaggle的Allstate Claims Severity竞赛来跟大家分享一下这两个工具的使用经验。

By Ying Niu | Blog
DETAIL
Mar
30

数据科学家六大常见错误

在我从事数据科学和预测性分析工作的这些年里,我注意到了很多行业新手甚至一些老手都会遇到的错误。我相信这些错误会将一名数据科学家的事业置于了如泰坦尼克号一样的即将撞上冰山的境地。在本文中,我将会列出6个最严重、根本性的错误,也会借助一些经典名言给出如何避免这些错误的建议。首先,让我们来明确一下当数据科学家的目的。在我看来,这和当侦探的目的是共通的的。下面这句夏洛克·福尔摩斯的名言很好地总结了这个目的:

By Ying Niu | Blog
DETAIL
Mar
30

推荐|Knight中心可视化项目:新闻学在美国

给大家推荐一个美国NGO的信息图(infographic)与可视化课程,是我上过的在理念上最清晰,最帮助思考的,教你如何进行story telling的课程。这个项目本来是给美国新闻系的人开办, 不在乎你用excel还是用D3,而是更基本的,怎么消化数据,怎么设计与怎么构图,怎么把故事讲得更容易被理解。

By Ying Niu | Blog
DETAIL
Mar
29

新的一年,数据科学求职者应该做的几件事

作为对数据科学领域感兴趣的学生或求职者,新的一年孕育着无限的机遇,为了及时抓住这样的机遇,我们需要更完善的准备。你有什么样的计划呢?数据应用学院根据以往的经验,为你提供一份从心理到行动的参考。

By Ying Niu | Blog
DETAIL