不得不知的数据竞赛之“最”——最全数据竞赛汇总

不得不知的数据竞赛之“最”——最全数据竞赛汇总


互联网企业
应用大数据竞赛进行宣传
吸收优质人才

1.阿里巴巴天池

最大规模、最“老字号”国内数据竞赛

天池的由来:

“天池”是阿里云旗下的大数据平台的名字。

2014年3月,马云爸爸在北京大学发起“天池大数据竞赛”。由此,阿里天池成为国内最早一批举办数据竞赛的组织。

首届天池大赛共有来自全球的7276支队伍参赛,海外参赛队伍超过148支。阿里巴巴集团为此开放了5.7亿条经过严格脱敏处理的数据。

天池亮点:

处理庞大的数据量往往需要配制好的PC作为支持。对于没有条件追求好配置的参赛者来说,这无疑是一个不利因素。然而天池竞赛最特别的地方就在于为选手提供了远程计算平台,即分布式计算平台。对于资源相对较少的同学而言,不仅加快了代码的运算速度,也增加了他们使用分布式计算平台的相关经验。

赛题分类:

从14年至今,天池一共举办过4界大数据竞赛,共31场。

每界按照数据量大小和赛题的难易程度分为不同赛季,用以甄选优秀的参赛选手。根据阿里旗下不同的服务产品,每次比赛的主题和数据集也五花八门:淘宝穿衣搭配算法(2015年赛题),蚂蚁金服资金流动预测(2015年赛题),阿里音乐流行趋势大预测(2016年赛题);也有由第三方平台提供的数据:交通数据模拟减轻道路拥堵(2014年首届赛题),市民出行公交线路预测(2015年赛题),白云机场客流量分析及预测(2016年赛题),新浪微博互动预测(2015年赛题)等。

面向人群:

在校学生、科研单位、互联网企业、创业团队等人员均可以个人或组队形式报名参赛,每组上限3人。

奖项设置:

根据每一季赛题以及数据提供方的不同,奖项设置略有不同,最高总奖池曾到达过38万。除了现金这种简单粗暴的奖励方式,天池还以优秀竞赛者(大多为高校在校学生)可以直接进入阿里巴巴集团终面、抵扣Udacity相关课程学费、赠送电脑手机等方式鼓励参赛者参与竞赛。

互惠双赢:

选手在虚拟机上的所有操作都是在阿里的眼皮底下进行的,所以对阿里而言,他们在不断吸收学习、集思广益着竞赛过程中创新的优质算法。对于学生而言而言,竞赛的过程本身就是不断学习进步的过程,巩固了自己的知识架构,同时也积累了做项目的能力,为将来的事业打下一定基础。

赛事主页:天池大数据竞赛_竞赛平台_海量数据_算法

2. 腾讯社交广告算法大赛

最新新势力 第一届大数据竞赛

简介:

由于腾讯才刚开始举办活动,相关的资料内容较少。但是第一届他们就把自己的核心数字广告业务作为竞赛的话题,可谓赚足眼球。根据官方的描述,社交广告算法大赛主要面向高校大学生,希望参赛者通过对腾讯最核心的数字广告业务中海量社交数据进行分析后,找到最有效的算法解决方案。

本次大赛从4.12开始至五月底均可接受报名。

面向人群:

只面向在校学生,公司或相关业内从业人员可参与比赛但暂不参与评奖。

奖项设置:

虽然是第一次举办大数据竞赛,但是腾讯相较阿里也不甘示弱,直接给出了一等奖30万RMB,二等奖10万RMB以及三等奖5万RMB的现金鼓励。同样,优秀的参赛者应征腾讯的工作岗位时也有绿色通道优待,免除笔试考核。

赛事主页:大赛主页 – T派

3.百 度

最学院派联合,打造最“大”数据竞赛

简介:

“十亿数据有多大?如果把人们每天读取与获得的文字信息按照A4纸的篇幅来计算,假设一个人一天的阅读量是20页,那么一个人平均每天从各类渠道中所总共可以获得大约20000字的信息量,那么十亿条文本数据则相当于一个人约2596年时间所获取的信息数量。”

不同于向社会开放的数据竞赛,BAT中的最后一家百度目前行事低调。唯一能找到的便是2015年与西安交大联合创办的“百度&西安交通大学大数据竞赛”,希望用十亿条数据实现学界和业界的资源共享。

专业数据竞赛平台

4.数据城堡(Data Castle)

最像Kaggle的数据竞赛平台

简介:

数据城堡的创始人,周涛,是成都电子科技大学教授,著名畅销书《大数据时代》译者。

数据城堡(Data Castle,以下简称DC)在2014年9月正式上线,在电子科大内引起巨大反响后,国内其他各个高校的学生也积极参与其中。DC和Kaggle十分相似,有各种各样的数据竞技比赛供选择。大家可以通过筛选自己感兴趣的话题,以个人或者团队的形式参赛,上传自己的代码并参与排行。奖励规则也与Kaggle相似,有现金作为直接激励,优秀参赛者也可能获得著名公司的数据岗位offer。作为专业数据竞赛平台,DC上比赛的数据量虽然不及天池,但他们仍然积极保持有持续的竞赛在展开。

赛题分类:

DC上竞赛题目的类型都和实际生活息息相关,大致可以分为三类:交通类,教育类,金融类。

  • 交通类:出租车GPS数据、楼盘数据、微博签到数据、交通事故数据、公交线路数据、运营商GPS数据、天府通打卡数据(成都的交通卡)等
  • 教育类:高校学生相关的生活消费数据、图书借阅数据、成绩数据、助学金数据、打卡门禁数据等
  • 金融:用户属性数据、用户浏览行为数据、银行流水数据、信用卡账单数据、招标数据、工商数据、成都市企业信息及分布数据。

DC亮点:

和Kaggle类似,DC上也有一个社区论坛,在那里大家可以交流自己写的code,交流技术问题或者认识一些志同道合的朋友。截止现在,DC共发起超过4万9千多个比赛,有超过3万个参赛者参加。

赛事主页:首页-DataCastle大数据竞赛平台


勇敢上传自身数据
寻求帮助

5.Talking Data

最大胆,数据上传到Kaggle网站并寻求在美业内人士帮助

简介:

2016年7月,由TalkingData主办的“全球算法大赛”于北京时间7月11日正式拉开帷幕,全球共有超过1600支队伍,约1900名选手报名参赛,总计进行了8450次提交,其中包含了超过1700次代码公开以及大量分析成果(kernel)的展示,奖金高达2万5千美金。

中国是全球最大的移动市场,每天有超过 5 亿台的移动智能终端被活跃使用。Talking Data作为中国最大的独立第三方移动数据服务平台,其拥有的人口属性可以说是最最重要的数据之一。将国内的数据直接上传于Kaggle,不仅是一个大胆的举动,也让参赛者能够有机会在全球数据科学最高水准平台与业内专业人士合作、交流、同台竞技。

数据应用学院也参加了本次竞赛,并在比赛中获得金牌一枚,银牌及铜牌若干!


其他平台

6.上海开放数据创新应用大赛(SODA)

最官方,由政府企业主办的开放类数据大赛

数据内容:

道路事故数据、犯罪统计数据、重点污染检测、实时雨量、水厂水质监测、食品抽检结果、餐饮处罚数据等民生类开放数据。

赛事主页:SODA上海开放数据创新应用大赛