2019年3月2日开课,报名即将截止!欢迎联系咨询!

课程特色

课程大纲(阶段一)

第零周: Jave编程基础与巩固, 常见算法梳理总结 (送)

Java快速入门, 复习,巩固

Eclipse IDE环境配置

常见算法梳理总结,数据结构基础剖析

第⼀周: Big Data Introduction & HDFS

Big Data 在业界的发展现状,⼤数据⼯程师Skill Set

Hadoop Ecosystem,业界⼴泛使⽤的系统架构

Cluster环境、个⼈开发环境的搭建

HDFS介绍,常⽤command line练习

Course Exercise 1: Cluster Deployment & Practice with HDFS

第⼆周: MapReduce & Design Pattern

MapReduce 知识脉络梳理

MapReduce 项⽬开发流程, 例⼦讲解

MapReduce ⼯程 Design Pattern 介绍

Course Exerise 2: 10 ETL Examples of MapReduce Design Pattern

第三周: Hive Introduction & HiveQL language

Hive结构、⼯作原理介绍

HiveQL语法、操作介绍

Course Exercise 3: Data Processing using Hive

第四周: Pig Introduction & Pig Latin Language

Apache Pig 知识点讲解

Pig Latin 语法介绍

Pig 在 ETL 中的应⽤

Course Exercise 4: Data Ingestion using Pig

第五周: Storm & Kafka

Storm 知识框架介绍

Storm Code Demo详解

Kafka 介绍和开发部署

Course Exercise 5: Real-time system using Storm & Kafka

第六周: HBase Introduction

HBase Table 概念介绍

HBase Query 实践练习

Course Exercise 6: Storm works with HBase

第七周: Spark Introduction

Spark RDD 基础知识

RDD operations & transformation

Partition and shuffles

Spark Streaming

Course Exercise 7: Streaming Processing with Spark

第⼋周: Spark Machine Learning

Learn to use MLlib

图形计算

GraphX

Course Exercise 8: Machine Learning using Spark

阶段二:八周项目实践

项目概述

课程涉及项目,均由Data Application Lab原创设计,由多位工业级资深工程师和我们的老师TA一起编写,基于实际数据集和往期学员经验,历时2年时间打磨,打造专门适合学习的大数据编程项目。
在最后8周的项目实战训练阶段,学员将会在老师和TA的细心带领下, 完成2个基于时下国际流行的大数据Lambda构架综合性工业级大数据项目。 在此过程中, 学员将会学习系统构架方面专业知识,完成系统设计,获得项目管理经验,实际动手从coding到完成整个项目。 项目不仅会用到我们自己的Hadoop服务器群, 同时会涉及到本地调试以及时下流行的AWS云端过程。项目经验,一定会让学员们在简历删选过程中脱引而出,也会在面试中为学员综合表现增添亮点。

项目难度

项目整体偏难,涉及的领域和新技术较多。每周需花费多天时间刻苦专研学习。
项目涉及Java, Python, Network知识,全面的大数据构架知识,云端平台知识,以及我们课程中的算法和实时系统等知识

项目背景(Lambda Architecture)

Lambda架构是由Storm的作者Nathan Marz提出的一个实时大数据处理框架。Marz在Twitter工作期间开发了著名的实时大数据处理框架Storm,Lambda架构是其根据多年进行分布式大数据系统的经验总结提炼而成。 Lambda架构的目标是设计出一个能满足实时大数据系统关键特性的架构,包括有:高容错、低延时和可扩展等。Lambda架构整合离线计算和实时计算,融合不可变性(Immunability),读写分离和复杂性隔离等一系列架构原则,可集成Hadoop,Kafka,Storm,Spark,Hbase等各类大数据组件。

  项目一:人工智能AI游戏推荐项目实践

  • ※ 编写复杂多线程网络爬虫抓取多个站点数据(Crawler)
  • ※ 设计和建立分布式数据库,存放海量抓取数据(Hive)
  • ※ 使用机器学习(Machine Learning)相关知识建立数据Model(Recommendation System)
  • ※ Full Stack开发,从前端网页展示到后台实现(Front-end & Back-end)
  • ※ 使用AWS云平台搭建Spark系统处理大数据(Cloud Computing)

  项目二:金融大数据实时流处理系统

  • ※ 基于实际真实数据,了解和体会Lambda构架的优势
  • ※ 消息分发系统设计,数据库设计和优化
  • ※ 练习和设计使用复杂API,实现数据整合
  • ※ 编写并在试题大数据服务器集群上运行Cluster Mode(非单片机VM single node)的Kafka, Storm金融数据流处理
  • ※ HBase处理和存储
  • ※ 综合理解和实践大数据Spark Steaming系统构架设计

常见问题

我是转专业的学生,基础不是很好,是否适合这门课?

不必担心,我们本期课程,特意为基础薄弱和转专业的同学,专门开设了Java的编程教学,零基础手把手教会大家写代码,debug。算法教学也是从简到难,从浅到深,一步步教会大家如何思考,如何解题。还有任劳任怨的助教全程为学员们答疑解惑。每节课后分享给学员们课程的录像视频,方便大家课后复习。

我是CS科班学生,自己有刷过题,还需要培训吗?

很多科班出身的同学,LeetCode几乎刷了个遍,但是依旧拿不到offer。换个角度想,公司想招的是能力强的员工,而不是只会刷题的员工。所以提高我们得综合实力,才是拿到offer的关键。本期集训营,我们不仅为学员们安排了java基础课,算法精讲课,还开设了10周的大数据课程,以及4周的实战项目训练。整个课程下来,学员们不仅能获得扎实的算法解题能力,还会获得系统设计方面的实战训练,为简历和面试增添亮点。

我人在东部,不知道能不能上课?

完全不用担心,我们上课全程使用网络会议直播的形式,无论您身处何处,只要能上网就不耽误上课。即使因为其他原因错过了某次课也不用担心,我们课后会将课程视频录像整理出来发给每个学员,方便大家课后复习。

如果跟不上进度,可以重听下一期课程吗?

欢迎电话咨询详情

怎样可以算是Early Bird,可以拿到折扣价?

欢迎电话咨询详情

报名流程

1. 在线提交申请 2. 导师1对1咨询 3. 完成报名 4. 参加培训

免费预约老师一对一课程咨询!

一起走进新数据时代最高薪的职业,大数据软件工程师!