大数据SDE求职集训营

2019年3月2日开课，报名即将截止！欢迎联系咨询！

课程特色

课程大纲（阶段一）

第零周: Jave编程基础与巩固，常见算法梳理总结（送）

Java快速入门，复习，巩固

Eclipse IDE环境配置

常见算法梳理总结，数据结构基础剖析

第⼀周: Big Data Introduction & HDFS

Big Data 在业界的发展现状，⼤数据⼯程师Skill Set

Hadoop Ecosystem，业界⼴泛使⽤的系统架构

Cluster环境、个⼈开发环境的搭建

HDFS介绍，常⽤command line练习

Course Exercise 1: Cluster Deployment & Practice with HDFS

第⼆周: MapReduce & Design Pattern

MapReduce 知识脉络梳理

MapReduce 项⽬开发流程，例⼦讲解

MapReduce ⼯程 Design Pattern 介绍

Course Exerise 2: 10 ETL Examples of MapReduce Design Pattern

第三周: Hive Introduction & HiveQL language

Hive结构、⼯作原理介绍

HiveQL语法、操作介绍

Course Exercise 3: Data Processing using Hive

第四周: Pig Introduction & Pig Latin Language

Apache Pig 知识点讲解

Pig Latin 语法介绍

Pig 在 ETL 中的应⽤

Course Exercise 4: Data Ingestion using Pig

第五周: Storm & Kafka

Storm 知识框架介绍

Storm Code Demo详解

Kafka 介绍和开发部署

Course Exercise 5: Real-time system using Storm & Kafka

第六周: HBase Introduction

HBase Table 概念介绍

HBase Query 实践练习

Course Exercise 6: Storm works with HBase

第七周: Spark Introduction

Spark RDD 基础知识

RDD operations & transformation

Partition and shuffles

Spark Streaming

Course Exercise 7: Streaming Processing with Spark

第⼋周： Spark Machine Learning

Learn to use MLlib

图形计算

GraphX

Course Exercise 8: Machine Learning using Spark

阶段二：八周项目实践

项目概述

课程涉及项目，均由Data Application Lab原创设计，由多位工业级资深工程师和我们的老师TA一起编写，基于实际数据集和往期学员经验，历时2年时间打磨，打造专门适合学习的大数据编程项目。

在最后8周的项目实战训练阶段，学员将会在老师和TA的细心带领下, 完成2个基于时下国际流行的大数据Lambda构架综合性工业级大数据项目。在此过程中, 学员将会学习系统构架方面专业知识，完成系统设计，获得项目管理经验，实际动手从coding到完成整个项目。项目不仅会用到我们自己的Hadoop服务器群，同时会涉及到本地调试以及时下流行的AWS云端过程。项目经验，一定会让学员们在简历删选过程中脱引而出，也会在面试中为学员综合表现增添亮点。

项目难度

项目整体偏难，涉及的领域和新技术较多。每周需花费多天时间刻苦专研学习。

项目涉及Java, Python, Network知识，全面的大数据构架知识，云端平台知识，以及我们课程中的算法和实时系统等知识

项目背景(Lambda Architecture)

Lambda架构是由Storm的作者Nathan Marz提出的一个实时大数据处理框架。Marz在Twitter工作期间开发了著名的实时大数据处理框架Storm，Lambda架构是其根据多年进行分布式大数据系统的经验总结提炼而成。 Lambda架构的目标是设计出一个能满足实时大数据系统关键特性的架构，包括有：高容错、低延时和可扩展等。Lambda架构整合离线计算和实时计算，融合不可变性（Immunability），读写分离和复杂性隔离等一系列架构原则，可集成Hadoop，Kafka，Storm，Spark，Hbase等各类大数据组件。

项目一：人工智能AI游戏推荐项目实践

※ 编写复杂多线程网络爬虫抓取多个站点数据（Crawler）
※ 设计和建立分布式数据库，存放海量抓取数据（Hive）
※ 使用机器学习（Machine Learning）相关知识建立数据Model（Recommendation System）
※ Full Stack开发，从前端网页展示到后台实现（Front-end & Back-end）
※ 使用AWS云平台搭建Spark系统处理大数据（Cloud Computing）

项目二：金融大数据实时流处理系统

※ 基于实际真实数据，了解和体会Lambda构架的优势
※ 消息分发系统设计，数据库设计和优化
※ 练习和设计使用复杂API，实现数据整合
※ 编写并在试题大数据服务器集群上运行Cluster Mode（非单片机VM single node）的Kafka, Storm金融数据流处理
※ HBase处理和存储
※ 综合理解和实践大数据Spark Steaming系统构架设计

常见问题

我是转专业的学生，基础不是很好，是否适合这门课？

不必担心，我们本期课程，特意为基础薄弱和转专业的同学，专门开设了Java的编程教学，零基础手把手教会大家写代码，debug。算法教学也是从简到难，从浅到深，一步步教会大家如何思考，如何解题。还有任劳任怨的助教全程为学员们答疑解惑。每节课后分享给学员们课程的录像视频，方便大家课后复习。

我是CS科班学生，自己有刷过题，还需要培训吗？

很多科班出身的同学，LeetCode几乎刷了个遍，但是依旧拿不到offer。换个角度想，公司想招的是能力强的员工，而不是只会刷题的员工。所以提高我们得综合实力，才是拿到offer的关键。本期集训营，我们不仅为学员们安排了java基础课，算法精讲课，还开设了10周的大数据课程，以及4周的实战项目训练。整个课程下来，学员们不仅能获得扎实的算法解题能力，还会获得系统设计方面的实战训练，为简历和面试增添亮点。

我人在东部，不知道能不能上课？

完全不用担心，我们上课全程使用网络会议直播的形式，无论您身处何处，只要能上网就不耽误上课。即使因为其他原因错过了某次课也不用担心，我们课后会将课程视频录像整理出来发给每个学员，方便大家课后复习。

如果跟不上进度，可以重听下一期课程吗？

欢迎电话咨询详情

怎样可以算是Early Bird，可以拿到折扣价？