Blog

Aug
12

为什么Kubernetes在数据工程中火起来了?

Kubernetes,也被称为 K8s,是一个用于自动化部署、扩展和管理容器化应用程序的开源系统,它把构成应用程序的容器分为逻辑单元,便于管理和发现。也可以帮助用户省去应用容器化过程的许多手动部署和扩展操作,是一个理想的托管平台。 本文中,我们会详解Kubernetes以及类似容器编排平台的特性,带你了解它的使用方法和应用环境。

By Zhang Bonnie | Blog
DETAIL
Aug
12

数据工程师面试最全指南

无论你是大数据领域的新手,希望开始数据工程生涯,还是经验丰富的数据工程师,正在寻找新机会,即将到来的面试都可能会让你不知所措。 鉴于目前这个市场的竞争激烈,你最好为面试做好准备。 本文介绍了你可能会遇到的一些数据工程师面试问题,设计到的领域,以及如何去思考和准备面试,带你全方位准备数据工程面试。

By Zhang Bonnie | Blog
DETAIL
Aug
07

跟数据科学家相比,数据工程师更需要哪些技能?

数据工程(Data Engineer)是设计和构建用于大规模收集、存储和分析数据的系统的实践。 它几乎适用于每个行业。 企业有着大量的数据,他们需要数据工程师们来让数据在到达数据科学家或分析师手中时处于高度可用的状态。本文将以数据科学家为标尺,详细介绍数据工程师所有工作和技能要求与之对比的区别和相似之处。

By Zhang Bonnie | Blog
DETAIL
Aug
07

数据科学家和数据工程师求职的5大区别

数据科学相关岗位种类繁多,所负责的职务有时又有所穿插。简单来说,数据工程师构建和维护让数据科学家访问和解释数据的系统。而数据科学家使用经过清理的数据构建和训练预测模型。但他们直接的区别远远不止如此。本文从多方面的角度分析比较了DE和DS两个职位的差异,带你更清楚地理解他们有什么不同。

By Zhang Bonnie | Blog
DETAIL
Aug
03

2021 Data Engineer求职必备技能

数据工程师(Data Engineer)在各种环境中工作,以构建收集、管理原始数据、并将其转换为可供数据科学家和业务分析师解释的可用信息的系统。 他们的最终目标,是使数据可访问,以便组织可以使用它来评估和优化其绩效。由于数据相关的职位众多,让很多想进入数据领域的人摸不清方向,本文将详细介绍数据工程师必备的职业技能。

By Zhang Bonnie | Blog
DETAIL
Aug
03

Apache Spark——一个灵活的数据处理框架

多年来,Hadoop 一直是大数据领域无可争议的领头羊——直到 Spark的 出现。自 2014 年首次发布以来,Apache Spark 一直在点燃大数据世界。 凭借 Spark 便捷的 API 和承诺的比 Hadoop MapReduce 快 100 倍的速度,一些分析师认为 Spark 标志着大数据新时代的到来。本文将为你介绍这两个大数据处理框架,并展开讨论Apache Spark的具体优势。

By Zhang Bonnie | Blog
DETAIL
Aug
01

Spark/Hadoop/MapReduce入门101

Apache Spark是用于大规模数据处理的统一分析引擎,是现如今非常流行的通用集群计算系统。它提供了 Java、Scala、Python 和 R 中的高级 API,以及支持通用执行图像的优化引擎,有便于使用、可以在多个平台上运行的特点,结合了 SQL、数据流和复杂分析。本文介绍了Apache Spark的必备知识,同时介绍了与之相关的MapReduce和Hadoop,带你快速入门Spark基础知识!

By Zhang Bonnie | Blog
DETAIL
Jul
31

Python时间模块四大必备知识点

Python是数据分析常见工具。处理日期和时间是分析过程中最重要的挑战之一。而Python内置的 各个模块可以通过多种方式处理日期和时间,帮助人们管理日期和时间的复杂性质。在本文中,我们会带大家了解Python和时间相关的模块中的4个对象,即date、time、datetime和timedelta,通过具体示例,让你更容易理解他们的用法和场景。

By Zhang Bonnie | Blog
DETAIL