Blog

Dec
01

以数据科学家或机器学习工程师的身份逐步构建数据管道

在面试或作为数据科学家时,我们经常被要求构建一个能够对连续流动数据执行机器学习预测的应用程序。我们的老板经常期望我们将按时交付结果,并使用机器学习和数据科学来生成这些高质量的预测。在本文中,我们将研究数据管道以及如何构建它们,并确保我们在构建机器学习预测方面做得还不错。本文将逐步介绍如何构建重要的数据管道。

By Zhang Bonnie | Blog
DETAIL
Nov
27

数据工程——Scala与Python的区别

这实际上取决于你想在数据工程中做什么以及你想在哪里工作。我同意SQL和Python是最重要的入门工具,它可以让你获得比Scala多得多的机会。Scala市场是一个由Spark主导的超级市场,这实际上是一个非常不愉快的工作。这些公司往往被迫在内部办公,因此云开发机会稀少。与Python相比,它并没有什么好处,除非你打算完全使用Scala SWE。

By Zhang Bonnie | Blog
DETAIL
Nov
24

【Python-数据科学】Pandas Basics速查表(2023)

Pandas library是Python中最强大有效的library之一。它基于NumPy构建,为 Python编程语言提供了易于使用的数据结构和数据分析工具。查看下面的内容,了解Pandas提供的各种功能和工具。Pandas数据结构、删除、排序&排名、检索Series/DataFrame信息、Dataframe统计、查询、函数应用、数据对齐、输入/输出。

By Zhang Bonnie | Blog
DETAIL
Nov
22

Google BigLake是Snowflake、Redshift & Co.的杀手吗?

由于大多数企业数据源存储在不同的数据孤岛中,如不同的云存储,数据平台等,利用这些数据的首要需求是数据湖(data lake)或数据湖仓(data lakehouse)。通过 BigLake,谷歌引入了一个引擎,其中可以将所有企业数据以及耦合数据源聚集在一起。这包括 Snowflake 等数据仓库技术,Tableau 等商业智能工具,以及 AWS 和 Azure 等公共云存储中最重要的内容。

By Zhang Bonnie | Blog
DETAIL
Nov
20

数据的特征选择技术

当数据集非常庞大时,我们很难建立模型。庞大的数据集需要大量的时间和强大的计算能力来工作,它们已然耗尽了模型所需要的一切。特征选择是一种方法,我们可以只选择重要或最有贡献的特征进行训练,同时所需的代价非常小或几乎不损失精度。

By Zhang Bonnie | Blog
DETAIL
Nov
11

程序员太卷,大家都在神秘“增高”

据北美为数不多擅长肢体延长术的外科医生Kevin Debiparshad博士透露,他的很多病人都是来自谷歌、亚马逊、微软和Meta等大公司的技术人员,且大多是男性。近些年来,整形在男性中似乎越来越普遍。《华盛顿邮报》2020年1月报道称,男性为了在事业上取得成功,开始进行各种各样的整容手术。

By Zhang Bonnie | Blog
DETAIL
Nov
09

数据/商业分析师求职,如何准备统计相关面试题?

今天我们来讨论一个话题:数据/商业分析师求职,如何准备统计相关面试题?统计问题在我们整个面试的过程中应该是非常基本的一个内容,包括在日常生活中也经常用到统计的知识。那么为什么商业分析师、数据分析师们需要统计知识?如何理解概率?什么是统计?统计的目的是什么?

By Zhang Bonnie | Blog
DETAIL
Nov
09

如何成为全栈数据科学家?

全栈数据科学家是一个独特的角色,他能够充当软件工程师,数据工程师,业务分析师,机器学习工程师和数据科学家的角色,操办所有的事务。这个人拥有多样化的技能,甚至超出了普通数据科学家的技能,并且可以成为公司管理数据科学项目整个生命周期的一站式服务。

By Zhang Bonnie | Blog
DETAIL