Blog

Dec
08

哪些特征工程技术改善了机器学习预测?

当涉及到机器学习时,人们可以做的事情是选择正确的特征,并删除那些对模型性能影响可忽略不计的特征,以改进ML模型预测。因此,选择正确的特征可能是数据科学家或机器学习工程师最重要的步骤之一,他们经常要做许多工作,尤其是构建那些能够分别在测试数据集上很好地泛化的复杂模型。

By Zhang Bonnie | Blog
DETAIL
Dec
06

使用Python和R的五个简单快捷的技巧——让你成为高效数据科学家

我最近的一个发现是许多数据科学家同时使用Python和R。在限定的一天内,大量的数据科学家在两种语言之间切换,这意味着需要通过提供如何更好地管理定期使用两种语言的技巧来填补数据科学教育的空白。本文我将介绍几个简单的技巧,这些技巧可以在不到10分钟的时间内作为日常工作的一部分来实现,它们也将帮助你成为一个在Python和R之间切换的更高效的数据科学家。

By Zhang Bonnie | Blog
DETAIL
Dec
02

使用SQL总结A/B实验结果

我曾在大大小小的科技公司做过应用程序、产品和营销A/B实验。虽然每个实验的特性和目标各不相同,但我为总结这些产品实验的结果而编写的SQL每次都是相同的。它们都是一种设计模式!建立一个用户级别的表,然后根据该表计算汇总指标。这种方法对我来说就像是第二天性,但我很惊讶的是我需要经常向其他开始做实验的人展示它,因为没有太多东西可以解释这种方法。所以我写了这本指南!

By Zhang Bonnie | Blog
DETAIL
Dec
02

关于开发Open-Source,我学到的6个教训!

Open-source(开放源码)这个概念棒呆了!通过将整个用户群的资源、技能和知识绑在一起,可以创造出我们作为个体做不出的软件,起到1加1大于2的效果,数据科学家会大量使用这种软件。它推动了许多技术的发展,并且有机会参与到这些技术的开发中。无论是作为作者、维护者还是开发者,Open-source领域的工作都非常艰巨!通过这篇文章,我分享了我在这个领域的一些经验,希望能帮助那些想要开发Open-source的人。

By Zhang Bonnie | Blog
DETAIL
Dec
01

认识Julia:数据科学的未来

作为一名数据爱好者,你可能听说过:Julia——“未来数据科学编程语言”。有人声称,Julia将在数据科学领域取代Python和R,因为它在性能、效率和易用性方面具有显著优势。在本文中,我们将研究Julia是什么,它的应用及它是否值得数据科学家去学习。

By Zhang Bonnie | Blog
DETAIL
Dec
01

以数据科学家或机器学习工程师的身份逐步构建数据管道

在面试或作为数据科学家时,我们经常被要求构建一个能够对连续流动数据执行机器学习预测的应用程序。我们的老板经常期望我们将按时交付结果,并使用机器学习和数据科学来生成这些高质量的预测。在本文中,我们将研究数据管道以及如何构建它们,并确保我们在构建机器学习预测方面做得还不错。本文将逐步介绍如何构建重要的数据管道。

By Zhang Bonnie | Blog
DETAIL
Nov
27

数据工程——Scala与Python的区别

这实际上取决于你想在数据工程中做什么以及你想在哪里工作。我同意SQL和Python是最重要的入门工具,它可以让你获得比Scala多得多的机会。Scala市场是一个由Spark主导的超级市场,这实际上是一个非常不愉快的工作。这些公司往往被迫在内部办公,因此云开发机会稀少。与Python相比,它并没有什么好处,除非你打算完全使用Scala SWE。

By Zhang Bonnie | Blog
DETAIL
Nov
24

【Python-数据科学】Pandas Basics速查表(2023)

Pandas library是Python中最强大有效的library之一。它基于NumPy构建,为 Python编程语言提供了易于使用的数据结构和数据分析工具。查看下面的内容,了解Pandas提供的各种功能和工具。Pandas数据结构、删除、排序&排名、检索Series/DataFrame信息、Dataframe统计、查询、函数应用、数据对齐、输入/输出。

By Zhang Bonnie | Blog
DETAIL