数据科学

Feb
13

在开始数据科学项目之前,你要问自己这几个基本问题

通常,当我们谈论数据科学项目时,虽然都会设计收集数据、分析、和呈现结果,但很少有人能够对整个过程的进展做出可靠的定义。 在这篇文章中,我分解了一系列问题框架,包括项目目标是什么、为什么要完成该项目、以及该项目如何受益于最终客户等,带你重新理清做项目的思路。

By Zhang Bonnie | Blog
DETAIL
Feb
07

带你了解什么是Covariance Matrix协方差矩阵

线性代数(Linear Algebra)是机器学习的基础之一,被认为是“数据中的数学知识”。虽然我个人非常喜欢线性代数中的大多数知识,但有些概念在一开始会很难掌握。然而,协方差矩阵(Covariance Matrix)改变了这种现况。协方差和相关性的概念体现了线性代数中的某些知识。接下来,我们将学习什么是协方差矩阵,如何运算协方差矩阵及其具体操作。

By Zhang Bonnie | Blog
DETAIL
Feb
06

揭秘 10 大数据科学术语(面试中最常见问题)

入门数据科学可能会让人不知所措,你需要掌握的各种概念和技术,才能有效地完成工作时。 即使是“数据科学”这个词也可能有点模糊,随着该领域的普及,它似乎失去了定义。数据科学中流行着很多术语,了解这些术语很重要,因为它们经常出现在数据科学工作面试中。本文将介绍十大数据科学术语。

By Zhang Bonnie | Blog
DETAIL
Feb
02

从头开始实现Naive Bayesian朴素贝叶斯

朴素贝叶斯(naive Bayes)分类器是一种用贝叶斯定理,从而对对象进行分类的算法。此模型易于构建,对于非常大的数据集特别有用。 除了简单之外,众所周知,朴素贝叶斯的效果甚至优于高度复杂的分类方法。如果你有涉猎过机器学习,那你一定听说过这个模型。在本文中,我们将用Python和NumPy一步一步地从零开始实现朴素贝叶斯分类器。

By Zhang Bonnie | Blog
DETAIL
Jan
26

我总结了2021年,人们对于数据科学的几个误解

数据科学家(Data Scientist)作为21世纪最酷的工作,很多入行的同学对公司和职位本身的期待非常大。但可能因为对一些行业的不解,导致入行后的一些压力和失落感。本文将从我的个人经历出发,讨论你可能也遇到过五个误解,比如工作时只查看模型误差和准确度,以及忽视SQL的重要性等等真实情况。

By Zhang Bonnie | Blog
DETAIL
Jan
12

如何征服数据科学面试中的Python编程考试

数据科学是一门技术学科。 数据科学工作的大部分涉及收集、清理数据并将其处理为可用格式。很多数据科学项目都是高度协作的,涉及多个利益相关者。 因此,要完成工作,必须具备基本的编程能力。编程已成为数据科学面试中不可或缺的一部分。通过本文,我想通过分享最近遇到的各种代码面试和问题,帮你战胜自己内心的恐惧。

By Zhang Bonnie | Blog
DETAIL
Jan
10

红酒数据集Case Study:一个分类问题

本文以一个红酒的Case Study为例,为你讲解数据分析中的分类问题。我们的目标是找到一个设计模型,根据提供的13个测量参数,预测红酒品种,并找出他们之间的主要差异。这是一个分类问题,而本文会列举四种模型,并评估每个模型的准确性。此外,我还会使用主成分分析,识别并探索三种红酒之间的差异。

By Zhang Bonnie | Blog
DETAIL
Dec
21

用数据科学技术,分析用户产品倾向

在所有商业营销策略中,公司的首要任务始终是为产品吸引正确的受众群体,从而提高销售额、降低营销费用。建模可以让数据科学家利用购买交易、调查和产品评论的大量消费者数据来找出描述、规定和预测消费者选择行为的模型,从而使企业能够制定更好的策略。本文将介绍如何运用数据科学方法,分析用户的产品选择倾向。

By Zhang Bonnie | Blog
DETAIL