如何从0开始领导数据科学项目

如何从0开始领导数据科学项目

虽然也许你也作为实习生或团队中的工程师,多次执行过相同的步骤,但如果你是刚开始领导数据科学项目,那你仍然会遇到很多问题。

在领导一个项目时,你需要从大局看,是什么能让你的项目成为一个好的产品。一个让你顾客渴望万分的产品。

为了为你即将到来的项目领导角色提供蓝图,以下是每个数据科学项目从头开始的共同点。如果你想了解更多数据分析相关内容,可以阅读以下这些文章:
数据科学家秋招上岸的六个技巧
数据科学家求职必备编程技巧
四个数据科学求职者的常见失误
跟数据科学家相比,数据工程师更需要哪些技能?

1 想法

首先,建立一个可以真实落地的项目组合。因为项目创意可能来自无数个地方,所以这部分在实际操控时要困难一些。

我们是不可能提前预见所有障碍,并确定能有效地启动项目的。我们可以从接受这种不确定性开始入手,启动一个迫切需要的项目。

以下问题,会非常有助于你的POI:

  • 你的客户一直想要的东西。
  • 你的客户能从项目中受益,但是他们自己还不知道。
  • 由于信息的缺失,出现了哪些问题?
  • 哪里有现成但难以发现的数据?
  • 消除一个问题后,这个问题在其他10个领域引起蝴蝶效应。

这些通常是会有众多问题的项目领域。

请记住,项目并不总是必须“将特斯拉送进太空”这种大事。有时,发现一个以前不为人知的列表同样会引起意想不到的效果。

尊重微小的胜利,因为它们通常会带来更大的胜利。

2 数据收集

实践出真知。真实世界的数据不是 Kaggle里那种清理干净过的。只有花足够的时间,才能确定所有信息来源。

确认你是否需要额外的硬件。实际数据收集可能需要一个月到几年的时间,具体取决于项目的复杂性,和记录的可用性。一些数据可能是手动记录的(门票、评论等)。不要忽视这些来源。

在机器学习或人工智能项目中,一个额外的优点是,你可以用人工信息来扩充你收集的数据。看看你是否可以根据你的需要使用开源图像、生成自己的数据集、处理现有数据、并使用更多信息来扩充数据集。

3 数据清洗

这一步就像是数据处理的潘多拉魔盒,打开它吧。

清理清除数据集中不需要的信息,并确保你拿到的是你应该查看的内容。

清理数据集后,可用数据可能比原始数据集少得多。可以提前准备好重新构建你的问题,才能适用于你的干净数据。

数据清洗的一个重要方面是人。庞大的数据集和计算能力只是过去几十年的事情,但几个世纪以来,人们一直在处理系统和数据。

与每个人沟通,了解他们在系统中的作用。获取所有有价值的信息,并增加你对系统的了解。

4 探索性数据分析

生成你的客户可以立即理解的数据总结。可以浓缩,分析和解释含义,并与各方讨论你的见解。

了解你参数之间的关系,删除错误记录、异常,并在每一层分析中都获得洞察力。同时,可以区分分类数据和连续数据,并相应地处理它们。

你可以根据你的数据是分类数据还是连续数据,选择一种方法来构建模型。并且需要检查中心趋势和变异性(平均值、中位数、众数、标准差、范围等),汇总和可视化你的数据,识别频率、季节性趋势、百分比等。

你可能会意外的发现,你在可视化和压缩数据方面的最基本发现,会让许多行业专家感到惊讶。

5 搭建模型


在选择数据和功能后,你需要了解所处理内容的基本性质,然后进入创建模型的阶段。

你想执行回归、分类、聚类,还是预测?你有多少数据?它的性质是什么(分类的、连续的)?根据你对这些问题的回答,你会选择一个模型。实际上,你可以同时选择多个模型。

你需要注意你的数据是否是线性可分的,你的目标变量是什么等等。你可以选择执行线性回归、逻辑回归、聚类模型,如随机森林、K-means、神经网络等。

根据你的模型指标、你的计算能力、以及对预测或洞察力的需求,从你的实验中选择一个模型。然后,使用更多数据来验证你的模型,也可以用数据收集过程结束后新收集的数据。

如果你要使用机器学习,请确认你的结果是否具有概括性。

6 生产

找到正确的模型、超参数集并且确定模型有效以后,你就要开始部署这个项目模型。

在部署项目时,你应该考虑它会如何扩展,以及如何为你的顾客提供良好的用户界面。

要部署你的模型,并使其广泛使用,你可能需要创建一个 Web 应用程序,让你可以向它发送和接收请求。或者,你也可以保存模型,并让你的用户通过使用这个模型来预测他们的数据。

你可以在 Django、flask、shiny 或 dash 等 Web 应用程序框架中实现你的模型。为了达到可扩展性,许多大公司会使用 AWS 或 Azure 等服务来大规模部署机器学习模型。

这是对你下一个大数据科学项目的快速总结。你有不同的做法和建议吗?

原文作者:Sruthi Korlakunta
翻译作者:Peter Mei
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://towardsdatascience.com/leading-a-data-science-project-from-scratch-af66670f3e6a