在开始数据科学项目之前,你要问自己这几个基本问题

在开始数据科学项目之前,你要问自己这几个基本问题

在项目开始之前,提出问题是非常重要的,可以帮助你了解接下来几周、甚至几个月你要做什么。

例如,例如,项目目标是什么、为什么要完成该项目、以及该项目如何受益于最终客户等,这些问题对于推动项目成功、明确问题来说是必不可少的。如果你想了解更多数据分析相关内容,可以阅读以下这些文章:
2022年数据科学还会继续火吗?Data Scientist 的求职展望
数据科学面试中,你需要问你的雇主这 5 个问题
揭秘 10 大数据科学术语(面试中最常见问题)
我总结了2021年,人们对于数据科学的几个误解

图源:Unsplash 摄影:Towfiqu barbhuiya

以下是你在数据科学项目开始之前应该问的问题:

1. 谁是客户,客户属于哪个业务领域?

了解客户所在的业务领域、运营方式、对他们来说什么是最重要的,以及哪些指标可以用于定义客户在该领域成功与否,这些问题能够帮助你确定解决方案的内容,直接影响对客户来说最重要的领域。

2. 我们要解决哪些业务问题?

《预测数据分析的机器学习基础( Fundamentals of Machine Learning For Predictive Data Analytics)》一书很好地解释了这一点:

公司存在的意义不是为了进行预测数据分析,而是为了赚更多的钱、拉拢新客户、售出更多产品、或减少欺诈造成的损失。不幸的是,我们可以构建的预测分析模型无法实现这些目标。分析模型只是基于从历史数据集中提取的模式进行预测。这些预测不能解决业务问题;但是,这些模型所提供的见解有助于公司做出更好的决策,从而解决业务问题。

因此,在所有数据分析项目中,关键是要了解公司想要解决的业务问题,并在此基础上确定预测分析模型可以提供的见解,帮助公司解决该问题。这也明确了分析师使用机器学习构建的分析解决方案。

如果你的公司的目标是降低客户流失率,可用的解决方案是建立一个预测模型,确定哪些客户在不久的将来最有可能流失。

3. 客户要如何使用该模型?

了解客户使用模型输出的方式,可以帮助你创建有针对性的模型。例如,是在构建服务于内部客户,并影响公司战略的模型?还是构建面向客户的模型?

4. 项目的经济效益如何?

为项目投入资金是最困难的事情之一。但是,了解数据产品将如何为客户增加收入、或降低成本,可以帮助你在整个项目中获得领导层的支持。

5. 数据科学功能将推动哪些类型的决策?

你要建立哪种模型,可以帮助公司实现哪些之前未实现的事情?

6. 哪些指标将用于定义项目成功与否,以及如何评估?

明确一个目标,可以确保项目有最终结果,可以避免无限期把时间都耗在项目上。量化指标值的改进对客户场景有益(例如,将劳动力成本降低 20%)。指标必须是 SMART(具体Specific、可衡量Measurable、可实现Achievable、相关Relevant且有时限Time-bound)。例如:在为期 3 个月的项目结束时,达到20% 的客户流失预测准确率,这样我们就可以开展促销活动,减少客户流失。

想象一下数据科学家(DS)和产品经理(PM)之间的一场对话,内容是在应用程序中引入一个新的ML功能,目的是更了解仓库操作。假设产品经理对仓库空间了如指掌,并且已经想好了一个功能。

DS:我认为客户 ABC 正在面临一些问题。你能帮我弄清楚问题是什么吗?

PM:当然。ABC 一直在努力实现公司的每日订单目标。

DS:什么是每日订单目标?

PM:仓库通常在一天开始时设定一个订单目标,试图在一天结束之前发货。例如,在一天开始时,仓库中的操作员会设定一些订单目标,例如 45000 个订单,他们需要在一天结束之前出货。

DS:明白了!为什么实现这一日常目标对客户来说很重要?

PM:好问题。没有达到公司当日订单目标也就意味着不能按时交付给客户,这可能会导致额外的支持成本、声誉受损、以及客户流失。为了方便客户查看,我建议在应用程序中发布一项机器学习功能,帮助我客户更好地了解他们是否能够根据当前表现实现当日订单目标。

DS:我明白了。为什么你认为这个功能对客户有用?这将推动哪些类型的决策?

PM:好问题。最重要的用例之一是,该功能可以帮助仓库操作员尽早相应地分配劳动力。例如,如果我们预计当天发货的订单低于客户每日目标,他们可以增加工人数量,加速运送物品。因此,该功能有助于更有效地进行日常运营。

DS:客户如何使用该模型?

图片由作者提供

PM:让我共享一下我的屏幕。客户将能够在我们的应用程序中看到这个功能。我的假设如下:蓝色实线显示客户到现在为止已经发货的订单数量;绿色虚线则是我们的模型生成的预测数量;而红色实线是客户今天的目标。

DS:啊,视觉效果不错,看得一清二楚。所以该功能具有实时性,每小时都可以更新当天生成的预测结果?

PM:是的。

DS:另一个问题:客户目前使用的是哪个模型,该指标的基线(当前)值是多少?

PM:他们目前没有使用任何模型,这就是为什么我们要用这个功能视觉化所有操作。

DS:该项目的经济效益怎样?成功的标准是什么?

PM:好问题。如果我们的预测在这 2 个月期间的平均绝对误差小于 30%,我们可以称该项目的第一阶段已完成。至于经济效益,我粗略估计,该功能还可以让帮助客户优化资源规划和分配决策,从而减少对劳动力的依赖,降低 30% 的成本。我还需调查一下,计算一些数字,才能得知确切的经济效益金额。

DS:啊,这个功能似乎可以帮助客户提高部门效率。我会检查一下数据,然后收集所有信息,并就如何进行该项目制定一个粗略的计划,分享给你和团队,从而获得反馈。

PM:太棒了!谢谢。

结语

Lak Ananth 在他的《预期失败(Anticipate Failure)》一书中指出:“所有业务都要始于问题所在,解决方案,以及为什么一定要开展该业务”。同样,数据科学项目必须从我们试图解决的客户问题是什么、为什么要解决该问题,以及该业务会产生怎样的影响等假设开始。

感谢你的阅读!你还可以订阅我们的YouTube频道,观看大量数据科学相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Shahwaiz Punjwani
翻译作者:Lia
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://towardsdatascience.com/essential-questions-to-ask-before-starting-a-data-science-project-cd633dcd9d55