如何管理大规模数据科学项目

如何管理大规模数据科学项目

管理大型数据科学和机器学习项目充满挑战,因为它们与传统的软件工程存在显著差异。我们的目标是从数据中发现模式,而非编写明确的代码,因此会涉及更多的不确定性。这种不确定性可能引发以下问题:

  • 利益相关者的期望过高,难以实现
  • 项目时间可能远超预期

机器学习项目的不确定性通常是项目挫折的主要来源,尤其在项目规模较大时,利益相关者的期望也会随之增高。如此一来,挫折感容易被放大,对团队和组织的影响也会加剧。

这篇文章基于我在DareData管理大规模数据科学项目的经验总结。在这些项目中,我有幸与不同领域的团队合作,这些团队的才华和努力促成了我的成长和成功。通过他们的支持,我总结了以下建议,并希望这些建议对你有所帮助。如果你想了解更多关于数据科学的相关内容,可以阅读以下这些文章:
所有数据科学家都应该知道的三个常见假设检验
如何开始自己的第一个数据科学项目?
导航数据驱动时代:为什么你需要掌握数据科学基础
数据科学家常见的13个统计错误,你有过吗?

在项目中,区分概念至关重要,特别是AI、ML和数据科学的术语在媒体报道中常被混淆。很多人会不自觉地混用这些词汇(这无可厚非)

对每个利益相关者来说,重要的是要清楚他们的项目是否涉及机器学习。有些项目属于“数据科学”的范畴,但不涉及预测功能。这样的项目通常更易管理,不确定性较少。

我通常将项目分为以下几类:

  • 分析型项目:主要分析当前或历史数据,提供可操作的洞察。重点在于理解数据中的趋势或模式,常见的例子包括报告生成和商业智能(BI)系统。
  • 因果统计项目:看似机器学习项目,实则不同,基于统计假设分析数据,而不是预测未来。典型的例子包括各种A/B测试或实验设计。
  • 机器学习或聚类项目:这是传统的机器学习项目,可能涉及监督学习、无监督学习或强化学习,或它们的组合。

我将生成式AI(GenAI)视为机器学习的一个子集,因为它涉及到预测和错误处理。与传统机器学习项目类似,它们需要相似的管理策略。

很多项目不仅局限于单一类型。例如,一个ML项目可能包括历史数据的展示以及预测结果的仪表板。尽管这些组合项目很有价值,但对利益相关者来说,重要的是了解预测通常伴随更多不确定性,也需要比分析历史数据更多的时间。

机器学习项目要求你能够很好地应对不确定性。

在生成式AI的炒作影响下,用户和利益相关者往往对AI系统的性能抱有非常高(甚至是不切实际的)期望。

因此,管理对算法速度和准确性的期望至关重要。在没有掌握足够数据的情况下,不要轻易承诺高精度、F-score或其他性能指标。

同样,评估公司系统的能力后,再决定是否承诺高速度。总之,避免过度承诺。

此外,明确机器学习项目的核心价值也很重要。你是在为降低成本的组织工作,还是在为增加销售和收入努力?将项目目标从技术性能转换为业务绩效,能够帮助目标更加明确。

这引出了下一个话题……

成功指标往往是项目中最重要的组成部分。

没有定义成功指标的机器学习项目不应启动。成功指标可以是预测速度、技术性能,还是成本节约?

对于利益相关者来说,更快和更准总是最好的。如果你在项目初期没有通过清晰的成功指标来管理期望,可能会导致利益相关者对ML系统期望过高,甚至认为它能提供100%的准确性。

成功指标的定义将成为你的有力工具。确保在项目开始时,与你的利益相关者达成一致,并记录下具体的绩效标准(无论是技术的还是业务的)

理想情况下,项目中的取舍应只专注于单一的成功指标。如果无法做到,可以建立一个成功指标的优先级层次结构,以便在必要时做出合理的取舍。

你了解自己所在组织在人工智能和数据科学领域的成熟度吗?数据科学家经常忽略自己所处的工作环境。

一些组织能够快速部署机器学习模型,而另一些则面临更多的挑战。有些组织遵循MLOps的最佳实践,而有些组织在追踪ML模型效果上遇到困难。这些差异对于项目的成功至关重要。

回答以下问题可以帮助你了解组织的成熟度:

  • 你有多少数据可供训练ML模型?如果需要更多特征数据,获取速度有多快?
  • 你将如何部署模型?
  • 模型是否会持续监控?还是需要定期重新训练?

要了解这些问题的答案,你需要熟悉组织内部的数据流程,与同事和领导沟通,确保组织的数据愿景与项目保持一致。

尽管许多组织在软件工程项目中应用了敏捷方法,但在机器学习环境中使用时需要格外谨慎。

例如,有研究比较了ML环境中的不同项目方法,得出结论:将敏捷与CRISP-DM(数据挖掘跨行业标准过程)结合,可能是一个很好的组合,可以取得积极的结果,并避免团队陷入困境。

根据我的经验,我发现ML项目在sprint计划和任务分配上通常需要一定的灵活性。在2到3周内没有重大突破是很正常的,有时任务可能会因为新发现而需要完全重新调整。如果不考虑这一点,团队可能会承受不合理的压力,导致项目交付质量下降,甚至解决的问题不符合利益相关者的预期。

这项研究详细解释了传统项目管理与AI工作流逻辑之间的内在冲突。下表(摘自该研究)突出了其中的一些关键差异。

团队管理与其说是科学,倒不如说更像是一门艺术。每个团队都有其独特的特点和细微差别。

在团队管理和领导方面,我给出的最重要建议是“经理需要制定计划”。你知道吗?当你被打断时,通常需要10到15分钟才能重新进入工作状态。如果任务高度复杂且需要集中精力,这个时间可能会更长。

尽量保护你的团队免受不必要的干扰,例如来自Teams或Slack的随机提醒,或者突然安排的经理会议。你的团队会因此感激你。这是我能给关于构建高效、愉快团队的最佳建议。

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Ivo Bernardo
翻译作者:过儿
美工编辑:过儿
校对审稿:Jason
原文链接:https://towardsdatascience.com/tips-on-how-to-manage-large-scale-data-science-projects-1511f4db3d01