如何高效沟通:数据科学家与利益相关方的沟通指南
数据科学家与利益相关方的关系
利益相关方是指在项目或业务的决策或活动中拥有既得利益的任何人。他们可以是公司内部的同事,也可能是外部客户。
在公司中,当数据科学家参与某个项目时,他们从来不是独立工作的。项目的最终目标总是为商业服务。
例如,假如你作为数据科学家正在开发一个预测特定商业建筑能耗的模型,相关利益方可能包括:
- 业主/管理者
- 在现场工作的工程师
- 负责向客户交付成果的同事(如创建仪表板的软件工程师或BI分析师)
大多数利益相关方通常没有数据科学背景。他们可能是业务分析师、销售人员或工程师,对机器学习、人工智能和数据科学的理解程度各不相同。
即便如此,当项目需要数据科学解决方案时,这些“非技术”利益相关方在项目开发中也扮演着重要角色,因此你必须学会如何与他们高效合作。
这意味着,你需要掌握与非数据科学背景的利益相关方进行有效沟通的艺术。如果你想了解更多关于数据科学的相关内容,可以阅读以下这些文章:
所有数据科学家都应该知道的三个常见假设检验
如何开始自己的第一个数据科学项目?
导航数据驱动时代:为什么你需要掌握数据科学基础
数据科学家常见的13个统计错误,你有过吗?
明确问题和解决方案
有时,利益相关方会来找你,要求实现某个机器学习、人工智能或统计解决方案。作为数据科学家,你的任务是仔细分析数据,确定真正的问题,并判断是否需要数据科学的介入。
如果确实需要介入,那么你的任务就是与利益相关方/客户澄清业务需求,尽量多地了解他们的需求和期望,并开始制定解决方案的实施计划。
有时,你和你的数据科学团队会发现产品或系统中的某些问题,并判断机器学习是必需的。
无论你是如何确定某个问题需要数据科学解决方案,一旦你明确了目标和预期结果,你就需要设计一个实现这些目标的计划。这包括:
- 数据探索
- 问题诊断
- 模型选择
- 运行测试
你将在自己工作中测试各种模型和解决方案,最后得出哪个模型最适合解决某个问题的结论。
当你对ML解决方案充满信心时,便可以向利益相关方展示你的发现和建议。
提供背景信息
将问题置于业务背景中进行解释。阐述在该场景下使用机器学习、统计分析或人工智能的价值。
他们为什么需要关心?机器学习如何帮助他们解决以前无法解决的问题?
在介绍模型时,重点讲它的实际效益,而不是模型的工作原理。
谈谈你使用的模型。简单介绍它是什么、有什么作用,但不要深入讲解技术细节。
解释你选择该模型的原因,而不是其他类似模型。这个模型是否更适合你所处理的数据类型?(例如,如果你在处理时间序列数据,可能会使用ARIMA或LSTM,因为它们更适合处理时间序列。如果你正在处理含有多种外部变量(如温度、湿度)的数据集,可能会选择XGBoost模型,因为它可以更轻松地处理这些变量。)
讨论模型的限制与未来改进
你的模型是否性能出色但解释性差(如CNN、LSTM或其他神经网络)?
或者,你的模型是否具备高解释性(如线性回归),但因模型复杂度不高,可能面临欠拟合或预测准确性较低的问题?
客户可能会对“欠拟合”和“过拟合”这样的术语感到困惑。因此,除了解释模型的工作原理之外,你还需要简洁地向他们解释这些术语。
以下是我如何向客户解释过拟合与欠拟合:
“当我们训练模型时,除了要确保它学习训练数据中的模式外,还希望它能够预测未来的数据趋势。训练数据中通常存在噪声,并非所有数据点都与预测直接相关。当模型过于专注于训练数据中的噪声和异常值时,它可能只会预测过去的情况,失去对未来的泛化能力,这就是过拟合的情况。
欠拟合则是模型未能充分学习数据中的模式,因此在面对新数据时预测效果较差,过于笼统。”
请注意,我在解释时避免使用过于复杂的术语,如“偏差-方差权衡”或“训练集/测试集拆分”。
使用图表和图片也非常有帮助,能让利益相关方更直观地理解数据科学的概念。
让利益相关方参与讨论项目方向及模型改进是非常重要的。模型的第一版可能只是一个基础版本,用于证明概念。
与此同时,开始讨论如何在未来改进模型。你能否收集更多数据?是否可以添加更多特征?邀请利益相关方参与讨论,了解他们认为存在的障碍,或哪些变量可能影响模型预测,最终希望该模型实现哪些功能。
了解你的受众
根据听众的不同,你的解释深度应有所调整。你需要根据对方的角色、专业背景及其在项目中的参与程度调整你的表达方式。
对于业务或销售人员,可能没有必要深入解释“过拟合”,但工程师或分析师可能会对模型的机制及其潜在问题感兴趣。
因此,务必根据你的听众调整你的解释深度。如果听众背景混合,尽量平衡表达——只有在讨论需要时,才深入讲解技术概念。
给出提问和反馈的机会
利益相关方和非数据科学领域的人员通常对项目抱有很大的好奇心。他们可能会提出一些对你和你的同事来说显而易见的问题。对他们保持耐心,给他们机会提问,不要急于评判。
尽量以简明的方式回答他们的问题,避免产生更多的困惑。通常,这种解释就足够了:
“随机森林模型可以告诉我们哪些特征或变量对预测结果最为重要。当模型训练结束时,它会输出一个特征重要性排序,最重要的特征排在前列。这帮助我们理解哪些变量是关键的,哪些变量可以忽略。”
注意,我避免使用“分裂”、“信息增益”等技术细节。这样,当他们问为什么没有将“湿度”作为特征时,我们可以解释它在重要性排名中很低,并且移除它对模型性能没有显著影响。
结论
作为数据科学家,我们很容易陷入日常的技术术语和思维定势中。毕竟,这些问题是我们每天处理的内容,所以许多术语对我们而言是显而易见的。
然而,保持全面的视角,并用简单易懂的语言向他人解释这些概念,是成功合作并构建有效解决方案的关键。
感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/。
原文作者:Haden Pelletier
翻译作者:过儿
美工编辑:过儿
校对审稿:Jason
原文链接:https://towardsdatascience.com/a-data-scientists-guide-to-stakeholders-ed81b573e6be