如何明确和解决模糊的数据科学问题?

如何明确和解决模糊的数据科学问题?

在数据科学以及真正的科学领域中,需要解决的问题往往并不明确。明确和解决问题的培训是一个不断学习的过程,通常是通过经验获得的,但为了让你开始学习,我将在本文分享一些对明确和解决模糊的数据科学问题很有用的策略。

如果你想了解更多关于数据科学的相关内容,可以阅读以下这些文章:
构建数据科学管道的 4 个步骤
数据科学的核心三角是什么?
数据科学是如何变革Advertisement 广告行业的?
你必须知道的数据科学的可视化技术

当你阅读研究论文时,一般来说解决论文中的问题自然是该领域下一步,但事实往往并非如此,通常需要大量的创造力才能达到决定回答什么问题的地步。

许多公司拥有大型数据存储库,但不知道如何处理这些数据(也就是说,他们不知道应该问什么问题),但没关系!对于公司来说,他们可以雇佣一些可以在数据中发现价值的专家——数据科学家。

一个优秀的数据科学家能够在不确定的领域中轻松地工作,并能够明确和解决为公司带来价值的问题。明确和解决这类问题的培训是一个不断学习的过程,通常是通过经验获得的。

对我来说,我目前在工业界担任数据科学家,但在完成博士学位期间,我获得了在不确定领域工作的培训。我经常使用一位不再在大学工作的研究人员收集的数据集,而它要解决的问题往往并不是都很清楚。

尽管我认为最好通过经验来学习这些技能,但为了让你开始学习,我将在这里分享一些对明确和解决模糊的数据科学问题很有用的策略。

1 确定可以用数据科学解决的高影响问题

通常,在与企业合作时,数据科学家会帮助他们增加利润。如果解决了很多问题,可能会增加利润,但一天中只有几个小时,确定从数据科学中受益的高影响问题是有好处的。在尝试确定要解决的高影响问题时,我经常会向客户询问导致收入增加或成本降低的原因。

还有一些可能是通过构建推荐系统来增加销售额或优化分销工作流程从而降低成本的例子。这些应该在很多场景中探索和讨论,当然考虑问题的可行性也很重要,它可以在第 2 步发挥作用。

2 确定收集新数据的可用资源

确定一些候选问题后,下一步是确定解决问题的数据。这可能是公司已经拥有的数据,也可能是开源数据集(甚至是两者的组合!)

在某些情况下,最好收集新数据。根据收集的数据类型,使用Amazon Mechanical Turk等服务没有想象中的那么困难。即使数据不完善也可以。许多数据科学家在处理杂乱数据方面拥有丰富的经验,所以这对我们来说很常见。

此外,在第 4 步中,我将讨论如何随着时间的推移改进数据集。在回顾数据源后,下一步就是选择第一个目标问题!

3 解决问题

下一步就是解决问题!在我的大部分工作中都涉及到训练机器学习分类器,但训练模型通常只是解决方案中的一部分,意识到这一点是非常重要的。

相比于模型预测,模型解释往往是最重要的一步。例如,你可以训练一个模型来预测你是否可以留住一个客户,但仅凭预测是没有用的。你需要识别哪些特征可以改变客户的行为。这就是模型解释技术和运行模拟发挥作用的地方。我在之前的博客中进行了更详细的讨论。

4 迭代

根据问题的类型,即使在问题“解决”后,通常仍有更多的工作要做。首先,在第 2 步中,我提到你想要随着时间推移改进数据集。

例如,你可能想要从用户那里获得反馈来继续增加数据集的大小。随着数据集的增长和质量的提高,你可能想要尝试更复杂的机器学习方法。此外,与从用户那里得到的反馈有关,根据问题的类型,你可能需要监测模型漂移(model drift即,确保模型性能保持在预期水平)

5 结论

我希望这些步骤是有用的。同样,在不确定的领域变得轻松舒适是一个学习的过程,即使你一开始有困难也没关系。

如果你是一名有抱负的数据科学家,我认为学习这项技能的第一步,就是意识到许多公司不知道他们应该回答什么问题,并从数据中提取价值,你现在已经完成了第一步!感谢阅读!如果你有任何反馈或想法,请在评论中告诉我。你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Zach Monge, PhD
翻译作者:明慧
美工编辑:过儿
校对审稿:Miya
原文链接:https://towardsdatascience.com/identifying-and-solving-ambiguous-data-science-problems-d392701a03fa