数据科学家常见的13个统计错误,你有过吗?

数据科学家常见的13个统计错误,你有过吗?

在不断发展的数据科学领域,统计和编程在此交汇,一个充满可能性的世界随之出现,但同时也充满了挑战。

对于数据科学家来说,掌握统计学的意义远不止于数学公式,它还是从数据中提取有价值见解的一种手段,这一点至关重要。

为了指导你完成这次统计之旅,我们将深入探讨13个最常见的统计错误,即使是经验丰富的数据科学家也可能会遇到这些错误,并附有实用的解决方案来避开这些陷阱。让我们在接下来的5分钟里保持高度集中的注意力。如果你想了解更多关于统计的相关内容,可以阅读以下这些文章:
每个数据科学家都应该避免的十大统计错误
数据科学之统计:终极指南
这15个统计知识测验题,你能答对几个?
数据科学家须知:统计学中的5个悖论

01 没有充分理解目标函数

数据科学家通常以建立“最佳”模型为目标,但“最佳”的定义可能因问题的不同而大相径庭。如果不深入了解目标函数,就很难创建有效的模型。目标函数可能并不总是数学公式;它们可能与改进业务指标相关联。

  • 解决方案:花时间理解目标函数以及数据和模型与之的关系。如果你要优化业务指标,请将其映射到适当的数学目标函数中。
  • 举例说明:用于评估分类模型的F1 Score如果与企业目标不一致,就可能会产生误导。例如,根据F1 Score显示准确率为60%的模型可能只有40%的时间是正确的。

02 错误地将预处理应用于完整数据集

在将数据集分成训练集和测试集之前,对整个数据集进行预处理可能会导致数据泄漏。当预处理数据泄漏到测试集时,就会提高模型性能。

  • 解决方案:将数据分为训练集和测试集后,分别进行预处理,以防止数据泄露。
  • 举例说明:对完整数据集进行预处理会损害测试集的完整性,影响模型性能,导致结果不准确。

03 数据质量监督

忽视对数据质量问题的彻底检查和清理会导致模型结果不可靠。数据缺失或错误、异常值或不一致都会严重影响模型性能。

  • 解决方案:优先考虑数据质量。实施强大的数据预处理步骤,包括缺失数据估算、异常值处理和数据验证。要在数据科学项目中取得有意义的结果,保持干净准确的数据至关重要。
  • 举例说明:在财务分析项目中,如果不能识别和纠正缺失或错误记录的交易数据,就可能导致不准确的财务预测。解决数据质量问题可确保可靠的洞察和模型的准确性,有助于做出明智的财务决策。

04 在模型选择中缺乏假设

在不考虑数据特征的情况下随机应用模型可能会导致不理想的结果。就哪种模型最适合数据提出假设,对于选择模型和了解模型捕捉数据特征的能力至关重要。

  • 解决方案:分析数据以确定其特征,并就哪种模式符合这些特征提出假设。
  • 举例说明:简单的绘图可以揭示数据中的关系。如果通过研究数据,得出一个变量与另一个变量之间存在线性关系的结论,那么这就是选择模型的有力假设。

05 解读前不检查数据

在解读结果之前忽视对数据的探索是一个常见的错误。数据中的异常值、Outlier和伪数据会对结果产生重大影响,尤其是在最小化平方和的模型中。

  • 解决方案:彻底检查数据,掌握其性质对模型结果的影响。确保解决不平衡数据集和异常值等问题。
  • 举例说明:异常值会改变变量间线性关系的斜率,导致模型解释错误。

06 未能建立基础模型

现代机器学习库的便利性可能会导致人们忽视基础模型。这些“笨”模型对于进行有意义的比较以及识别更复杂的模型何时能提供真正的价值至关重要。

  • 解决方案:创建一个简单的基础模型,如使用最后已知值或滚动平均值,与复杂的模型进行比较。这将揭示模型带来的实际改进。
  • 举例说明:使用基本的“最后已知值”模型,你可能会获得极低的均方误差(MSE),从而凸显基线模型的价值。

07 样本外测试不足

应在现实的样本外(out-sample)条件下评估模型性能,以避免部署的模型在研究中运行良好,但在生产中却失灵。错误判断样本外性能可能会造成严重后果。

  • 解决方案:确保在现实的样本外条件下对模型进行严格测试,并了解何时表现良好,何时表现不佳。
  • 举例说明:随机森林模型可能在样本内测试中表现出色,但在样本外测试中,由于过度拟合,其表现不如线性回归模型。

08 横断面数据和面板数据的交叉验证不正确

在时间序列或面板数据等情况下,使用随机抽样进行交叉验证可能会导致数据泄漏。在这种情况下,有必要采用定制的交叉验证方法。

  • 解决方案:生成能准确反映真实世界条件的测试数据。针对时间序列和面板数据使用自定义交叉验证策略。
  • 举例说明:在实体高度相关的横截面数据中,随机抽样可能会让训练数据泄漏到测试集中,从而使结果出现偏差。

09 “需要更多数据”的谬论

数据越多越好的假设可能会导致效率低下。有时,从较小的代表性样本开始可能更实用,并有助于解决现实世界中的问题。

  • 解决方案:从具有代表性的小样本入手,确定是否能有效解决问题。该样本可作为初步测试,以了解你的方法是否正确。通过这种方法,你可以有效地验证你的方法,而无需等待大量的数据处理或模型训练。
  • 举例说明:拥有海量数据集并不能保证获得更好的结果。有时,关键是要专注于更好的预处理或特征工程,而不仅仅是收集更多数据。

10 忽略变量相关性

忽略数据集中变量之间的相关性可能会导致忽略重要的洞察和关系。这种疏忽可能会导致模型错过关键的预测特征。

  • 解决方案:对变量相关性进行全面分析。相关矩阵或数据可视化技术等工具有助于揭示变量之间的关系。了解这些相关性可以指导特征选择和模型构建,最终提高预测准确性。
  • 举例说明:在营销数据集中,忽视网站停留时间与转化率之间的密切关联可能会错失良机。通过分析这种相关性,可以制定更有效的营销策略,提高转化率和投资回报率。

11 盲目特征值选择

在为模型选择特征时,如果不考虑其实际相关性或重要性,可能会导致模型性能不理想。盲目加入或排除特征值会导致模型效率低下。

  • 解决方案:实施深思熟虑的特征选择流程。使用特征重要性分析、相关性分析和领域知识等技术来识别和选择最有价值的特征。确定特征选择的优先次序可以提高模型的效率和可解释性。
  • 举例说明:在客户流失预测模型中,如果盲目地将所有可用的客户属性都包含在内,而不对其重要性进行评估,就会削弱模型准确预测客户流失的能力。根据特征对客户流失的实际影响来仔细选择特征,就可以创建一个重点更突出、更有效的预测模型。

12 误读p-value

曲解p值是常见的统计错误。虽然p值对假设检验至关重要,但p值越小并不一定表示结果越显著。要得出准确的结论,了解背景和零假设至关重要。

  • 解决方案:始终要考虑背景情况和测试的具体假设。低p值可能是有意义的,但必须与研究问题相符。除了p值,还要关注效应大小和置信区间,以全面了解统计意义。
  • 举例说明:在临床研究中,较小的p值可能表明两种治疗方法的效果存在显著差异。但是,如果患者疗效的实际差异很小,那么临床意义可能无法证明统计意义的合理性。了解研究结果的实际影响至关重要。

13 忽略模型假设

不考虑模型假设会导致不可靠的结果。每个统计模型都基于对数据的某些假设。忽略这些假设可能会使你的研究结果无效,并误导你的解释。

  • 解决方案:彻底评估所选统计模型的假设。检查是否存在违规情况,如有必要,可考虑采用其他模型或数据转换。稳健性检查和敏感性分析应成为确保模型有效性的标准做法。
  • 举例说明:在线性回归中,一个常见的假设是残差(观察值和预测值之间的差异)呈正态分布。忽略这一假设会导致参数估计偏差和预测不可靠。通过检查残差图和转换响应变量,可以解决这个问题并提高模型的准确性。

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Anmol Tomar
翻译作者:Qing
美工编辑:过儿
校对审稿:Jason
原文链接:https://medium.com/codex/top-13-statistics-mistakes-made-by-data-scientists-are-you-doing-these-b71f7312ff2d