Yo!建模前你问自己这个问题了吗??

Yo!建模前你问自己这个问题了吗??

现在无论是商业,学术研究还是个人兴趣,人们越来越多地使用数学模型来模拟现实世界的种种现象以便观察和决定如何控制或者回应这些观察到的现象。

经过科技的发展, 我们拥有了更强大的计算能力同时意味着建模变得更加复杂。我们不再是只用Excel电子表格中的几个单元格,而是在各种不同的平台和各种编程语言中构建我们的模型。有些基于小数据,有些基于大量数据。这些模型的效果可以影响几个小时到几个月甚至几年的迭代项目。

但通常这些创建模型的分析师们在开始建模之前不会提出足够的问题, 他们可以毫不犹豫地开始建模型: 获取数据,设置公式,然后离开。但是从我多年来从事数学和统计工作的经验表明:模型的成功与否在很大程度上取决于你打开数据文件之前的前瞻性思维。

特别是在建模开始前我总是会问自己一个问题并且我认为无论是数据分析师还是数据科学家和其他建模师都应该问的一个问题:我的模型应该是解释性的还是预测性的?

解释性和预测性两个词从名字就了解其意思

 解释模型帮助理解为什么会发生某些事情:为什么某种疾病会发生在某些人身上?什么可能导致温度激增?

● 预测模型尽可能准确地预测会发生什么 :我们期望明天有多少人访问购物中心?某个政党在下一次选举中获得多少票?

让我们用柠檬水摊主来做例子: 柠檬水摊主将使用解释模型来解释她的顾客喜欢她的产品的原因,或者来解释为什么大家更喜欢白天来光顾她的摊位 instead of 晚上来 – 究其根本是摊主对柠檬汁的销售和为什么柠檬汁会热销感兴趣。但是如果她的主要目的是有足够的柠檬库存来应付这一周, 这时候她更会选择使用预测模型。

值得注意的是很少有模型能够同时实现这两个目标。我不认为在我的职业生涯中曾经有建立过一个既能解释现象又能很好地预测的模型。我将在以下内容中阐述从初始数据输入开始一直到如何衡量其有效性如何影响构我们建模。

输入数据的选择
(一次性数据或重复使用数据)

如果模型是解释性的,则我们的建模过程只发生一次。我们要优先考虑怎么最深入地去理解这个数据集,因此我们不能有数据源超出应有的范围。格式不佳且需要大量清理的数据可以清理出来, 即使是旧数据也可以考虑进行数字化处理以便尽可能的获取信息。同样,我们可能会从模型中删除某些数据以便挖掘出更深入的解释变量。例如在医学模型中,年龄可能会被消除,因为它是疾病易感性的一个已知因素,年龄可能主导模型并掩盖其他重要的变量。

预测模型被设计为多次数地运行以便可以利用旧数据训练来并且识别出结果的模型并且对新数据进行预测。在许多现代环境中,数据的选择主要取决于我们的模型如何运行。此外,模型的主要目标是准确预测结果,因此任何有助于提高预测准确性的数据和变量都应该囊括在我们的数据中。

使用的建模技术
(可解释或“黑匣子”)

对于可解释的模型中,适合解释的模型显得至关重要。在解释模型中控制变量非常重要。在Logistic回归模型中,优势比可以帮助我们理解输入变量对因变量的影响程度;更例如更简单的tree模型可以帮助识别和量化某些决策点对结果的影响。

预测建模很少考虑可解释性。您可能已经听过“黑匣子模型”这个术语通常用来描述一个最大化其预测能力的模型,但其性质过于复杂我们无法梳理出各个输入变量的影响:例如神经网络。“黑匣子”模型基于数百或数千个模拟和互连神经元做出的决策,每个神经元都根据已学习训练数据做出相应的变化。 

测量模型的性能
(Overfitting与 Acurracy)

解释模型主要通过它们产生的bias和整体的goodness of fit来判断。The goodness of fit是观察对象的预期值与实际值之间的差值。The goodness of fit解释性模型包括odds ratiosR square(包括adj-R square),chi-square 和G test。在现实生活中有一个非常非常常见的现象, 即使整体的goodness of fit很差,但解释模型也可能产生有价值的结果 – 特别是在社会科学这个领域。

预测模型其根本在于它的准确性。准确度的测量通常涉及回归模型中的误差计算或分类模型中True positives和False positives之间的权衡。Mean absolute error 和均 Root mean squared error等算法通常用于评估回归模型。Precision,recall,ROC或F1 score(对于imbalanced models)更多的用于评估预测分类模型。

多年来,我已经学会了把自己作为柠檬摊主来思考问题:我对柠檬汁儿感兴趣还是对柠檬本身感兴趣吗?这是一个非常好的习惯,我希望你能有所收获并且和我一样养成这样的习惯。

原文作者:Keith McNulty

翻译作者:Zihao

美工编辑:过儿

校对审稿:卡里

原文链接:https://towardsdatascience.com/building-a-model-heres-the-first-question-you-should-ask-828befec5ac