哈登詹姆斯双双出局!机器学习如何预测球员胜利贡献值?

哈登詹姆斯双双出局!机器学习如何预测球员胜利贡献值?

使用机器学习来预测NBA顶级球员的个人胜利贡献值

最近,达里尔·莫雷宣称勒布朗·詹姆斯是有史以来最伟大的篮球运动员。很明显,它一点也不准确。莫雷是NBA休斯顿火箭队现任总经理。对于所有的棒球迷来说,莫雷就是篮球界的比利·比恩。对所有的电影爱好者来说,莫雷就像《点球成金》里布拉德·皮特演的那个家伙。如果你不理解前面两句话,那么你可能需要做一些研究。简而言之,莫雷是一个分析专家。所以当他谈到勒布朗·詹姆斯的成就时,这意味着在篮球分析中,勒布朗是有史以来最伟大的球员(尝试将这些告诉斯基普.贝里斯)。

我认为莫雷评论中的最大问题是:他如何衡量哪个球员比下一个更好?是成功吗?是影响吗?还是效率?(莫雷比比利·比恩更喜欢效率)。

今天,世界各地的球迷和分析人士使用了许多新的篮球指标来比较和衡量球员。例如,球员效率评估(PER)考虑了球员的成就,比如投篮、罚球、三分球、助攻、篮板、盖帽和抢断,以及负面因素,比如投篮不中、失误和个人犯规。

其中一些高级的篮球指标,比如PER,可以很好地衡量球员在篮球比赛中的效率。但是这是否告诉我们球员会给他们的球队带来成功呢?也许吧。但是一个球员被认为是成功的唯一方法就是获胜。

胜利贡献值(Win shares)是一个很好的开始,可以显示一名运动员给他的团队带来了多大的整体成功。根据“篮球参考”(https://www.basketball-reference.com/),胜利贡献值是一个衡量球员在整个赛季为球队赢得多少场比赛的指标。从这个角度来看,贾巴尔的胜利贡献值不仅是单赛季的领先者(拥有25.4的胜利贡献值),而且是职业生涯的领先者(拥有273.4的胜利贡献值)。所以,我相信你能理解这个衡量标准可能是用来衡量一个球员对他们的团队做出了多大贡献的一个很好的指标。

注意: 本文使用的所有代码都可以在GitHub上找到:https://github.com/osanchez2323/Portfolio/blob/master/Basketball%20Analytics%20-%20Machine%20Learning%20to%20Predict%20Win%20Shares/Basketball%20Analytics%20-%20Using%20Machine%20Learning%20to%20Predict%20Win%20Shares.ipynb

分析

目的:我们能用其他篮球指标预测NBA球员的个人赢球率吗?

分析使用的数据是2016-17赛季和2017-2018赛季的NBA数据,来自“篮球参考”(https://www.basketball-reference.com/)。本质上,我使用2016-2017赛季的数据来创建模型,并使用最近一个赛季的数据来预测胜利贡献值。我采取了监督回归机器学习分析:

· 监督:数据包括胜利贡献值和所有其他篮球指标,用于训练和测试模型

· 回归: 胜利贡献值是一个连续变量

今天,世界各地的球迷和分析人士使用了许多新的篮球指标来比较和衡量球员。为了预测胜利贡献值,我使用了一些基本的和高级的NBA数据:

探索性数据分析

· 最初的胜利贡献值分布情况是怎样的?

在继续分析之前,我使用了基本的EDA来查看数据可以直接告诉我们什么。首先,我快速浏览了胜利贡献值的分布:

马上,我们看到胜利贡献值的分布向右倾斜。在2016-2017的NBA赛季中,大部分球员的胜利贡献值都低于5分。这是讲得通的,因为只有少数被选中的球员(大部分是NBA全明星)才会有很高的胜利贡献值。例如,2016-2017年NBA赛季的胜利贡献值 冠军是最有价值球员(MVP)的亚军: 詹姆斯· 哈登,他拥有15的胜利贡献值。所以,拥有高胜利贡献值是一种精英地位。

从这个分布中得到的奇怪的部分是0分的球员数量。经过进一步的分析,我发现有很多球员几乎不打比赛。这些球员都在NBA的名单上,但这并不意味着他们不会对球队和个人数据产生重大影响。因此,我将数据更新为只包含至少打过30场比赛并且平均每场比赛时间不低于25分钟的球员。以下是整理数据后胜利贡献值的分布情况:

现在0分的球员少多了! 胜利贡献值的分布仍然是向右偏的,但看起来更像是正态分布。

· 我选择的所有特性都是预测胜利贡献值的好的指标吗?

我用皮尔森相关系数分析了这个问题,皮尔森相关系数衡量的是特征与目标(胜利贡献值)之间的线性相关。它的值在-1和+1之间,接近-1的值表示负向强相关,接近+1的值表示正向强相关:

这个发现令人惊讶!在我最初选择的13个预测赢股的篮球指标中,有4个相关性不够强(强=大于0.5,小于-0.5)。因此,我在模型中排除了这些指标。

令我震惊的是,3个百分点(3P%)不仅相关性较弱,而且呈负相关。在现在的NBA中,几乎每个球队和球员都非常依赖3P,所以我认为3P%在分析中会起到重要的作用。另一个有趣的发现是比赛次数(G)和胜利贡献值之间的关系很弱。人们会假设球员参与的比赛越多,他们的胜利贡献值就会越高。然而,球员参加比赛并不意味着他们就会胜利。助攻(AST)是另一个我认为与胜利贡献值有密切关系的指标。

· 剩下的特征是否彼此高度相关?

在接下来的分析中,我想看看这些特征之间是紧密相关的,还是多重共线性的。多重共线性通常发生在两个或多个预测变量之间存在高度相关性的情况下。请记住,与胜利贡献值具有强相关性的特性是好的,但是与其他特性具有强相关性的特性可能没有多大帮助。它甚至会使我们更难解释我们将要创建的模型。

基于上面的配对图,我发现了一些存在在不同特征之间的问题:

· VORP 与 BPM:有很强的正相关关系(相关系数为0.98)。BPM是指球员在球场上的每100次控球率高于联盟平均水平。价值高于替换球员(VORP)就是将BPM转换为球员每分钟对团队的贡献。为了计算VORP,你需要使用BPM。因此,它们是高度相关的。

· 命中率指标:我们的分析中还剩下三个命中率指标。投篮命中率(FG%)是投篮命中与投篮的比值。有效投篮命中率(eFG%)用来调整投篮命中率,从而考虑到三分投篮占三分,而投篮只占两分的事实。真实投篮命中率(TS%)通过计算两分,三分投篮命中率和罚球命中率来衡量球员的投篮效率。我觉得这些指标是紧密相关的(TS%和eFG%的相关性为0.90)。因此,我决定只使用TS%,因为它与胜利贡献值的相关性最高。

在研究了这些数据之后,我得到了以下篮球指标作为创建模型的特性:

模型选择及测试

由于这是一个监督回归机器学习分析,我创建了三个回归模型:

· 线性回归

· 支持向量回归

· K-邻近回归

将数据的25%作为测试集(剩余的数据用于训练模型),得到模型的结果如下:

显然,这些模型的赢家是线性回归。线性回归模型具有较低的均方误差(越低越好)和较高的方差值(越高越好)。这并不是说其他两个模型(支持向量和k近邻回归)应该被忽视!他们仍然有非常令人印象深刻的结果,只是没有线性回归模型那么强。

预测

如上所述,我用我们的3个模型和2017-2018赛季的所有特征来预测胜利贡献值:

使用线性回归模型赢得预测

根据线性回归模型的预测,勒布朗·詹姆斯拔得头筹!该模型预测,他将以14.81的总胜利贡献值领跑NBA。然而,事实上,勒布朗(14胜)排在2017-2018年NBA最有价值球员詹姆斯·哈登(15.4胜)之后(模型预测的第二名)。这是个不错的预测!在线性回归预测和最近的NBA赛季中,卡尔-安东尼·唐斯和安东尼·戴维斯分别位列第三和第四。

使用支持向量回归模型赢得共享预测

支持向量回归模型得到了一些不寻常的结果。基于这个模型的预测,勒布朗(15.5胜)再次登顶,哈登紧随其后(15.4胜)。最令人兴奋的结果是,这个模型准确地预测了哈登的获胜贡献值!在2017-2018赛季,他以15.4的胜利贡献值领跑NBA,与预测值相同。安德烈•德拉蒙德(Andre Drummond)在使用线性回归模型预测胜利贡献值的排名中并不在前10位,但在使用支持向量回归模型预测胜利贡献值的排名中,他名列第三。唐斯和戴维斯在预测名单上排名下降,斯蒂芬·库里和凯文·杜兰特甚至没有进入前十。

用k近邻回归模型进行预测

使用k近邻的胜利贡献值预测比之前模型的预测要少得多。在这个模型中,哈登的胜利贡献值最高,只有12.3。另一个奇怪的预测结果是勒布朗、拉塞尔·威斯布鲁克、詹尼斯·安特托昆波和戴维斯并列拥有12.24的胜利贡献值!

结论

以下是我从分析中学到的一些东西:

· 用平均绝对误差作为衡量标准,我们创建的一个模型能够预测NBA球员的个人赢球比例,误差不超过0.761分。

· 价值超过替代球员(VORP)是预测胜利贡献值的最重要因素。三分(3P%)、上场比赛次数(G)和助攻(AST)与胜利贡献值之间没有很强的关系。

· 勒布朗·詹姆斯仍然是国王!尽管并不完美,但他已经33岁了,还在贡献胜率!

虽然最好的模型在预测NBA球员的胜利贡献值方面做得很好,但是我在这个过程中遇到的一些问题对未来的项目有帮助:

· 更多的数据可能会有所帮助。为了训练模型,我只使用了2016-17赛季的数据。我本可以使用过去几个赛季的数据,但我希望这些预测能适用于今天的NBA。NBA已经不是几年前的样子了。就像我在分析中说的,三分球已经占据了上风。更多的球队依赖长传。事实上,上个赛季的半决赛——金州勇士队、克利夫兰骑士队、休斯顿火箭队和波士顿凯尔特人队——都是三分命中率最高的球队。起初,我害怕把过去几个赛季的数据包括进来不能准确预测今天的NBA。然而,考虑到三分球并不像我想象的那么重要,之前的数据其实是有帮助的。

· 统计填充并不一定意味着成功。拉塞尔-威斯布鲁克是三双之王,当一名球员在三个不同的指标上取得两位数的总得分时。事实上,他前两个赛季的平均成绩是三双!在我使用这些模型做出的所有胜利贡献值预测中,威斯布鲁克都进入了前10名,但他在上个赛季甚至都没有进入前10名。由于他的数据非常好,他的胜利贡献值预测比实际要高得多。

· 胜利贡献值可能不是衡量个人成功的最佳指标。篮球是一项团队运动,衡量个人的表现并不容易。詹姆斯·哈登是MVP,因为他惊人的进攻能力,但是他的防守呢?不存在。他的队友帮助他克服了许多防守上的不足。但如果他们没有防守,或者如果防守策略不合适怎么办?哈登的进攻数据仍然很好,但是如果他的球队缺乏防守,他的胜利贡献值就会下降。

总的来说,我了解到人们的确可以用篮球指标来预测胜利贡献值。然而,胜利贡献值可能不是衡量个人成功的一个很好的标准,因为在篮球比赛中获胜需要整个团队,而不仅仅是一名球员。除了你的勒布朗。湖人万岁! ! !

原文作者:Oscar Sanchez

翻译作者:Vera Wu

美工编辑:Miya

校对审稿:冬冬

原文链接:https://towardsdatascience.com/basketball-analytics-predicting-win-shares-7c155651e7cc