如何在分类算法中使用逻辑回归

监督学习算法对目标预测输出和输入特征之间的关系进行建模，这样，我们可以根据先前数据集中学到的那些关系来预测新数据的输出值。监督学习算法（Supervised learning algorithms）可以分为以下两大类：

回归（Regression）：预测连续的目标变量。例如，预测房价就是回归任务的一种。
分类（Classification）：预测离散的目标变量。例如，预测电子邮件是否为垃圾邮件，就是分类任务的一种。

本文将带你了解逻辑回归和相关的概率知识。如果你想了解更多数据分析相关内容，可以阅读以下这些文章：
DS数据科学家和DA数据分析师：要学习什么不同内容？
数据分析师需要知道的10个Excel函数
 数字营销是怎样通过数据分析赚钱的？
数据分析如何在Fintech中发挥作用？

逻辑回归（Logistic Regression）是一种监督学习算法，尽管它包含“回归”这个词，但主要用于解决二元“分类”任务。“回归”与“分类”相矛盾，但逻辑回归的重点其实是在“逻辑”这个词，它指的是逻辑函数，在算法中实际上用于完成分类任务。

逻辑回归是一种简单而有效的分类算法，因此常用于二元分类任务。客户流失、垃圾邮件、网站或广告点击预测是逻辑回归提供有效解决方案的示例，甚至用作神经网络层的激活函数。

逻辑回归的基础是逻辑函数，也称为S型函数（Sigmoid Function），取实数值并将其映射至 0 到 1 之间的值。

逻辑回归模型以线性方程为输入值，使用逻辑函数和对数几率，执行二元分类任务。在详细介绍逻辑回归之前，我们先回顾一下概率（Probability）范围内的一些概念。

# 概率（Probability） #

概率（Probability）衡量事件发生的可能性。例如，我们说“垃圾邮件的概率为90%”：

几率（Odds）是正类（垃圾邮件）和负类（非垃圾邮件）的概率之比。

对数几率（Log Odds）是几率的对数。

以上概念，本质上都代表相同的衡量标准，但采取的方式不同。如果采用逻辑回归，我们就会使用对数几率（Log Odds）。这也就是在逻辑回归算法中首选对数几率的原因。

对数几率是几率的对数，几率是正类与负类的概率之比。

概率为0.5，意味着垃圾邮件与非垃圾邮件的可能性相同。这里可以注意一下，概率为 0.5 的对数几率是 0。我们会用到这一点。

让我们回到 S型函数，通过不同的等式表示：

等式两边都取自然对数：

在等式 (1) 中，我们可以使用线性方程 z 代替 x：

那么等式（1）表示为：

假设 y 是正类的概率。如果 z 为 0，则 y 为 0.5。对于 z 的正值，y 大于 0.5，对于 z 的负值，y 小于 0.5。如果正类的概率大于 0.5（即概率大于50%），我们可以将结果预测为正类 (1)。反之结果为负类 (0)。

注意：在二元分类中，表示两种分类结果的方法很多，例如Positive/Negative，1/0，True/False。

下表是一些z值及其对应的y(概率)值。所有实数都映射在 0 和 1 之间。

如果我们把这个函数绘制出来，将得到著名的逻辑回归 s 形图：

分类问题归最终可以总结为一个线性方程：

这看起来就像是在解决线性回归问题。在训练阶段，我们用极大似然估计法（maximum-likelihood estimation algorithm）确定函数参数。然后，对于给定的自变量 (x1, … xn) 值，我们就可以得出正类的概率。

我们可以直接使用计算的概率结果。例如，输出值可以是垃圾邮件的概率为 95%，或者客户点击此广告的概率为 70%。但是，在大多数情况下，概率会被用于对数据点进行分类。比如，如果概率大于 50%，则预测为正类 (1)。否则，预测为负类 (0)。而且，我们只是将线性回归问题的解决方案转换为二元分类任务。

逻辑回归是一种简单却有效的算法，用于解决二元分类问题。逻辑函数（即 S型函数）也经常作为输出层的激活函数，用于复杂的神经网络中。

感谢你的阅读。如果有任何反感谢你的阅读。如果有任何反馈，可随时在下方评论。你还可以订阅我们的YouTube频道，观看大量数据科学相关公开课：https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ；在LinkedIn上关注我们，扩展你的人际网络！https://www.linkedin.com/company/dataapplab/

原文作者：Soner Yildirim
翻译作者：Lia
美工编辑：过儿
校对审稿：Jiawei Tong
原文链接：https://towardsdatascience.com/how-is-logistic-regression-used-as-a-classification-algorithm-51eaf0d01a78

January 4, 2022 | Blog | Tags: 数据科学家

如何在分类算法中使用逻辑回归

如何在分类算法中使用逻辑回归

ETL管道——管理数据科学工作流程的好方法

如何编写出优秀的 Python Class

Latest post

如何开办一个人的人工智能创业公司？

多智能体协作协议（MCP）：LLM 系统中合作智能的未来

LLAMA 4 来袭：Meta 全新大模型的技术突破与商业潜力

Courses

Events

Lecture 1: Interpretation of Employment Trends in the US 2025

Understand Meta LLaMA Throughly

Lecture 2: Job Seaking Strategy and Career Positioning

Consulting

ABOUT US

Contact Info: