Data Scientist生产力进阶—Python OOP编程快速入门

面向对象编程 (OOP) 是一种计算机编程模型，是几乎每个开发人员在职业生涯的某个阶段都使用的基本编程范式。 它围绕数据或对象来组织软件的设计。

今天，我们就带大家了解以下几点内容.如果你想了解更多数据分析相关内容，可以阅读以下这些文章：
如何准备数据科学的现场编程面试？
微软数据科学家面试，都问什么SQL问题？
六条鲜为人知的SQL技巧，帮你每月省下100小时！
数据分析新工具MindsDB–用SQL预测用户流失

1. 什么是OOP，它有什么特性

2. 如何在Python中创建object

3. OOP在数据科学领域的优势

4. OOP在数据分析领域的实际使用案例

OOP是一个抽象的概念，主要用于我们想要解决的一些现实问题。一般这种时候，我们会希望将现实问题代码化，这个模式就是将现实中的物件代码化，每一个物件会拥有自己的特性和一些动态的行为，比如下图Human这样的对象（object），它可能会自带一些特性，像E-mail、Address等等。

同时，她也会拥有一些动态的行为，比如这个Human本身可以发送邮件，可以识别她的身份。抽象来说，这样我们就是订阅了一个object。

OOP有三大特性：继承（Inheritance）、封装（Encapsulation）、多态（Polymorphism）。

那么，如何在Python中创建对象（object）呢？

以Employee为例，假设我们今天想要在Python中创建一个名为Employee的object，首先我们要先了解，Employee都会有哪些属性？

常见会有姓名、年龄、薪资。在Behaviors方面，我们会希望显示关于这个Employee的一些基本资讯，同时，我们也想要知道当前这个Employee的人数，比如某一个公司肯定会记录所有Employee的数量，这个就是一个很好的方法。

以上图右边的代码图为例，我们会创建一个class叫Employee。这里需要注意的一点是：当我们在Python中创建任何class的时候，第一个字母一定要大写。接下来我们会创建一个empCount为0，当我们想要定义这些属性在Python中的时候，我们可以写上这些name、salary，同时每当一个新的Employee被创建的时候，我们需要增加Employee的Count。

接下来，Employee底下会有一些method，第一个是displayCount，可以显示当前这个Employee所有数量，再来是displayEmployee，这个method会单纯的显示这个Employee的资讯（名字和薪资）。

创建好class之后，就要开始思考我们怎样去调用它。在Python中，我们会创建一个新的实例（instence）来调用这个class。比如我们创建一个Emp 1，它可以调用Employee这个类（class），Employee会有name和salary，所以我们在创建的时候，必须要属于这个实例的Employee的资讯。比如第一个Emp 1，名字是Chris，薪资是1000，Emp 2的名字是Tony，薪资是2000。

当我们创建完这个instence之后，就会想调用class里面的一些method，比如当我们使用Emp 1.displayEmployee()调用method的时候，会显示Emp 1的基本资讯，使用Emp 2.displayEmployee()调用method的时候，会显示Emp2的基本资讯。

如果我想要知道当前我创建了多少Employee的时候，可以直接调用displayCount，并且无论用Emp 1或者Emp 2去调用displayCount，都会显示两个，为什么呢？是因为当前class的Count是一个Global variable，每一次在创建Employee的时候，这个Class都会递增Employee的Count。

接下来，我们来了解一下三大特性，首先是第一个：继承（Inheritance）。我们什么时候会使用继承这样的概念呢？是当我们想创建多个类似的Class的时候，比如右边这张概念图，首先可以有Animal这样的Class，Animal底下会有Dog和Cat，我们可以理解为Dog和Cat都会继承Animal所有的一些性质和行为，但Dog和Cat本身会有自己的一些行为。

在代码这边，我们假设今天会有一些父类（Parent Class），同时也有一个全局变量（Global Variable）parentAttr=100，定义一个属性（Property）叫name，Parent method的功能就是直接打印“I am parent”，setAttr是用来更改parent的，getAttr是可以直接显示这个ParentAttr为多少。底下我们会创建一个子类（Child Class），我们如何让这个子类继承父类拥有的特性和行为呢？我们必须在Child这个Class里面传入parent的Class，当我们Child这个属性里面想要继承所有parent的性质的时候，我们会用到Super这个方法，它会用和上面一样的方法去记录，可能还有一些其他的Child method。

我们来看实际案例，我们创建了一个Child实例叫tommy，然后，当我们打印Tommy名字的时候，它会自动显示“Tommy”。Child Class可以调用Parent Class储存name的形式，如果用C.Child method，它就会自动Print“I am child”，同时你会发现，Child这个实例也可以直接使用Parent Class里面的method。另外，你也可以直接使用Child method去设置属性，把数字设置为200。

第二个特性：封装（Encapsulation）

一个对象（Object）会包含它自己所有的数据，类（Class）会将所有数据封装在这个“胶囊”里，胶囊里有它自己的变量（Variable）和方法（Methods）。我们并不需要详细了解Methods的创建过程，当我们直接调用这个Class时，只需要传递进来我们需要的参数，就可以直接使用这个Class。

在封装里，Class会有一些自带的Methods，常见的有getattr、hasattr、setattr、delattr——getattr会返回一些class的属性，hasattr会确认Class是否有这个属性，setattr是想更改这个class在初始化method的一些属性，delattr是删除class里的一些属性。

为什么我们在创建Class时会创建这四个Method，是因为我们并不想直接篡改Class，所以，我们会通过调用Class的Method来做数据的篡改。这样的好处是，当我们想要做一些更加复杂的开发时，这可以提高代码的安全性。上图右边有一个例子，我们创建了一个Computer的Class，它的属性有price，有sell method，会显示“Selling Price：900”，然后会有setPrice method，设置computer的价格，getPrice是显示当前computer的价格。

第三个特性：多态(Polymorphism)

在不同的class里method会有不同的格式，但它们做的事情是一样的。比如，有一个Shape的Class，它可能有Circle、Rectangle、Square三个子类，这些Class的共同点是都有draw()这个method。但是，当我们调用每一个class的draw method时，Circle会画一个圆，Rectangle会画一个长方形，Square会画一个正方形。虽然它们同样是draw，但是画出来的结果却不一样，而method却是在所有Class中都能通用的。

Code如左图所示，Shape中有area和getName，Rectangle中的super（）有继承的概念，会继承Shape的所有属性和method，有自己的长度，宽度和面积，然后Square和Circle也是同理。虽然Shape和Rectangle都有area这个method，但是会显示不同的结果。

当我们了解完OOP所有的特性之后，让我们再来看一下OOP的使用优势。

1. 当我们对Class了解后，我们把某一样东西以拟物的形式封装起来，那么code会容易理解，简单清晰。

2. 因为Class是可以分享的，代码的重复使用性会很高，不需要再复制粘贴一样的内容，在新的Class里我们可以直接做一个继承。

3. 因为OOP本身有封装的特性，所以我们会知道数据会永远封装在class里，整个代码会更加安全和稳定。

4. 因为多态可以在不同的class里面使用一样的method，减少代码的重复，会更加高效。

这里有一个小技巧，Function可以在任何一个地方定义和调用，但是如果你调用class的method，你必须先创建class，然后再使用instance调用。

接下来，我们了解一下OOP在数据科学的应用。

1. 一般数据科学人士可能没有编程背景，很多时候大家可能会盲目地使用这些library的methods，而不知道library本身的构造模式是什么。虽然这样也可以，但是当你遇到问题时难以解决。
2. 当我们做数据分析时，虽然我们可以调用pandas、numpy等库，但是在不同公司工作时，会做一些特定的数据处理，在特定的处理下会创建自己的package，创建的package也可以分享给同事共同使用。比如，组里面的组员同样也想要做clean的时候不需要自己写一遍clean的过程，可以直接调用你自己封装的包里面的方法来做清洗。
3.帮助完成一些个人项目。OOP的这个形式在做一些项目的时候也是很好用的，比如说，可以自己做一些网页抓取，当想要去网页上面抓取一些数据的时候，可以把网页抓取的过程写成一个oop的形式。
4.让在与其他队友一起工作时更有组织和标准化，用OOP的形式，代码会更加的简洁、清晰，和同事分享代码的时候也会更加的标准化。

最后，我来分享一下OOP在实际使用过程中的案例。在实际的工作运用场景中，在机器学习模型中，比如一个线性回归的模型（如下图）大家可能会有疑问：为什么不直接调用sklearn的模型呢？

原因是，我们在现实工作中使用模型时，并不想要直接使用标准化的模型，可能会需要对模型做一些处理。比如说，数学的某一些公式的部分我们需要做一些变化，这时就很适合自己把模型用class的形式写出来；

第二，当我们想要做数据清洗的时候，并不想重复写一样的代码，那么，我们把数据清洗的步骤写成一个class，在之后用调用的形式去清洗数据，这样能帮助更快的完成工作。哪怕之后忘记了数据清洗的过程，但只要数据格式是类似或者一样的，就可以直接调用数据清洗的object来直接做数据清洗；

第三，当我们想要处理的一些数据是从一些API得到的，假设它是Json format的数据，我们想要做一些处理把它转换成table的形式，并且提取有用的之后数据处理，会用到的一些columns，那么从Json文件里把它提取出来之后，整理干净再存进数据库，这个很长的过程也是可以使用class的形式进行封装；

最后一个网页抓取，简单来说，比如今天我想查找所有车子的模型的价格，之后想要分析近10年来这些车子价格的变化，这些数据可能是从一个一个车辆销售网页拿下来的数据，网页抓取的过程也是可以使用class这个形式封装这个过程，然后把有用的数据存进数据库里面，最后再做一些查询分析。

总结来说，在数据类工作的日常中，如果你了解了OOP的概念，可以试着去复刻一些如机器学习的模型的过程。随着职业的发展，如果你在后期想成为一个机器学习工程师或者转做AI相关的岗位，理解这些模型的过程是非常重要的，能更有效的帮助完成工作。

以上就是本文的全部内容！欢迎你进一步研究Python OOP，为你的数据科学生涯打下更坚实的基础！你还可以订阅我们的YouTube频道，观看大量数据科学相关公开课：https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ；在LinkedIn上关注我们，扩展你的人际网络！https://www.linkedin.com/company/dataapplab/

Recap 作者：数据应用学院
美工编辑：过儿
校对审稿：佟佟
公开课回放链接：https://www.youtube.com/watch?v=xKL1u8hF8rI

April 13, 2022 | Blog | Tags: 数据科学

Data Scientist生产力进阶—Python OOP编程快速入门

Data Scientist生产力进阶—Python OOP编程快速入门

数据科学是如何转变游戏行业的?

你知道吗？SQL也能做机器学习！

Latest post

2026不要错过20万年薪的AI最新工作

变天了，计算机毕业生就业困难

大语言模型科技黑话大公开

Courses

Events

Lecture 13: 100 Days of LLM Mastery

Lecture 14: 100 Days of LLM Mastery

Lecture 15: 100 Days of LLM Mastery

Consulting

ABOUT US

Contact Info: