3分钟:boxplot 从入门到实操,今天你更博学了吗?

3分钟:boxplot 从入门到实操,今天你更博学了吗?

Boxplot,简单来说,就是用五个数值:“Minimum”, First quartile (Q1), Median (Q2), Third quartile (Q3), “Maximum”,来描述数据的分布。方便在比较多个数据时,更加直观快捷又节省内存。

下面让我们来简单复习一下这5个特征数值的定义:

通过上面的表达方式我们发现,Max和Min并不是通常意义的整个数据的最大值和最小值,而是在quartile的基础上加减1.5*IQR。在Max和Min范围之外的数值,就是所谓的Outliers了,它们,不合群。

为了更进一步说明Boxplot,让我们看看 Normal Distribution 情况下的 Boxplot组图。图一标出了正态分布中的 IQR , 图二则向我们展示了从 “minimum” 到 “maximum” 的部分。

当然,现实中数据不可能都是正态分布那么完美。所以接下来,我们用 Boxplot 来分析 Breast Cancer 的真实数据。

步骤一:用 Python 读取数据。

步骤二:用以下的几种方式做Boxplot:

1.     seaborn package

2.     matplotlib package

3.     pandas package

4.     Notched Boxplot

在一番 code 操作之后终于做好了华丽的图片,下一步也是最重要的一步就是解释图表。

在最终图片中可以清楚的看到 Malignant 和 Benign 的肿瘤面积。Malignant 有更广的面积数值范围以及更大的 Outlier。