【编程&数据处理】pandas 1 | 入门,SO EASY!!!

【编程&数据处理】pandas 1 | 入门,SO EASY!!!

“​Hello World!

我是心里只装着一件事 — 那就是学习聂大哥。”

 

这些天,我看到了一篇妖艳贱货文“10 Minutes to Pandas (10分钟搞定pandas)”。

我的内心os是:开什么玩笑,怎么可能…

但是pandas官方文档标题就是这么写的:

抱着10分钟肯定搞不定的想法,我果真花了1小时16分钟才看完…官方文档这标题简直气死人不偿命…

所以我决定还是把这篇标题党文拆成几篇文章来讲,一篇只需花10分钟的时间,好学的宝宝可以自行去https://pandas.pydata.org/pandas-docs/stable/10min.html 或点击最后“阅读原文”查看原文。

阅读本文前,最好对python,pandas和numpy有一丢丢的小了解,最起码知道series, array, dataframe等基本概念。

小麻瓜们可以先阅读以下另一篇文章→_→ Python数据处理:关于Pandas你需要知道的都在这里了

在读这篇“10分钟”骗子文之前,我对pandas的了解仅限皮毛,比如读取文件,了解python数据结构,选取需要的数据等,都是一些最最小白的姿势。

虽然它骗了我,不过不可否认,它真的是,大写加粗的学习素材精华!!!如果你也是跟我一样的pandas小白,相信你读完后,也会跟我一样,大呼过瘾,手抖抖拉到文章末尾,点个赞,点个收藏,然后也许就没有然后了。

好吧,废话说了那么多,接下来跟进大哥好好学习。主要还是用的原文英文,原文的英文注释都非常友好,在遇到一些小麻瓜们可能会卡机的地方,大哥加了注释~~~

墙裂建议,不要偷懒,用电脑打开此文,并在自己的jupyter notebook里打一打代码,会对pandas理解更深刻!

0)Import Libraries

Customarily, we import as follows:

木有导入pandas,numpy,matplot画图库,接下来怎么玩~ 墙裂建议下载一个Anaconda,里面自带很多使用频率超高的库,包括pandas、numpy和matplotlib这些~ 安装新库也非常方便快捷~ 

1)Object Creation

Creating a Series by passing a list of values, letting pandas create a default integer index:

pandas使用NaN(not a number)来表示缺失值,使用numpy的nan来生成,这些值默认不会包含在计算中~

Creating a DataFrame by passing a numpy array, with a datetime index and labeled columns:

Creating a DataFrame by passing a dict of objects that can be converted to series-like.

Having specific dtypes

float 32和float64的区别:数位的区别,一个在内存中占分别32和64个bits,也就是4bytes或8bytes,数位越高浮点数的精度越高(百度知道_行云啊)

2)Viewing Data

See the top & bottom rows of the frame

Display the index, columns, and the underlying numpy data

Describe shows a quick statistic summary of your data

Transposing your data (行和列交换)

Sorting by an axis

sort_index()默认是axis=0,ascending=True,对行进行排序,升序排列。

如果要对列进行排序,并设成降序,就是df.sort_index(axis=1, ascending=False)~

Sorting by values

未完待续,想学pandas的宝宝们记得持续关注哦,比心~