Live | A Beginner’s Guide to Optimizing Pandas for Data Scientist.

Pandas入门与优化,内存占用降低90%!Data Scientist必备技能

Start

March 17, 2018 - 10:00 am

End

March 17, 2018 - 11:00 am

Address

Online Webiner   View map

直播讲堂

Data Scientist必备工具Pandas的入门与优化,内存占用降低90%


数据应用学院(Data Application Lab)专注于数据, 开办3年来已向全球知名企业输送数百Data Scientists, 更有不计其数的Data Analysts以及Engineers, Business Analysts。多年的钻研和专一打造了独一无二教学方法和求职经验一直被模仿, 从未被超越。已被多加北美英文科技媒体列为Top 10 North American Data Bootcamp。学员遍布全球, 至今时常还有来自欧洲, 亚太等地的申请者报名。


Pandas对于数据科学工作者而言无人不晓,是一个基于NumPy的非常好用的python库, 为了解决数据分析任务而创建。Pandas纳入了大量标准数据模型,却没能高效便携的处理数据函数和方法。根据我们(Data Application Lab)学员以及我们自己research时候使用pandas的经验,处理一般规模数据(几百兆) 时,如果有足够好配置的电脑,还能够游刃有余。但是当数据库数据量增大后,电脑,处理时间非常缓慢甚至死机。本次在线公开课,对于Data Science入门的同学,我们将简短介绍Pandas的使用方法。 对于已经使用Pandas的用户,我们将向大家介绍如何合理优化Pandas减少内存*。

 

*内存优化参考Josh Devlin在Dataquest的博文


主讲嘉宾:

Dr.Li:
Postdoctoral Researcher, 从事数据分析Data Science多年,拥有丰富Machine Learning经验。从事Data Scientist数据分析之余,热爱游泳与户外运动。

主要内容:

  • 1. Pandas是什么
  • 2. 如何使用Pandas进行数据处理
  • 3.(进阶)Pandas内存优化
  • 3.1 如何理解dataframe
  • 3.2 subtype是什么,如何优化数值列
  • 3.3 数值存储与字符串存储的比较
  • 3.4 使用 Categoricals 优化 object 类型
  • 3.5其他优化