Start
March 17, 2018 - 10:00 am
End
March 17, 2018 - 11:00 am
Address
Online Webiner View map直播讲堂
Data Scientist必备工具Pandas的入门与优化,内存占用降低90%
数据应用学院(Data Application Lab)专注于数据, 开办3年来已向全球知名企业输送数百Data Scientists, 更有不计其数的Data Analysts以及Engineers, Business Analysts。多年的钻研和专一打造了独一无二教学方法和求职经验。一直被模仿, 从未被超越。已被多加北美英文科技媒体列为Top 10 North American Data Bootcamp。学员遍布全球, 至今时常还有来自欧洲, 亚太等地的申请者报名。
Pandas对于数据科学工作者而言无人不晓,是一个基于NumPy的非常好用的python库, 为了解决数据分析任务而创建。Pandas纳入了大量标准数据模型,却没能高效便携的处理数据函数和方法。根据我们(Data Application Lab)学员以及我们自己research时候使用pandas的经验,处理一般规模数据(几百兆) 时,如果有足够好配置的电脑,还能够游刃有余。但是当数据库数据量增大后,电脑,处理时间非常缓慢甚至死机。本次在线公开课,对于Data Science入门的同学,我们将简短介绍Pandas的使用方法。 对于已经使用Pandas的用户,我们将向大家介绍如何合理优化Pandas减少内存*。
*内存优化参考Josh Devlin在Dataquest的博文
主讲嘉宾:
Dr.Li:Postdoctoral Researcher, 从事数据分析Data Science多年,拥有丰富Machine Learning经验。从事Data Scientist数据分析之余,热爱游泳与户外运动。
主要内容:
- 1. Pandas是什么
- 2. 如何使用Pandas进行数据处理
- 3.(进阶)Pandas内存优化
- 3.1 如何理解dataframe
- 3.2 subtype是什么,如何优化数值列
- 3.3 数值存储与字符串存储的比较
- 3.4 使用 Categoricals 优化 object 类型
- 3.5其他优化
MORE DETAIL
Website
https://dataapplab.zoom.us/webinar/register/WN_L0pc3Jf_R-eSySrCEhYG6w