Live 线上讲座
数据科学读书会 Book 11 – 数据科学家的实用统计知识
第七讲
数据应用学院(Data Application Lab)专注于数据科学,人工智能和大数据的职业教育, 每年向全球各地,包括硅谷和华尔街的知名企业输送数百 Data Scientists, 更有大量的 Data Analysts,Business Analysts,Machine Learning Engineers,Software Engineers 以及 Data Engineers。多年的钻研积累和专一打造了独一无二教学方法和求职经验。被多家北美英文科技媒体列为 Top 10 North American Data Bootcamp。学员遍布美国加拿大,还有来自欧洲, 澳洲和亚太等地的慕名者报名参加。
统计方法是数据科学的关键部分,但很多数据科学爱好者并未系统学习过统计学。从数据科学的角度来看,有关基础统计的课程和书籍很少涵盖数据科学相关分析。有许多问题我们更加希望从统计学角度深刻理解原因和内涵。
我们日常学习数据科学中,经常有下面这些问题:为什么探索性数据分析(EDA)是数据科学中关键的初步步骤,即使有大数据,随机抽样如何能够减少偏差并产生更高质量的数据集,实验设计原理为什么能准确得出问题答案,如何使用回归来估计结果并检测异常。又或者,如何才能从基础系统梳理统计概念?
本系列讲座适合Data Scientist ,Business Analyst, Data Analyst等从业者或者求职者,希望能够学习统计Statistics相关知识。讲座以O’Reilly的Practical Statistics for Data Scientists一书参考背景, 同时结合其他学习信息,提供了将统计方法应用于数据科学的实用方法。
本期读书会纲要:
(预计5-7讲,每讲内容根据时间安排微调,请关注微信公众号:大数据应用 获取最新更新)
第1讲
统计与探索性数据分析 – Chapter 1
常见数据类别
Data Frame与Indexes
探索数据Feature中的重要指标 Mean与Median等
标准差与相关估计
探索常见数据分布 Percentiles和Boxplots
数据频率与直方图,数据的Density估计
探索Binary与Categorical数据
数据相关性分析与Scatterplots
2个或更多变量分析
第2讲
数据与样本分布1 – Chapter 2
为什么需要随机取样
随机取样与样本偏差
中央极限定理
第3讲
数据与样本分布2 – Chapter 2
Resampling与Bootstrapping对比
置信区间
正态分布
Long-Tailed分布
t-分布,二项分布
泊松分布与其他相关分布
第4讲
统计试验和显著性测试 1 – Chapter 3
A/B 测试
Hypothesis测试
重采样
显著性与P-value
t-Tests
第5讲
统计试验和显著性测试 2 – Chapter 3
多重测试与自由度
ANOVA
Chi-Square测试
Multi-Arm Bandit 算法
功效分析 Power Analysis
第6讲
统计与常见回归预测方法 – Chapter 4
线性回归
其他回归相关知识及影响因素
回归诊断:测试与假设
第7讲
统计与分类器 – Chapter 5
Naïve贝叶斯
Discriminant分析
逻辑回归
处理Imbalanced数据
【什么样的人值得付出 1hour 来学习?】
希望学习数据科学统计知识
数据科学,商业分析相关爱好者,求职者
希望查漏补缺完善统计学相关知识
商业分析,数据科学转行,希望拓宽知识面
【所有成功注册并全程出席的同学将获得特别礼品】
获得资格加入北美求职互助群
获得数据应用学院奖学金积分50美金
可以领取数据应用学院的数据科学家课程优惠券
2021年4月24日 “商业分析师求职训练营” 开营啦!https://www.dataapplab.com/ba/
数据应用学院 — 北美留学生求职的最佳路径 www.dataapplab.com