2021年数据科学家,最需要这7个技能!
与世界上最具影响力的数据行业领先者们(来自 Google、NVIDIA、Wealthsimple)进行了多次互动和讨论后,在本文中,我将分享7项他们最推荐的数据科学技能。如果你想了解更多数据分析相关内容,可以阅读以下这些文章:
数据科学家,知道这些统计知识就对了
Sampling 101:详解统计学中的抽样技术
AB 测试应用:AB Testing在社交领域的实践及挑战
数据科学家八大最常见统计面试题
虽然这篇文章可能更多算是一些趣闻轶事,但我觉得它的观点还是很有价值的。我并不指的是那些招聘信息中的数据,因为根据我的经验,职位描述与实际工作之间往往存在着相当大的差距。
你也许会发现,这7项技能中没有一项与机器学习或深度学习有关,这并不是文章有误。目前,公司们对建模前的阶段和建模的后阶段,对数据科学家在技能方面提出了更高的要求。因此,数据科学家最需要的7项技能实际上与数据分析师、软件工程师和数据工程师的技能重叠。
说完这些,让我们开始深入探讨 2021 年最值得学习的7项数据科学技能。
1) SQL
SQL 是数据界的通用语言。无论是数据科学家、数据工程师还是数据分析师,都需要掌握 SQL。
SQL 用于从数据库中提取、操作数据和创建数据管道——本质上,它对数据生命周期中的每个预分析/预建模阶段都至关重要。
培养强大的 SQL 技能能让你的分析、可视化和建模能力更上一层楼,因为你将能够以高级的方式提取和操作数据。此外,对处理 PB 级数据的公司也越来越看重编写高效且可扩展的查询的能力。
以下是一些喜欢的学习 SQL 的资源:
- Mode的数据分析SQL教程
- Codecademy — 学习 SQL
- FreeCodeCamp — 面向初学者的完整数据库课程
2) 数据可视化&用数据讲故事
如果你认为,创建数据可视化和用数据讲故事只限于数据分析师,那么请你重新思考。
数据可视化是指以视觉方式呈现的数据——它可以是图形,也可以以非常规的方式呈现。
用数据讲故事,会将数据可视化提升到一个新的水平——用数据讲故事是指数据科学家“如何”传达想法。你可以把它想象成一本图书。好的图书的视觉效果非常好,同时,它也有一个引人入胜且强有力的叙述,可以与视觉效果联系起来。
培养数据可视化和用数据讲故事的技能是必不可少的,因为数据科学家经常需要诠释自己的想法和模型。在与非专业技术人员交流时,这一点尤其重要。
以下是一些我最喜欢的学习数据可视化和用数据讲故事的资源:
- 使用 Matplotlib 进行数据可视化
- 使用 Plotly 进行数据可视化
- 谷歌——用数据讲故事
3) Python
从交流与互动结果来看,Python 可以说是除R语言以外的首选编程语言。这不是说,如果你使用 R语言就不能成为一名数据科学家,但你使用R,会和大多数人的选择不同。
学习 Python 语法很容易,但你需要编写高效的代码,充分利用 Python 提供的各种库和包。Python 编程是处理数据、构建机器学习模型、编写 DAG 文件等应用程序的模块的组合…
以下是一些我最喜欢的学习 Python 的资源:
- FreeCodeCamp — 面向初学者的完整 Python 课程
- Leetcode
4) Pandas
可以说,Python 中最重要的库就是 Pandas,它是一个用于数据操作和分析的包。作为数据科学家,无论是清理、探索数据还是操作数据,这个包都会一直出现。
Pandas 作为数据包如此受欢迎,不仅因为它的功能,还因为数据框( DataFrames) 已经成为了机器学习模型的标准数据结构。
以下是一些我最喜欢的学习 Pandas 的资源:
- Kaggle — 学习 Pandas 教程
- Guipsamora——Panda练习
5) Git/版本控制
Git 是技术社区中最主要使用的版本控制系统。
如果你不知道这是干什么的,请考看下这个例子。在高中或大学,如果你要一篇文章,那么你可能会在完成时保存不同版本的文章。例如:
玩笑到此为止,Git 是一个服务于相同目的的工具,只是它是一个分布式系统。这意味着文件(或存储库)会同时存储在本地和中央服务器中。
Git 非常重要,原因如下:
- Git可以恢复旧版本的代码。
- Git可以让你与其他几位数据科学家和程序员协同工作。
- Git可以让你与其他人使用相同的代码库,即使你们处理的项目完全不同。
以下是一些我最喜欢的学习 Git 的资源:
- Codecademy — 学习 Git
- MIT——版本控制
- 学习 Git 分支
6) Docker
Docker 是一个容器引擎,在这个引擎中,你可以部署和运行应用程序,例如机器学习模型。
数据科学家不仅要知道如何构建模型,还要知道该如何部署,这一点变得越来越重要。而且,现在很多职位公告都要求具有一定模型部署经验。
学习如何部署模型非常重要,原因在于:模型在相关的流程/产品实际集成之前,是不存在任何商业价值的。
以下是一些我最喜欢的学习 Docker 的资源:
- Docker初学者
- Docker初学者:从 Docker 桌面到部署 [YouTube]
- 部署Docker容器
- 使用Docker容器在云上部署机器学习管道
7) Airflow
Airflow 是一种工作流管理工具,通过Airflow, 可实现工作流自动化。更具体地说,Airflow 可为数据管道和机器学习管道创建自动化工作流。
Airflow 功能强大,因为你可以通过它将想要用于进一步分析或建模的工作流投入生产化。同时,它也是一个可用于机器学习模型部署的工具。
以下是一些我最喜欢的学习 Airflow 的资源:
- Airflow 教程1:Apache Airflow 简介 [YouTube]
- Apache Airflow 完整介绍
- 教程 — Airflow 文档
感谢你的阅读!
我希望这有助于指导你的学习,并为你在数据科学道路上为你提供帮助。要学的东西很多,所以我选择了一些你一定会觉得很有趣的技能,这样才能更好地开始学习之旅。
请记住,这更像是一篇来自趣闻轶事经验的个人文章,因此请从本文中获取你觉得有用的内容。祝你在学习中取得优异的成绩!你还可以订阅我们的YouTube频道,观看大量数据科学相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/
原文作者:Terence Shin
翻译作者:Lia
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://towardsdatascience.com/7-most-recommended-data-science-skills-to-learn-in-2021-ac26933f0e8a