“数据全才”心酸职场求生指南

“数据全才”心酸职场求生指南

不知道大家有没有类似的情况,你一个学数据的,在别人问的时候说,我是学数据的,学得可好了,啥都能做。你以为这样可以帮你带来好工作么?并不能的宝贝。很多时候,generalist 并不如清清楚楚知道自己 specialize 在哪优秀。今天我们就来给你说说被 data science 头衔遮盖的五个 specialist 都是啥!

比起学习一个新的 Library 或者一个新的 Tool;或者比起准备一份无敌简历,我更希望大家先想清楚自己到底是干什么的数据科学家?

数据科学不是一个明确定义的领域,其实公司很难决定要 hire 一个万能“数据科学家”;反而,他们希望可以知道我们即将支付百万年薪的这个整条街最靓的仔(妞)究竟是哪一点最靓?

你可以脑补一下自己是一个家财万贯要 hire 数据科学家的大佬。几乎可以肯定的是,你在头脑中有一个相当明确的问题需要帮助,而这个问题需要一些相当具体的技术诀窍和主题专业知识。例如,一些公司将简单模型应用于大型数据集,一些公司将复杂模型应用于小型数据集,一些公司需要对其模型进行实时培训,还有一些公司根本不使用常规模型。

其中每一个都需要完全不同的技能集合,所以特别奇怪的是,那些蓄势待发的数据科学家所得到的建议往往是如此普普通通:“你要学习如何使用 python,你要自己做一些 classification / regression / clustering 的项目,然后你要坐下来认认真真申请工作。”

我们这些做数据的仙女仙子过多地承担了我们这个年纪不该承受的责任。不管是干嘛的遇到点什么问题,都会把解决问题的重大责任归到数据科学家身上。

– 这个产品啊不行啊,怎么弄啊?本运营需要一个强大的数据 pipeline,谁来弄?

– 哦这个是数据科学部门的任务吧?

– 我们开发部可能需要开发一个新种类的神经网络?

– 这事儿得是数据科学部门的吧?

这很危险,因为这会让拥有豪情壮志的数据科学家渐渐失去对他们心爱的真正数据问题的激情与爱,然后慢慢变成一个什么都能抗的“中央空调”。

这个世界上的通才已经饱和了,你只有知道你自己最长的板在哪,你才能真正地脱颖而出。

然而,想要明明白白地活成一个专家,而不是一个千斤顶,其实挺难的。咋弄呢?今天我们就来说道说道,数据科学家的多个具体的方向是什么!

Job Description:You’ll be managing data pipelines for companies that deal with large volumes of data. That means making sure that your data is being efficiently collected and retrieved from its source when needed, cleaned and preprocessed.

Why Important:如果你只使用存储在.csv或.txt文件中的相对较小的(<5GB)数据集,可能很难理解为什么会有 Full Time 来构建和维护 Data Pipeline。这有两个原因:1)一个50GB的数据集不适合你的计算机的RAM,所以你通常需要其他方法将其输入到你的模型中;2)许多数据可能需要很长的时间来处理,并且通常需要冗余存储。管理存储需要专门的技术知识。

Requirements:您将要使用的技术包括 Apache Spark、Hadoop、Hive & Kafka。SQL 的夯实基础也很重要的。

你要处理的问题大概是这样:

→ “How do I build a pipeline that can handle 10000 requests per minute?”

→ “How can I clean this dataset without loading it all in RAM?”

Job description:Your job will be to translate data into actionable business insights. You’ll often be the go-between for technical teams and business strategy, sales or marketing teams. Data visualization is going to be a big part of your day-to-day.

Why Important:高技术人员通常很难理解为什么数据分析师如此重要,但他们真的很重要。有人需要将一个经过培训和测试的模型和成堆的用户数据转换成一种易于理解的格式,以便围绕它们设计业务策略。数据分析师有助于确保数据科学团队不会浪费时间解决那些无法带来业务价值的问题。

Requirement:您将使用的技术包括Python,SQL,Tableau 和 Excel。你还需要成为一个好的沟通者。

你要处理的问题大概是这样:

→ “What’s driving our user growth numbers?”

→ “How can we explain to management that the recent increase in user fees is turning people away?”

Job description:Your job will be to clean and explore datasets and make predictions that deliver business value. Your day-to-day will involve training and optimizing models, and often deploying them to production.

Why Important:当你有一堆巨大到人类无法 parse 的,又重要到可以拯救人类的数据的时候,你就不得不从中看出点什么。这是数据科学家的基本工作:将数据集转换为可理解的结论。

Requirements:您将要使用的技术包括 Python, scikit-learn, Pandas, SQL,可能还有Flask,Spark 或者TensorFlow / PyTorch。有一些数据科学的职位纯粹是技术性的,但是大多数的都还是要求你有一些 business sense,这样你就不会最终花力气去解决毫无疑义的问题。

你要处理的问题大概是这样:

→ “How many different user types do we really have?”

→ “Can we build a model to predict which products will sell to which users?”

Job description:Your job will be to build, optimize and deploy machine learning models to production. You’ll generally be treating machine learning models as APIs or components, which you’ll be plugging into a full-stack app or hardware of some kind, but you may also be called upon to design models yourself.

Requirements: 必要的技术包括Python, Javascript, scikit-learn,TensorFlow / PyTorch(and/or enterprise deep learning frameworks)和 SQL 或 MongoDB(通常用于app DB)。

你要处理的问题大概是这样:

→ “How do I integrate this Keras model into our Javascript app?”

→ “How can I reduce the prediction time and prediction cost of our recommender system?”

Job description:Your job will be to find new ways to solve challenging problems in data science and deep learning. You won’t be working with out-of-the-box solutions, but rather will be making your own.

Requirements:您将要使用的技术包括Python,TensorFlow / PyTorch(和/或企业深度学习框架)和SQL。

你要处理的问题大概是这样:

→ “How do I improve the accuracy of our model to something closer to the state of the art?”

→ “Would a custom optimizer help decrease training time?”

以上列出的五个JD在任何情况下都不是独立存在的。例如,在早期的初创企业中,数据科学家可能也必须是数据工程师或数据分析师。但大多数工作会比其他工作更灵活地划分为这些类别中的一个,而且公司越大,职能就会更像我们提到的这五种去细化。

总的来说,要记住的是,为了获得聘用,你最好还能是能让自己的技能包能够满点文章前面提到的某一样:如果你想成为一名数据分析师,不要学习TensorFlow;如果你想成为一名机器学习研究员,不要优先学习Pyspark。

你要认真思考一下你想帮助公司建立什么样的价值,并且如何实现这个价值。当然最重要的事情还是首先要想清楚怎么进入一家公司。

原文作者:Jeremie Harris

翻译作者:Carl Lewis

美工编辑:Miya

校对审稿:卡里

原文链接:https://www.kdnuggets.com/2018/12/why-shouldnt-data-science-generalist.html