2022年数据科学还会继续火吗?Data Scientist 的求职展望

2022年数据科学还会继续火吗?Data Scientist 的求职展望

近几年,随着人工智能的发展,数据科学相关岗位在各个行业的应用相当广泛,相关岗位的招聘形势也比较好,即便在这两年有疫情的情况下,在很多行业中也保持着岗位量比较高的状态。但是随着最近几年科技的发展,也有很多新兴的行业正在崛起。比如,Facebook改名Meta之后,元宇宙这个概念被越来越多的人所关注,很多即将步入职场的求职者也开始思考在未来的十年当中,数据科学相关岗位是否还会像这几年一样受欢迎。如果你想了解更多数据分析相关内容,可以阅读以下这些文章:
数据岗位大合集|DS、DA、BA和DE的区别及求职面试重点
Data in HR Management:商科社科人文科数据分析求职新方向–人力资源管理
数据科学家求职必备编程技巧
四个数据科学求职者的常见失误

今天我们要讲的内容有分为以下几个部分:

1 预测2022年数据科学分析行业变化

数据科学肯定会慢慢渗透到越来越多的领域,是一个很明显的趋势,大数据、数据科学、机器学习在近二十年的发展非常快速。刚开始这些领域都是和互联网、IT行业相关,比如电商行业、视频网站等等,后来发展到金融等行业(因为金融行业和IT、数据科学的发展是紧密相关的)数据科学在这些行业中发挥了非常重要的作用。

第一个预测趋势:在不久的将来,随着大数据的发展,那些相对传统的行业可能也会受惠于数据科学的发展,并且逐步产生一些新的应用甚至一些交叉的科学科学,这些都是非常值得关注的趋势的变化。

第二个预测趋势:整个数据分析、数据科学、机器学习行业将会越来越轻量化(或者说小型化—),总体来说得益于硬件的发展。因为,深度学习在最近十多年的发展非常快,其中一个很重要的原因是硬件的性能快速的发展,这也意味着可能会出现更多的模型(比如一些相对轻量的模型),可能会在更小的硬件或者主板上实现。比如,在一些或者智能家电的嵌入式芯片上,我们就可以放入一些比较简单的模型,这样就能在非常靠近终端用户,很前端的时候收集数据进行一定程度的数据分析或者是机器学习的一些建模。

第三个预测趋势:整个数据分析、机器学习一系列链条的自动化。很多同学多少做过一些数据科学相关的工作,我们会发现日常工作中的相关代码并没有那么多,更多的是在前端准备一些数据,从别的地方把这些数据抓取到,做ETL还有一些数据科学工作偏后端(指整个流程后期的一些工作),也是比较花费时间的。所以,数据科学家的工作用在核心工作的时间比较有限,大部分时间花在周边的一些工作(比如数据准备)。现在的趋势是,我们可不可以在一定程度上自动化这些步骤,至少可以帮助数据科学家们解决一些很常见、很冗余的问题,通过比较自动化的方式来实现。有了这些平台或者工具,可以降低数据科学家们在非核心工作方面的一些工作量,提升工作效率。

针对行业发展,我们从招聘信息方面进行分析,在数据科学目前招聘的相关岗位资料来看,在2020年和2021年,有一些行业的发展进行了爆发式的增长。比如电商、互联网行业,因为疫情的原因导致很多行业无法线下开展业务,所以很多业务都移到了线上,直接导致像亚马逊这样的电商企业的业务量出现了井喷式的现象,随之而来的招聘也相当火热,亚马逊的招聘从疫情开始到现在后疫情时代一直没有停歇,数量一直保持在高位的态势。

在疫情当中,除了电商之外,很多零售企业也开始逐渐转到线上。比如全球最大的零售商沃尔玛,在进入疫情时代之后将很多的时间和精力和投资放在线上的务的开发,所以这方面的数据类岗位需求一直比较高,这也是一个目前的趋势。在疫情当中,游戏公司的招聘数量也比之前有很大的提升。这些都是受疫情影响的的一些行业,除此之外,一些传统行业的数据岗位招聘量也有所提升,这也是这些行业在进入疫情的这两年当中一个比较明显的变化。

在进入2022年之后,会有哪些新的行业有哪些新的变化呢?从2021年下半年的岗位招聘情况来看,传统的媒体行业,比如以前以电视节目为主的平台也开始逐渐转型,其他的行业和媒体公司也都出现了这样的情况,更多的公司开始注重线上app端和电脑客户端的开发。

在新的一年里,我们可预见的是在移动支付这个行业里,针对数据类岗位也会有一些新的增长。近几年,美国的移动支付的竞争越来越激烈,相比之前比较少的选项,各方移动支付公司都在抢占市场。除了传统零售业的支付,在医疗、银行等专业领域的移动支付方面,也有很多公司在抢夺这块领域的蛋糕,所以2022年,这些公司的数据类招聘数量也会出现新的增长、新的开始。

所以,从行业来看,数据类岗位的需求一直都会存在下去,这也就回答了大家一直很关心的问题-数据类岗位会不会一直火下去。目前来看,数据类岗位的行业适应性非常强,同时,随着越来越多的业务搬到线上,数据的增长量也一定是呈指数级上升趋势,未来不论什么行业的数据都会成为该行业销售和发展的主要推动力。所以短时间内,数据类招聘数量不会出现很大幅度的下降,我们也会比较乐观地看到市场上有越来越多的行业招聘数据类岗位。

2 2022年值得关注的技术和工具

基于之前观察到的一些行业变化和趋势,大家可以关注一下机器学习自动化这一块。前面,我们谈到了如何帮助DS和MLS将日常中一些没有必要的工作化繁为简,目前,我们公司也在适用一些典型的开源项目,比如ML Flow。ML Flow是一个比较简洁的平台,可以记录模型运行效果(例如准确度等),也可以帮助你做一些相对来说比较自动化的部署。还有一个小的趋势,之前我们可能意识到如何将线下构建的模型投入生产,如果是几年前,受限因素比较多,例如Python很多包和技术的成熟度,导致整个系统的运行效果跟不上,所以在线下构建模型时,比较传统的方式是请一些DS或MLS构建一些好的模型;如果你想搬到线上,可能会找一些Java或C语言的工程师,读取线下的模型,转换成Java的编码或者是线上的编码。

但近几年,随着Python生态圈日趋成熟,而且Python3的系统运行效果也不错,对于中小型企业来说足够用了;在这种情况下,我们是不是可以考虑直接将python模型从线下转换为线上的模型,在这种情况下,也可以使用前边提到的ML Flow,将源编码或者相关的资源文件打包成artifact,然后把它存储到某个服务器上,之后再部署的时候就可以直接加载airifact,从而服务线下。这就是ML Flow对整个生态系统的帮助。这些工具都可以很好地帮助我们自动化流程,从构建模型到评估到最后的运用。

还有一些技术我们需要关注一下,比如Transformer,这个技术主要是针对NLP、ML。针对NLP,物品们有一些深度学习的技术,比如BIRD, Transformer的一些概念,包括在整个NLP领域中如何使用基于Transformer-embedding开展典型的工作,例如classification、Q&A等。

3 数据科学求职经验

首先,让我们讨论一下数据类岗位的面试主要考察哪些方面?其实DS的titile是比较宽泛的,如果大家仔细观察一下,可以发现不同公司的DS的工作内容也不太一样。例如,有些公司可能比较侧重于如何用更科学的方法做AB-Testing,有些更倾向于做ML modeling,模型评估,有些甚至可能会做NLP、推荐引擎、搜索等内容。所以,我建议:

  • 第一,大家可以去看一下大家对什么样的职位感兴趣。那如何了解一个公司的DS到底是做什么的呢?
  • 第二,你可以看看有没有认识的朋友或者前辈在这家公司的相关部门任职,询问他们DS的日常工作有哪些,工作重点是什么等。你还可以从职位描述/岗位要求里寻找线索。一些比较清楚的JD会写的非常详细,标明需要掌握哪些技能。
  • 第三,如果有HR联系你,询问你是否对某个职位感兴趣,你也可以通过这种方式了解详情。在了解过不同公司对DS岗位的不同要求后,你也需要明确自己的想法,确定自己到底对哪方面感兴趣。如果有机会,你也可以在类似的岗位或公司实习。

第一个经验可能是了解一下每一个DS的具体要求是什么,以及它是否符合你的期望。

第二个也就是下一步,在了解了你期望公司DS的要求之后,你需要根据你的短板去有针对性地进行一些技能的自我提升,比如刷题、上网课。

如果有机会的话,你也可以去找一些类似的实习,增加一些工业界或python的经验。如果大部分朋友还在学校的话,做的是偏微社区一点的项目,但是在工业界的DS可能和在学校做的开发研究不太一样,要求也不太一样,所以如果你能找到一些实习的机会,也是非常有助于未来职业发展的。

关于DS方向的求职也给大家分享一些建议:

第一,在选择岗位方向时,可以看到在数据科学方向上title细化地越来越多。两三年之前针对招聘数据科学招聘的岗位名称都比较简单,很少有加后缀的。但是近两年发现在数据科学岗位上的细分比之前要多很多。

大体来看,可以分为两类,第一类是数据科学家,根据技术应用来做细分,比如Facebook的一个岗位“Data Scientist, Analytics”,这类岗位就是在DS岗位里面针对Analytics方向细分的一个岗位。

除此之外,还可以看到“Data Scientist, Machine Learning”,“Data Scientist, NLP”类似这样的岗位。大家在网上搜索的时候可以有针对性地做一些筛选,比如你在工具应用和技术层面有自己的强项和优势,在其他方向上稍微有一些短板。按照传统的data scientist定义,你并不是完全的合格,但是现在岗位有了细分之后,你只要在单项上稍微突出,其他方面不是特别地弱,你可以针对这些专项岗的data scientist去做有针对性地申请,这样成功率会比以往更高一些。给大家的一个建议是,你可以根据自己的技术优势去选择data scientist岗位里面的技术单项,这是一个分类。

第二种分类是根据公司业务板块进行分类。比如“Data Scientist, Operation Strategy”,“Data Scientist, Marketing”,“Data Scientist, Purpose”,这些岗位不同公司叫法不一样,没有说有统称,没有办法突出岗位的重点,也没有说在Analytics方向还是在Machine Learning方面比较强。它要求你在比较均衡的技术背景前提下,对于产品板块或商业背景有更好地了解或比较资深的从业经历,所以你也可以根据你过往所在行业、所在部门、职业经历去进行一个筛选,看这类岗位里你更契合哪一种。

我们观察到,Data Scientist细分之后会给大家更多地选择机会,也就是说,你不需要像两三年前在所有技术板块或要求的行业背景都那么强才敢去申请Data Scientist,而现在,在单项有优势的情况下申请这些岗位时还是比较有竞争力的。所以给大家一个建议是,在确定自己岗位方向时一定要根据市场需求、岗位要求以及自身的特色和优势来有针对性进行匹配,在简历投递和面试效果一定是事半功倍的。

第二,像12月份毕业的应届毕业生,5月份即将要毕业的2022届毕业生,都会面临职业方向选择的问题,尤其是国际性留学生在身份状态上的时间限制,给DS专业的毕业生一些建议。虽然是专业是DS方向,但是并不意味着跨出校园后就能很轻易地进入DS这样的岗位上,大家可以搜索一些Job Opening上面Job Description的要求,普遍是什么水平。因为从目前市场招聘的要求来看,一般对过往相关经历上比其他岗位要求要高一些,比如Business Analyst和Data Analyst这样分析类的岗位。

如果你是DS专业的应届毕业生,没有相关方面的经历,我们建议可以从技术要求和相关经历要求相对低一些的数据类岗位做起,这样可以在保证身份状态的前提下,选择能够比较容易拿到offer的岗位方向做一个保障,积累一年以上相关经验后再往DS上走,这样就会顺畅很多。另外,从公司招聘角度来看,DS Entry Level岗位数量比较少,如果你技术经验和行业经验都比较弱的情况下,我们不建议直接申请Data Scientist这样的岗位,效果不会像预想中的那么好。针对这个岗位方向求职,一定要根据自身实际情况和市场情况循序渐进地实现自己的职业目标。有些相关岗位,像Analyst和Data Engineer,先选择和自己靠得最近的,onsite距离最近的路径来走,逐步实现Data Scientist这样的职业目标。

同学们在找工作时,要根据自身经验和学科背景来选择求职方向,将拿到offer几率比较高的Entry Level作为起点,可以从Data Analyst找。其实这一方面还是有很多求职机会的,因为公司已经向各个传统行业扩展,比如有一个食品销售和物流的公司,基本上每一个部门都在招Data Analyst,可能在title上不是同一个叫法,“Marketing Analyst”、“Customer Insights”或“Financial”,类似这些。如果同学们仔细查一查看一看它们的工作要求,其实很多都是Analyst,都是对数据进行分析,而且要求也和传统的DA类似,比如Python,Tableau等等,title上有些不一样,这些有很大的求职空间。因为现在每一个部门像物流、市场、人力,都是在招这种数据分析师,同学们要多找一找,换一换关键词,这样能发现更多不同的岗位都在招聘。说到求职经验,一些传统行业只做特定的感兴趣的数据分析,比如说食品传统销售,就只对销售的数据感兴趣或者是对物流,货运到的时间,库存等方面的数据分析感兴趣,所以在准备面试的时候还是要多看一看公司的背景。

比如申请的行业是marketing,就稍微了解一下公司感兴趣的KPI是什么,在面试的时候说出一两个简单的营销推广,或者是物流进度相关的,再加上自己本身数据分析的技能,那你肯定比其他的候选人有更大的优势。所以在准备的时候不止要准备技术方面的技能,要了解你申请的公司对什么感兴趣也非常重要。

数据科学往相对来说比较传统、更广泛的领域去发展。那么就会有一个问题,有些比较传统的行业或者是公司只知道需要什么,却并不太清楚这个就算是data scientist或者那个是data analytics,所以就导致在写岗位描述的时候特别是标题用的关键词就不是我们所熟悉的术语,可能是一个marketing analytics;所以就需要仔细看一下职位描述的要求是什么,是不是和数据相关的,这样就会找到更多的机会。因为如果你是学数据相关,DS、ML相关的话就会懂原来他做的就是DA或者DS的工作,而且在这种相对来说传统一些的行业你可能有更多的施展才能的地方。

4 2022数据科学求职展望

在进入到求职阶段,尤其是那些不是在行业里面已经非常有经验的数据类型岗位求职者来说,一定要对于这类岗位具体的技术要求和行业背景的知识的要求有一个比较客观的了解。因为像在我们AI聘项目当中也会经常遇到一些咨询我们寻求建议的一些求职者说,如果目前的技能状态学的不是那么的扎实,能不能找一些要求比较简单的分析类的分析师的岗位就行,比如只会SQL,不会Python,或者是有一些简单的用Excel来处理就可以的一些岗位。

往往这种情况,我会建议大家一定要在网上多看一些实际正在进行的招聘岗位的要求,因为总是听到同学说我听同学或者是学长学姐是这么讲,这种情况市场上确实存在,但是作为求职准备的建议,我们会建议在这类岗位上面主要功能所涉及的常用工具最好都能会。因为在搜索岗位面试的时候不知道在面试过程中会考察哪些技术层面的,所以不要把自己的技术要求只学到60%的水平就觉得可以了,一定是要把自己的技术能力提升到尽可能的高才可能在横向竞争当中有一定的优势。不然的话面试当中达到了基本要求但是别人比你会的多一些,那么很有可能即便你在满足了资格的前提下拿不下offer,这个是很常见的。

另外大家在准备的时候,不要局限在已经了解到的或者是自己比较熟悉的技术领域,一定要尽可能多、尽可能宽地去涉猎这些岗位可能会涉及的技术层面。我们经常说,像分析类岗位—包括数据科学岗位,这些常用的数据的分析、数据库的管理、可视化这些方向的技巧要尽可能的完整。因为简历筛选在第一步投入到我们HR系统进行机器筛选的时候,你的技巧也是一个非常重要的标准,所以如果说你的课程里面所涉及到的内容相对较浅偏理论,实际应用的不多,那么一定要在课余的时间在求职之前像LeetCode这样的平台的刷题还有相对薄弱技术版块的准备一定要做到。这样,面试当中才可能比较轻松的应对,这是给大家的一个建议,也是经常遇到的一些问题。

同学们在准备面试的时候要准备充分一点,因为数据分析这个领域火了也有几年了,最开始的时候可能大家不知道,对数据科学的概念比较混乱,有一些人可能不是做data science的,但最后拿到offer也是data scientist,这种很幸运,赶上了好时间。但是经过这三四年大家的摸索和技术的沉淀,现在已经没那么容易就拿到一个很好的title、满意的薪资、还不需要付出很多的时间来学习的这样的offer。

现在这种机会不是很多了,而且这些岗位分的越来越细,可以看到数据科学和数据分析所需要的的技术都已经完全不一样了,虽然不是什么内卷,但是大家找工作的门槛儿已经是比较高了,有时候就是找一个初级水平的数据分析师的岗位也是对技术要求很高了,首先要会编程,其次数据库,可视化这些方面也要好好准备。

虽然数据科学应用的领域越来越广泛,岗位的需求也越来越多,但是有一个趋势是不同的公司根据业务或者是需求不同对data science的定义也不太一样,造成求职的时候难度也增加了。果每家公司的要求都不太一样,就要去了解公司的行业背景,公司的需求,所以从自己的强项出发找一个自己很适合的,这是很关键的。

你对2022年的数据科学技术看好么?哪个行业会发展壮大呢?欢迎在评论区留言!你还可以订阅我们的YouTube频道,观看大量数据科学相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:数据应用学院
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://www.youtube.com/watch?v=jxN30c1mWb8&t=888s