作者 / Jason Jung
翻译整理 / 九三山人
前言
随着数据科学行业自2013年以来的爆炸式流行,该行业一直在广泛发展,但也在慢慢地向更具体的角色靠拢。这不可避免地导致了在其成长过程中工作功能的混淆和不一致。例如,似乎有许多完全相同的角色和不同的头衔,或者相同的头衔和不同的角色:
分析数据科学家,机器学习数据科学家,数据科学工程师,数据分析师/科学家,机器学习工程师,应用科学家,机器学习科学家……
这样的例子不胜枚举。即使对我来说,招聘人员也会找我应聘数据科学家、机器学习(ML)专家、数据工程师等职位。显然,整个行业都很困惑。造成差异如此之大的原因之一是,各公司对数据科学的需求和使用非常不同。不管原因是什么,数据科学领域似乎正在分支和合并为以下几个顶级类别:数据分析师、软件工程师、数据工程师和AI研究员。不管相似的标题说什么,它们通常都属于这些类别。这种专业化在能够负担得起的大型科技公司中最为真实。
在本文中,我们将首先了解数据科学行业的总体趋势,然后更深入地比较ML engineer和data scientist。我并不想提供一段宽泛的描述,而是讲述我作为一名数据科学家生活在硅谷的所见所见。我想利用这个机会来解释这些区别,帮助你找到最适合你的角色。让我们看看这个行业是否还在蓬勃发展,还是已经结束了,因为这是数据科学家的工作,对吗?(也许不是)。无论如何,我希望你发现它有用和信息。
数据科学产业发展趋势
在我们深入挖掘之前,先看看我在LinkedIn上找到的两个职位描述。试着猜一下这些描述的标题是什么。我用红色标出了一些关键点:
非常不同,对吧?令人惊讶的是,这两个职位都是数据科学家。左边是Facebook,右边是Etsy。我并不是说一个比另一个好。重点是看看它们有多么不同。
即使在工作中,人们也会积极讨论如何定义数据科学家。我见过人们把数据科学家描述为计算机科学博士或新数据分析师。这是因为不同的公司对不同的职位使用数据科学家这个术语。然而,我相信这个行业已经学会了更具体、更专业的角色,而不是把所有的东西都塞进数据科学的广泛范围。
那么,数据科学家可以暗示哪些不同的角色呢?在很大程度上,我认为他们是软件工程师、数据分析师、数据工程师和应用/研究科学家。我看到我的朋友有同样的数据科学家头衔,但他们的角色是四个之一。看看下面我创建的图表。在数据科学的早期,数据科学家可能包括这四个角色。然而,今天的职位正变得越来越具体和专业化,如下图所示。
《哈佛商业评论》(Harvard Business Review)预见到了它的到来吗?
这种趋势令人惊讶吗?根据著名的文章《数据科学家:21世纪最性感的工作》,事实并非如此:
数据科学家最基本、最普遍的技能是编写代码的能力。但在五年后,这一点可能就不那么正确了,因为更多的人会在他们的名片上印上“数据科学家”的头衔。
正如这篇文章所建议的,作为一名数据科学家,你没有理由成为一名优秀的程序员。在此之前,用来分析大数据的工具和方法并不是那么容易访问和用户友好。这就要求数据科学家在其他技能的基础上具备较强的工程技能。但是用于ML和数据科学的工具发展迅速,现在比以往任何时候都更容易访问,因此您只需几行代码就可以访问最先进的(SOTA)模型。这使得角色更容易分离为分析或工程。现在,我们不必像以前那样,专注于学习所有的分析、工程和统计知识来成为一名数据科学家。
例如,Facebook引领了这一趋势,让数据分析师乔布斯变成了数据科学家。这是一个自然的过程,因为随着数据大小的增加和更具挑战性的数据问题,执行良好的分析需要更多的技能和培训。不仅仅是Facebook,像苹果这样的公司,Airbnb已经明确区分了分析/产品数据科学家和ML数据科学家。
公司规模如何影响角色
值得一提的是,专业化更多发生在大型科技公司。不同于各种规模的科技公司都需要软件工程师,并不是所有这些公司都需要专业的研究科学家或ML工程师。拥有一些数据科学家可能就足够了。所以在小公司里,仍然有一些数据科学家可以同时扮演这四个角色。
根据经验,大公司(FANG)的数据科学家通常类似于高级分析师,而小公司的数据科学家更类似于ML工程师。这两种功能都是重要和必需的。接下来,我将继续使用我的新定义,其中data scientist意味着一个分析函数。
不同的数据科学家以及如何选择他们
在下面的图表中,我试图展示一个与上面的图表类似的图,但对这四种功能有更详细的了解。描述并不完美,但你可以参考它。
求职-选择哪个职位以及如何准备?
如果您试图进入这个领域,无论是作为一名ML工程师还是数据科学家,您可能想知道应该选择哪一个。让我列出四个与ml相关的主要角色的简化(和定型)描述,以帮助您澄清。虽然我个人并没有获得所有这些头衔,但我从各个领域的朋友那里学到了很多见解。我还在括号中提供了可能的面试内容(把它想象成四轮面试)。
数据科学家:你想分析大数据、设计实验和A/B测试、构建简单的机器学习和统计模型(例如使用sklearn)来驱动商业策略吗?这个角色不太固定化,有更多的不确定性,你将主导项目的进展。(面试范围:1个大概/统计,1个Leetcode, 1个SQL, 1 ML)
ML工程师:你想构建并部署最新的机器学习模型(例如Tensorflow, PyTorch)到生产环境中吗?您的重点不仅是构建模型,而且是运行和支持模型所需的软件。你更像是一个软件工程师。(面试范围:3 Leetcode, 1 ML)。
研究科学家:你有计算机科学的博士学位并在ICLR发表过几篇ML的论文吗?你想突破ML研究的边界,当你的论文被引用时感到兴奋吗?这些是稀有品种,你已经知道你是谁了。这些人中的大多数最终都进入了谷歌或Facebook。而且,没有博士学位也可以进入这个行业,但不幸的是很少。(面试范围:1 Leetcode, 3 ML/研究)。
应用科学家:你是ML工程师和研究科学家的混合体。您不仅关心代码,还关心使用和推进最新的(SOTA)机器学习模型。(面试范围:2 Leetcode, 2 ML)。
显然,这些描述并不详尽。但当我和朋友聊天,看了很多工作描述,我发现这些想法很普遍。如果你对自己申请的职位不确定,这里有一些建议可以帮助你进一步了解:
- 阅读职位描述:老实说,头衔并不重要。它可能被称为相同的“数据科学家”,但工作描述可能有很大的不同。
- LinkedIn跟踪:如果你不确定苹果公司的数据科学家是什么样的人,只要看看苹果公司的数据科学家在LinkedIn有什么样的背景就可以了。他们都是计算机科学博士吗?本科生吗?他们接受过什么样的培训?这将帮助你有一个更好的想法。
- 面试:如果你认为你的职位是技术职位,但没有面试过编程,你可能不会得到一个技术职位。你的面试内容反映了工作的性质。
ML工程师vs数据科学家
好吧,够长了。现在回到我们的话题。近年来,我开始听到人们对数据科学工作的负面评价。造成这种情况的几个原因是,越来越多的数据科学家工作似乎不再具有很酷的机器学习特征,而似乎更容易获得。也许五年前,大多数工作要求至少有硕士学位才能得到数据科学家的工作,但现在情况已经不一样了。不管人们认为数据科学(至少在过去)结束的原因是什么,让我们看看一些数据。
下面的数据和图表来自世界著名的薪资数据库引擎,salary Ninja。它根据在美国的外国工人在H1-B数据库上进行搜索。你会看到2014年至2019年职位名称中含有“数据科学家”或“机器学习工程师”的职位的平均工资和数量。
你对结果感到惊讶吗?尽管这两个职位的平均工资相似,但你可以看到数据科学家的平均工资在2015年和2016年有所下降。也许这就是人们所说的数据科学家的好日子结束了。就纯粹的数量而言,数据科学远远大于ML工程,但你可以看到ML工程师的增长速度更快,薪水也更高。
为了方便您阅读,我提供了从Salary Ninja收集的本文中讨论的几个角色的总结统计数据。我对过去六年(第一个表)及其子集和最近的2019年(第二个表)做了一个总体总结。最后,我只列出了一个公司的表格,微软(第三个表格)。
我学到了一些有趣的见解:
- 总体而言,数据分析师的人数要多于数据科学家,但2019年情况将完全不同!这是否意味着数据分析师正被重新定义为数据科学家?
- ML工程师的薪水略高于数据科学家,但该领域的ML工程师要少得多。这是因为ML工程师的正式头衔通常只是软件工程师。
- 研究科学家的平均水平低得令人吃惊。我发现这是因为数据库可以包括许多其他类型的研究科学家,而不仅仅是那些在技术ML研究。这就是为什么我只为一家科技公司列了一张桌子,以减少这种噪音。正如预期的那样,研究人员获得了微软最高薪酬的宝座。
- 我对这位数据工程师130万美元的基本工资感到惊讶。这是疯了!也许你应该考虑那个职业。
- 请记住,这个数据集只包括底薪,而股票期权通常在科技界扮演着重要的角色。此外,它没有描绘出就业市场的全貌。然而,考虑到科技行业的外籍员工数量,这应该仍然是一个很好的替代指标。
根据这些数据,我不能说数据科学行业已经破产。它仍在增长,但可能会更加专注于分析。根据我的观察,似乎有更多的数据科学工作需要更少的先决条件,但这不是一件坏事。
结论
我写这篇文章是因为我自己对这个行业正在发生的所有变化感到困惑。而且,人们似乎对什么是数据科学有很多不同的看法。不管谁对谁错,我希望你能看到趋势并自己做出决定。
最后,不要因为一个工作或行业的平均工资较高或流行词汇而选择它。不管你的头衔是数据科学家、ML工程师还是数据分析师。有人说数据科学家是工程师还是分析师并不重要,因为两者都可能是真的。
虽然根据薪水来比较职位头衔很容易,但选择一个你喜欢并且擅长的职位要重要得多。专注于你所做的实际工作,确保它适合你。仅仅因为平均工资可能更低,并不一定意味着你的实际工资会更低。正如您前面看到的,我讨论的所有角色的最高工资都很高。