“我们每天产生的数据量真是令人难以置信。以我们目前的速度,每天会产生2.5万亿字节的数据,但这个速度只会随着物联网(IoT)的发展而加快。——我们每天会创建多少数据?每个人都应该知道的令人振奋的数据,福布斯杂志,2018年
早在2006年,英国数学家Clive Humby就将其称为“新石油”,15年过去了,现在人们似乎真的开始见证数据对商业的影响,现在每个人都想从中分一杯羹。
与石油不同,数据不会被“用完”,因为数据可以无限更新。相比之下,我们认为这两者在某种意义上是相似的,就像石油一样,原始数据本身并没有价值。为了从数据中产生任何价值,数据应该经过严格的提炼,这个过程更被称为“预处理”。
到目前为止,大数据的爆发创造了4种主要角色,但由于行业的新生性质,许多角色的定义都很模糊,根据公司的不同,它们都可以归为一个统称“数据科学”。
数据科学家
数据科学家将计算机科学技能与统计和概率,数学,分析,建模和业务敏锐度相结合,以帮助发现重要问题的答案,从而帮助公司做出客观决策。
数据科学家将不同的数据转换成清晰可操作的见解。通过进一步的推断和分享得出的见解,数据科学家掌握了解决地球上一些最大胆问题的能力。
作为一名数据科学家,你将负责在一个组织中确定关键的改进领域,通过数据科学的视角来研究问题,并通过使用先进的技术,你的工作将是交付多个关键计划来推动业务绩效和收入。
在这些职责中,数据科学家需要与技术和非技术人员进行沟通,提出调整现有业务策略的建议,并从多个来源提取数据。
这个角色包含了大量的工作并且覆盖了广泛的业务方向,如时间序列、自然语言处理和计算机视觉。
数据分析师
与数据科学家相似的是数据分析师。数据分析师在各种分析工具的帮助下仔细检查信息,以确定事实和趋势,再次帮助做出更有利于员工、客户或两者的决策。
许多没有接受过技术背景培训的人——希望从事数据科学职业,他们倾向于利用数据分析师的角色来启动自己在数据世界的职业生涯,然后全面转型为数据科学家。
数据分析师的职责包括执行分析以确定数据呈现的含义,准备基于分析的报告,向高级职员提交报告,分析数据的质量,并修正损坏的数据。
数据科学家和数据分析师之间的界限可能相当模糊。有人说,区别的因素是数据科学家使用模型来进行预测,尽管数据分析师也可能这样做。
“数据科学家发现,数据分析师分析”。
数据工程师
数据工程师负责构建数据管道,将原始的、非结构化的数据转换为干净的格式,从而使数据科学家能够继续执行他们的操作。本质上,他们的角色包括创建和维护分析基础设施,解锁几乎所有其他数据功能——如数据库、服务和大规模处理系统。
这个角色需要大量的技术技能,比如对SQL数据库设计和多种编程语言的深入了解。然而,为了有效地工作,数据工程师也应该有非常好的软技能,因为他们经常被要求跨一系列不同的部门工作,以了解高级管理人员试图从公司数据中实现什么。
在需要使用数据功能来实现业务和/或客户对象的情况下,数据工程师还需要构建更容易访问原始数据的算法。
总而言之,数据工程师将正确的数据送到正确的地方。
机器学习工程师
机器学习工程师是软件工程和数据科学的交叉点。根据定义,机器学习工程师“利用大数据工具和编程框架,以确保将从数据管道收集的原始数据重新定义为可根据需要进行扩展的数据科学模型” 通俗地说,他们部署机器由数据科学家构建的学习模型投入生产。
该角色包括将软件工程最佳实践的知识以及各种数据科学技术(如机器学习、深度学习和统计模型)结合起来,以便将数据输入到模型中。
通常情况下,机器学习工程师的角色和职责设计得比数据科学家好得多。因为,如果要雇用一个机器学习工程师,你会对 “你将在什么地方利用机器学习,并能产生什么效果”这个问题有一个很好的答案。
总结
虽然我只列出了4个,但还有一些其他的头衔,比如研究科学家和决策科学家。 我通常会发现研究科学家的角色通常与以研究为导向的任务相关,例如开发新算法(从而使其更具学术性,而不是实用性),而决策科学家则更加实用且专注于框架 决策方面的数据分析。这两个职位更偏向学术方向所以并没有详细的介绍。