企业如何建立一个高效的DataOps团队?五个角色缺一不可

越来越多的企业正在转向 DataOps 来加强他们的数据管理操作。了解如何与合适的人员组建团队以确保 DataOps 取得成功。

DataOps战略在很大程度上依赖于协作,因为数据在整个企业的管理者和消费者之间流动。协作对于 DataOps 的成功至关重要,因此从合适的团队开始推动这些计划非常重要。

将 DataOps 简单地视为数据的 DevOps 是很自然的。但是更准确地说,DataOps 正在努力为数据实现 DevOps 为编码所实现的目标:生产力和质量的显着提高。

然而,DataOps 还有一些其他问题需要解决,特别是如何在连续生产中维护关键任务系统。在考虑组建 DataOps 团队时,这种区别很重要。

DevOps 方法是一个模板,对于产品经理、Scrum Master 和开发人员,重点将最终放在交付上。DataOps 还需要专注于持续维护,并且需要一些独特的组织架构来配合。

对 DataOps 的一个关键影响是精益制造技术。经理们经常使用经典的丰田生产系统中的术语,该系统已被大量研究和模仿。当开始谈论生产中的数据管道时,还有像数据工厂这样的术语。

这种方法就要求企业建立一个独特的DataOps 团队结构。这篇文章简单阐述一下建立DataOps团队中的一些角色和定位。而此处描述的角色适用于在任务关键型生产中部署数据科学的 DataOps 团队。

不太关注数据科学的团队呢?他们是否也需要 DataOps,例如,用于数据仓库?当然,有些技术可能相似,但由抽取、转换和加载 (ETL) 开发人员和数据架构师组成的传统团队可能会运作良好。

就其本质而言,数据仓库比敏捷流水线数据环境更不动态,更稳定。以下 DataOps 团队角色处理管道、算法和自助服务用户的更不稳定的世界。

尽管如此,随着数据仓库团队越来越敏捷,尤其是在云部署和数据湖架构方面,DataOps 技术变得越来越重要。下面,我们从定义这些新分析技术所需要的重要角色开始。

角色1:数据科学家

数据科学家做研究。如果一个企业知道他们想要什么并且他们只需要有人来实施预测过程,那么就找一个了解算法的开发人员。另一方面,数据科学家以探索为生,发现他们所做的相关和有意义的事情。

在探索过程中,数据科学家可能会尝试多种算法,通常是在不同模型的集合中。他们甚至可以编写自己的算法。

DataOps 团队可以在偶尔使用数据做一些很酷的事情的企业与在数据、分析和洞察力上高效可靠地运行的企业之间产生差异。

这个角色的关键属性是永无止境的好奇心和对该领域的兴趣,以及技术洞察力。尤其是在统计方面,用以理解他们的发现的重要性和他们工作对现实世界的影响。

这种勤奋很重要。仅仅找到一个好的模型并就此止步是不够的,因为业务领域在快速发展。此外,虽然并非每个人都在具有令人信服的道德领域工作,但每个领域的数据科学家迟早会遇到个人或商业隐私问题。

这是一个技术角色,但不要忽视人的一面,尤其是当企业只雇用一名数据科学家时。一个好的数据科学家是一个很好的沟通者,能够向非技术人员(通常是高管)解释研究结果,同时直截了当地说明什么是可能的,什么是不可能的。

最后,数据科学家,尤其是在他们不熟悉的领域工作的数据科学家,不太可能了解所有运营数据源——ERP、CRM、HR 系统等。但他们肯定需要处理数据。在治理良好的系统中,他们可能无法直接访问企业所有未处理的数据。他们需要与更了解源系统的其他角色一起工作。

角色2:数据工程师

通常,是数据工程师在操作系统和数据湖之间移动数据,并从那里在原始数据、

清理和生产区域等湖区之间移动数据。

数据工程师还支持数据仓库,这本身就是一项艰巨的任务,因为他们必须在提供持续开发的同时维护报告和分析的历史记录。

曾几何时,数据工程师可能被称为数据仓库架构师或 ETL 开发人员,这取决于他们的专业知识。但数据工程师是新的艺术术语,它更好地捕捉了 DataOps 中角色的操作重点。

角色3:数据运营工程师

这是一个新岗位?是的,一个专注于数据运营的工程师岗位。数据运营工程师有一个专业职能:支持数据科学家。

数据科学家的技能侧重于建模和从数据中获得洞察力。但是,通常会发现在工作台上运行良好的东西,可能很难部署到生产环境中或部署成本很高。有时,算法在生产数据集上运行速度太慢,而且使用过多的计算或存储而无法有效扩展。

数据运营工程师通过测试、调整和维护生产模型来提供帮助。作为其中的一部分,数据运营工程师知道如何在数据漂移时保持模型评分足够准确。他们还知道何时重新训练模型或重新概念化模型,即使这项工作落在数据科学家身上。

数据运营工程师可以使模型在预算和资源限制内运行,他们可能比团队中的任何其他人都更了解这一点。

角色4:数据分析师

在现代企业中,数据分析师可能拥有广泛的技能,从技术知识到对可视化的审美理解,再到所谓的软技能,例如协作。与数据库开发人员相比,数据分析师也不太可能接受过很多技术培训。

数据分析师的数据所有权和影响力可能较少,这取决于数据分析师在企业层次结构中的位置,而更多地取决于数据分析师的个人承诺和他们对问题负责的意愿。

环视整个行业,数据分析师可能在每个部门。有人是“数据人员”,无论职位如何,他都知道数据在哪里、如何使用数据以及如何有效地呈现数据。

平心而论,这个角色在今天变得越来越正式,但仍然有大量数据分析师是从业务而非技术背景成长为该角色的。

角色5:团队发起人

DataOps团队发起人一定是团队成员吗?也许不是直接的,但没有一个这样的角色,团队不会走得太远。C 级发起人对于使 DataOps 团队的具体工作与企业的战略愿景和战术决策保持一致至关重要。他们还可以确保团队在考虑长期目标的情况下拥有预算和资源。

很少有企业能够或愿意立即为 DataOps 组建一个由四人或更多人组成的团队。团队的能力和价值必须随着时间的推移而增长。那么,团队应该如何成长?谁应该是第一个雇员?这完全取决于企业的起点。但是从零开始就需要有一个执行 DataOps团队发起人。

作为全球领先的DaaS平台供应商,麦聪软件积极拥抱DataOps新概念,专注于为客户构建轻量级的数据中台,提升企业数据统一管理和服务能力,支持元数据管理、数据开发、数据治理、数据市场、数据服务化等功能。仅仅两年多的时间里,麦聪软件已经赢得了400多家企业客户,其中30多家为国际500强,行业覆盖汽车、重型装备、电力、军工、政府等。

团队不太可能从头开始。企业之所以需要 DataOps,正是因为他们已经在进行中的工作需要更好地实施。他们可能已经开始关注 DataOps,因为他们有数据科学家来扩展他们今天可以管理的范围。

如果是这样,第一个雇员应该是 DataOps工程师,因为他们的职责是实施数据科学,并使其易于管理、可扩展和全面,足以成为关键任务。

另一方面,一个企业可能有一个传统的数据仓库,并且有数据工程师和数据分析师参与其中。在这种情况下,DataOps 团队的第一个职位将是高级分析的数据科学家。

一个重要的问题是是创建正式企业还是虚拟团队。这是为什么需要一个DataOps团队发起人的另一个重要原因,他们可能在答案中有很大的发言权。许多DataOps 团队开始时都是跨企业边界工作的虚拟团队,以确保数据和数据流可靠且值得信赖。

无论企业松散还是紧密,这些独立学科的实力和影响都会随着时间的推移而增长,它们的战略方向和资源使用将凝聚成一个一致的探索和交付框架。当这种情况发生时,企业可以增加更多的工程来实现规模和治理,并增加更多的科学家和分析师来获得洞察力。

在这一点上,无论企业从哪里开始,团队都可能变得更加正式地得到认可。

这是一个令人兴奋的过程。