Prometheus监控Argo Workflow云原生工作流的方法

业务中当前有多少个端到端工作流实例,它们的状态是什么?在过去的24小时内,有多少个工作流实例未成功完成?为什么未成功完成?完成工作流程实例或工作流程中的特定步骤平均需要多少时间?

针对以上发问,2022年8月9日,CSDN原生系列在线峰会第15期“Prometheus峰会”上,中海庭运维开发工程师罗凯从企业业务形态及云原生工作流的使用情况入手,分享了Prometheus监控Argo Workflow云原生工作流的方法。

Argo Workflow监控实例
容器化CI + Argo Workflow实现生产的Devops

在引入K8s前,一般使用传统PC工具对数据入库、任务排产及任务派发进行处理,该过程需要人工处理、手动配置,但存在诸多弊端:

PC算力有限,大数据集情况下,人工处理效率低下;

手动配置易出错,难以及时发现问题。

于是,我们引入了K8s,利用Argo Workflow任务编排调度实现数据的自动化处理。

引入K8s后的数据流向图
从传统PC工具转型Web化工具,通过容器沙箱提供生产需要的工具并通过CI/CD集成相应的数据容器组成独立的沙箱工作环境,并在需要与人交互的环节提供Web界面和专用的Web访问地址。

规范化作业信息流、数据流,自动化代替手动环境准备。

操作数据集的提交、流转通过CI/CD自动完成。

Arogo Workflow实现生产数据编译的任务调度

数据编译
首先根据用户的定制化需求制定编译工具链及相应配置,随后在数据上游进行数据拉取、串联,并进行GRB、EFD处理,最终交付给客户。其中,在EFD处理完成后,NDS的配置会根据EFD的数据结果动态生成,整个工作流程十分复杂,手工处理耗时,容易出错。

使用Argo Workflow进行编排后,数据处理流程会变得清晰。通过CI/CD动态提供相应的编译工具单元形成自动化工具链,取代手工部署配置环节提高编译效率,保证数据质量。
————————————————