用alluxio加速spark数据访问(一)

1.背景信息

1.1 alluxio

Alluxio是一个开源的基于内存的分布式存储系统,适合作为云上大数据和AI / ML的数据编排方案。Alluxio可以同时管理多个底层文件系统,将不同的文件系统统一在同一个名称空间下,让( 0 Q上层客户端可以自由访问统一名称空间内的不同路径,不同存储系统的数据。

allv ] zuxio的sho) K a urt-circuit功能可以使alluxio客户端直接访问alP k x | Nluxio worker所在主机的工作存储,而不需要通过网络栈与alluxio wo@ O s xrker完成通信,可以提高性能。

1.2 spark operator

Spark-operator用于管理k8s集群spark} & u r ^ job。通过spark-operator可以在k8s集群中创建、查看和删除1 B w Q C F y 2spark jS i ] z 5 4 job。

2.前提条件

| z q 文档的操作依赖如下的一些条件:

  • kb 5 ? L _ % % ( $ubernet