数据中台的存储系统和核算渠道枚举

作者:DeeperMan

收集&传输层

  • Sqoop
    Hadoop、联系型数据库之间传输数据的东西。传输时,会发动多个MR作业并发的传输数据
  • DataX
    阿里巴巴开源的数据同步东西,用来在各种异构数据源之间同步数据。比方 RDBMS<->Hadoop/MaxCompute、RDBMS<->hbase/ftp等等。布置、运维十分简略,将DataX的jar包copy到linux体系中即可运转
  • Flume
    分布式的高可用的数据收集、集合的东西。一般用于从其他体系收集数据,如web服务器发生的日志,结合Kafka的音讯行列功用,完成实时日志处理、离线日志投递。 典型的运用计划是:

离线核算:使用体系日志 -> flume -> kafka -> hdfs -> MR作业
实时核算:使用体系日志 -&gt