作者:DeeperMan
收集&传输层
- Sqoop
Hadoop、联系型数据库之间传输数据的东西。传输时,会发动多个MR作业并发的传输数据 - DataX
阿里巴巴开源的数据同步东西,用来在各种异构数据源之间同步数据。比方 RDBMS<->Hadoop/MaxCompute、RDBMS<->hbase/ftp等等。布置、运维十分简略,将DataX的jar包copy到linux体系中即可运转 - Flume
分布式的高可用的数据收集、集合的东西。一般用于从其他体系收集数据,如web服务器发生的日志,结合Kafka的音讯行列功用,完成实时日志处理、离线日志投递。 典型的运用计划是:
离线核算:使用体系日志 -> flume -> kafka -> hdfs -> MR作业
实时核算:使用体系日志 ->
发表评论