记一个压缩格式的问题

xuanyun 2020-05-22 云计算 351 0 百度已收录

阿里云新用户专享
领取限量2000元代金券

限量爆款选购
2核8G内存5M带宽3000元/3年

学生用户专属
18-24岁用户直享￥9.5/月

全民上云优选
新老用户均可购买低至17元/月

企业级应用一折起购
稳定，可靠企业级独享实例

多产品一键采购
购物车采购可减5000元

ECS 云服务器 SWAS 轻量应用服务器 RDS 云数据库 Redis 云数据库 CDN 内容分发 OSS 对象存储 SLB 负载均衡 NAT 网关 DNS 云解析 MAIL 企业邮箱 WAF 应用防火墙 DDoS 高防 SMS 短信包 MK 云市场 XIN 心选 IM 商标注册 JZ 自营建站

问题描述

Hive ORC table常规小文件过多问题，于是用Spark写了一个Application来自动的Merge分区数据，思路很简单
大概就是

insert overl L 4 N H D )write ta3 P l x D iblN r . 5e partition (分区 XXX) sele F y Q s G w f =ct * from table where (分区 XXX)
当然已经把该dataframe repartition到想要的目标并发度，来控制最终分区下的文件个数

但是发现生成的文件个数虽然是对的，但是最后整个分区的Sizm t u Z w n ? 9 }e竟然几乎翻倍。

排查过程i } c以及结论

怀疑是Spark_ L x $ s h @ SQL没有压缩或者压缩格式不对

https://= z 9stackoverflow.com/questions/48759909/how-to-check-if-zlib-compression-is-enabled-in-hive-tables

用这个链接的方式自_ 9 k M查一下
发现 hive 生成的文件默认是zlib
而spark生成的文件默认是snappy

这个导致了最终文件大小相差较大

记一个压缩格式的问题

问题描述

排查过程i } c以及结论

发表评论

发表评论取消回复

问题描述

排查过程i } c以及结论

相关文章

发表评论

发表评论 取消回复

发表评论取消回复