Hive 表 Parquet & Orc 性能测试
Contents
Hive 表 Parquet & Orc 性能测试
说明
数据格式: 复杂的多层Json格式
数据记录数:60207297
数据大小:79.0G
数据压缩方式: Snappy
运行环境:
1.21 PB Disk
960 GB Memory
480 VCores
Spark on Yarn
executor-memory: 4g
num-executors: 100
容量对比
Parquet | Orc | |
---|---|---|
NONE | 230.3G | |
Uncompressed | 236.1G | |
SNAPPY | 73.1G | 73.0G |
Gzip | 46.6G | |
ZLIB | 51.7G |
写入时长
Parquet | Orc | |
---|---|---|
NONE | 22:34 | |
Uncompressed | 21:02 | |
SNAPPY | 19:10 | 19:43 |
Gzip | 27:30 | |
ZLIB | 21:59 |
查询时长
-
count 查询(单位: 秒)
Parquet Orc NONE 21.995 Uncompressed 93.029 SNAPPY 44.186 15.558 Gzip 49.277 ZLIB 14.86 -
过滤字段不为空查询(单位: 秒)
Parquet Orc NONE | | 0.175 | Uncompressed | 0.22 | | SNAPPY | 0.201 | 0.185 | Gzip | 0.184 | | ZLIB | | 0.171 | -
json 查询 (单位: 秒)
Parquet Orc NONE | | 0.178 | Uncompressed | 0.23 | | SNAPPY | 0.203 | 0.179 | Gzip | 0.184 | | ZLIB | | 0.183 |