Hive 表 Parquet & Orc 性能测试

Hive 表 Parquet & Orc 性能测试

说明
数据格式: 复杂的多层Json格式
数据记录数:60207297
数据大小:79.0G
数据压缩方式: Snappy

运行环境:
	1.21 PB Disk
	960 GB Memory
	480 VCores
	Spark on Yarn
	
	executor-memory: 4g
	num-executors: 100
容量对比
Parquet Orc
NONE 230.3G
Uncompressed 236.1G
SNAPPY 73.1G 73.0G
Gzip 46.6G
ZLIB 51.7G
写入时长
Parquet Orc
NONE 22:34
Uncompressed 21:02
SNAPPY 19:10 19:43
Gzip 27:30
ZLIB 21:59
查询时长
  • count 查询(单位: 秒)

    Parquet Orc
    NONE 21.995
    Uncompressed 93.029
    SNAPPY 44.186 15.558
    Gzip 49.277
    ZLIB 14.86
  • 过滤字段不为空查询(单位: 秒)

    Parquet Orc
    NONE | | 0.175 |
    Uncompressed | 0.22 | |
    SNAPPY | 0.201 | 0.185 |
    Gzip | 0.184 | |
    ZLIB | | 0.171 |
  • json 查询 (单位: 秒)

    Parquet Orc
    NONE | | 0.178 |
    Uncompressed | 0.23 | |
    SNAPPY | 0.203 | 0.179 |
    Gzip | 0.184 | |
    ZLIB | | 0.183 |
0%