基于Hadoop生态系统的一种高性能数据存储格式CarbonData(性能篇)-阿里云开发者社区

开发者社区> 技术小能手> 正文

基于Hadoop生态系统的一种高性能数据存储格式CarbonData(性能篇)

简介: CarbonData在数据查询的性能表现比Parquet好很多,在写一次读多次的场景下非常适合使用;社区比较活跃,响应也很及时。目前官网发布版本1.3.0与最新的spark稳定版Spark2.2.1集成,增加了支持标准的Hive分区,支持流数据准实时入库等新特性,相信会有越来越多的项目会使用到。
+关注继续查看

一、评测环境

1)网络拓扑图


image

2)配置参数

Ø 服务器配置

image

二、性能对比
目前主流hadoop的文件存储格式有行存储的CSV格式,列式存储的ORC和Parquet等。本章给出的是Parquet+Spark和CarbonData+Spark在过滤查询场景和聚合计算场景的性能测试结果。

1)测试数据

创建沈阳社保的数据仓库,导入、集成1年的测试数据,如下表:

image

生成CarbonData格式文件,如下表:

image

2)过滤查询场景测试

image

image

Parquet和CarbonData在过滤查询场景下的性能对比

3)聚合计算场景测试

Parquet和CarbonData在聚合计算场景下的性能对比

4)总结分析

在过滤查询中,CarbonData的查询效率比parquet效率好,主要体现在列数据的索引查询,极大地提高了精确查询的性能。在聚合查询中,CarbonData通过使用全局字典编码来加快计算速度,这使得处理、查询引擎可以直接在编码好的数据上进行处理而不需要转换数据,数据只有在返回结果给用户的时候才转换成用户可读的形式,通过索引有效过滤文件数据块减少磁盘的IO,提高查询性能。

image

三、小结
CarbonData在数据查询的性能表现比Parquet好很多,在写一次读多次的场景下非常适合使用;社区比较活跃,响应也很及时。目前官网发布版本1.3.0与最新的spark稳定版Spark2.2.1集成,增加了支持标准的Hive分区,支持流数据准实时入库等新特性,相信会有越来越多的项目会使用到。

原文发布时间为:2018-07-06
本文作者:东软
本文来自云栖社区合作伙伴“ Linux宝库”,了解相关信息可以关注“ Linux宝库”。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Feed系统架构与Feed缓存模型
Feed系统架构与Feed缓存模型
4 0
Spring Boot 基础教程:配置详解
本文主要对 Spring Boot 项目中的配置文件进行了简单的介绍,并学习如何自定义属性并配置多环境项目,最后则是对比了当前主流的两种方式不同格式配置文件 yml 和 properties 的异同。
5 0
【在家实践】 ECS 初体验
第一次体验云服务器,感觉十分奇妙。
8 0
冬季实战营学习报告 第一期:从零到一上手玩转云服务器
这一期训练营从1月17号开始,为期5天。主要内容是了解学习阿里云的云服务(ECS) 因为提前加入了阿里云社区活动群,管理员每天都会提醒我们登录账号打卡学习,这里感谢管理员对我们的监督😊😊。
13 0
宝塔面板远程登录连接FTP空间详细教程
原文更精彩:https://www.yundashi168.com/276.html 原文更精彩:https://www.yundashi168.com/276.html
6 0
ecs服务器使用体验
分享一下使用ecs服务器的体验和经历
8 0
Aerospike在实时竞价广告中的应用
Aerospike在实时竞价广告中的应用
5 0
Dart微基准测试第一部分
在过去的几个月里,我开始收到越来越多关于某些特定 Dart 操作性能的问题。以下是Romain Rastel在他关于提高 Flutter中 ChangeNotifier 性能的工作的背景下提出的此类问题的示例。 鉴于我的经验,我第一眼就知道这个特定的基准测试出了什么问题……但是为了讲故事,让我假装我没有。那我将如何处理这个问题? 我通常会首先尝试重复报告的数字。在这种特殊情况下,我将首先创建一个空的 Flutter 应用程序
5 0
阿里云初体验
web开发打包部署到linux服务器
16 0
什么是软件实施?软件实施前景几何?软件实施的面试题有那些?
事情是这样的,由于自己目前还没有对象,就想着在兰州找一份还不错的工作,于是投了一家在我的家乡还算不错的公司,对方却说有可能是软件实施岗位,于是趁机了解了一下, 什么是软件实施? 软件实施掌握的基础知识有哪些? 软件实施前景几何?
6 0
+关注
技术小能手
云栖运营小编~
7208
文章
9
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载