从零售业、银行业,到通信业、制造业,甚至公共部门,HPE Vertica凭借对数据的强大存储和处理能力,已经充分满足了各行各业的独特需求。作为为大数据量身打造的实时分析平台,它不仅创造了更快的分析速度,连接了更多的数据源,同时也加快了更多企业的业务转型。
不过,HPE Vertica的持续创新之路并不止于此。Vertica8.0现已荣耀问世,一起来看看它到底增添了哪些新特性,又将如何助力你我未来的新征程!
1.数据管理
在表级数据加载策略上,它可以不修改ETL和BI工具的数据处理脚本,就能够设置特定表的缺省加载策略;同时,它还能够从备份恢复数据、数据处理等场景,快速复制、交换全表数据。除此之外,多节点并行加载单个共享大文件,充分利用所有或部分节点并行加载单个共享大文件,大幅提升大文件加载性能。
值得一提的是,处理半结构化数据Flex Table以前只支持copy语句装载数据,现在可以支持Insert语句,新的[]操作符号能够简化访问分层的VMap数据。在大数据计算的日益复杂背景下,机器学习也在深入发展,得益于更好的并行计算和扩展能力,Vertica机器学习算法快于Spark,不再需要逼数据搬家。
2.与Hadoop、Kafka和Spark集成
Vertica内置新的支持hdfs原生协议的libhdfs++包,替代原来基于webhdfs的HDFS Connector,libhdfs++更稳定性能更好,并且Parquet格式Reader性能大幅提升;ORC和Parquet支持Hive风格的分区列。
Kafka连接器增强,Scheduler微批量任务定义支持同一个表的数据来自多个kafka集群、多个topic;监控视图stream_microbatch_history增加了更明确的微批结束原因;MC增加专门的微批量加载监控页面;升级了rdkafka开源库,解决了rdkafka在特定场景下释放句柄时被夯住的问题。
Spark高效地从Vertica获取数据、探索模型,通过谓词下推和无关列数据裁剪,高效地准备训练和测试模型的数据。Spark也可以把数据加载到Vertica进行高级分析。另外,Spark可以作为ETL工具替代MapReduce,Spark streaming可以作为流式计算引擎,结果可以快速并行存储到Vertica中,进行高级SQL分析。
3.性能提升
HPE Vertica8.0优化Catalog大小和锁争抢,以及新的glibc,提升并发查询性能以及宽表加载执行计划阶段的性能。节点复原(Recovery)性能也有所提升。
Vertica8.0的节点故障后查询性能提升近1倍。优化器在节点故障发生时,Vertica8.0会把分布方式、排序和编码一致的buddy projection同等看来,同时进行并行扫描和应用所有优化策略,使得大部分查询的性能与正常时相近,从而避免延迟物化等某些优化策略的无法应用。
4.监控管理
Vertica8.0的管理控制台也增添了新特性,其扩展的集中系统监控,能够整合历史消息、事件和监控统计信息,全面了解数据库的运行状态;新增加Kafka活动监控功能,可以监控微批量加载的性能和健康状况;在云环境方面,管理控制台MC已经是AMI的一部分。
Vertica8.0还自定义Email告警阀值,能够通过Email、管理控制台消息中心、以及RESTful API 通知告警。
5.Vertica的持续创新之路
HPE Vertica以其卓越的性能、久经验证的市场实践,已经赢得了包括Amazon cloud在内的云分析平台以及Windows Azure的支持。更多的主流云平台认证,还在路上。相信Vertica8.0的问世,将为客户带来更多超乎想象的收益。
本文作者:HPE大数据
来源:51CTO