EMC升级Greenplum 4.2 实现Hadoop处理

简介:

本文讲的是EMC升级Greenplum 4.2 实现Hadoop处理,大数据的问题不仅是因为它很大,还因为它一直在膨胀。比起传统的数据仓库,它需要更现代的Hadoop MapReduce 数据处理。EMC最近更新了自己的Greenplum数据库,使其能够更容易地处理大数据。

  如前一代,Greenplum数据库有两种形式:一个运行在Greenplum自己的硬件设备上(基于未指定的OEM伙伴的硬件),另一个是纯软件的发行版,客户能够在任何X86服务器上运行,支持Red Hat Enterprise Linux、Oracle Solaris或者Apple OS X.

  Greenplum数据库是开源PostgreSQL数据库的并行且高度定制化版本,经过优化用于特定的查询,而不是事务处理。它是一个大规模的并行无分享的数据库,并有“多形态数据存储”,使数据库管理员可以做出一系列的数据库表和选择数据的行或列的定位查询,用于查询哪些数据、执行或压缩设置,应适用于此数据段。

  像别的数据仓库引擎,Greenplum数据库是数据压缩的重量级用户,用于加速查询和减少磁盘存储容量需求。

  Greenplum的Hadoop发行版同样也可以应用在相同的硬件设备上(进行适当调整),以及一个可以运行在任何基于Linux的x86服务器上的纯软件产品。

  去年12月,Greenplum公布了它的长远计划,混合它的数据仓库和Hadoop堆栈以创建一个大型的数据处理器,称做Unified Analytics Platform统一分析平台。

  EMC对Greenplum数据库4.2做了一些调整。第一,像他去年12月份说的,Greenplum已调整它的并行数据仓库加载技术gNET,所以它可以从数据仓库到Hadoop集群并行导入或者导出数据。

  同样重要的是发布的4.2版本gNET 功能中的关系数据库,允许gNET到达Hadoop集群,询问数据的位置,使用一些Hadoop集群的资源,而不是增加数据仓库设备的运行负担。

  Greenplum产品营销高级总监Mike Maxey解释道:“以前这是只读工具,现在在Hadoop中做更多的数据处理。”

  Greenplum数据库4.2也包括新的管理控制台称为Command Center,替代很多数据库管理员至今还在使用的旧工具PerfMon。Maxey表示,Command Center不像PerfMon,它是基于Web的工具,有数据库管理员需要的更多功能,例如启动、停止和优化运行的数据库、恢复和调整数据库镜像,在系统上进行搜索、分区或者取消询问。

  Command Center也可以跨越网络进入Greenplum HD或者MR Hadoop集群,通过控制台内部检查集群状态。Maxey表示:“随着时间的推移,Command Center将更广泛更深入地覆盖数据库和Hadoop平台。”

  Command Center的最初版本可用于Data Computing Appliance 1.2系统中,最终作为纯软件发行版提供给客户。

  该数据库的4.2版本调整了必备的性能,包括动态分区消除和查询内存优化。这个数据库还有新的管理包,在包括多个节点和不同功能的系统上,对数据库进行自动安装和升级扩展。

  最后,EMC在Greenplum Database 4.2中添加了Data Domain Boost重复数据删除备份软件。在基准测试中,EMC能够在不到8小时的时间内备份173TB的数据仓库。这是通过将部分Data Domain重复数据删除操作分配到该设备中的多个数据仓库节点中实现的,因为重复数据删除速度提高了,所以进行大规模任务的并行化以及更快地备份。

  除了发布新的数据库之外,Greenplum还强调,Greenplum MR Hadoop可运行在思科C系列机架式服务器之上。

作者: 佚名

来源: IT168

原文标题:EMC升级Greenplum 4.2 实现Hadoop处理


相关文章
|
9月前
|
XML 分布式计算 安全
hadoop升级流程
hadoop升级流程
|
分布式计算 Hadoop
EMR 升级Hadoop 2.8.5
信息摘要: EMR 提供Hadoop 2.8.5,方便开发者使用新版Hadoop功能。适用客户: 所有客户版本/规格功能: EMR-3.18.0及以后版本,Hadoop升级为2.8.5,开发者可以方便地使用新版Hadoop的功能。
|
分布式计算 资源调度 Hadoop
|
分布式计算 Hadoop 分布式数据库
|
Web App开发 存储 分布式计算
发布Apache Hadoop 2.6.0——异构存储,长时间运行的服务与滚动升级支持
发布Apache Hadoop 2.6.0——异构存储,长时间运行的服务与滚动升级支持 我很高兴地宣布,在Apache的Hadoop社区已经发布的Apache Hadoop的2.6.0:http://markmail.org/message/gv75qf3orlimn6kt! 特别是,我们很高兴在此版本中相关的三个主要片:异构存储在HDFS使用SSD和内存层,支持长时间运行在YARN服务和滚动升级,将升级您的集群软件,然后重新启动升级的节点而无需关闭群集或丢失正在进行的工作。
1015 0
|
分布式计算 Java Hadoop
HADOOP都升级到2.5啦~~~
经过前年的初次接触,现在已大约能理解整个体系啦。MAPREDUCE都改成YARN啦。 不过,还得继续往前走,再能实用。。。 HIVE,HBASE,ZOOKEEPER,, 思路如下: 安装系统,配置网络及计算机名 配置SSH登陆 安装及JAVA及配置JAVE_HOME, 配置HADOOP基础, 在WEB下查看端口及测试。
908 0
|
2月前
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
89 4
|
3月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
200 2
|
3月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
192 1

相关实验场景

更多