EMC升级Greenplum 4.2 实现Hadoop处理

简介:

本文讲的是EMC升级Greenplum 4.2 实现Hadoop处理,大数据的问题不仅是因为它很大,还因为它一直在膨胀。比起传统的数据仓库,它需要更现代的Hadoop MapReduce 数据处理。EMC最近更新了自己的Greenplum数据库,使其能够更容易地处理大数据。

  如前一代,Greenplum数据库有两种形式:一个运行在Greenplum自己的硬件设备上(基于未指定的OEM伙伴的硬件),另一个是纯软件的发行版,客户能够在任何X86服务器上运行,支持Red Hat Enterprise Linux、Oracle Solaris或者Apple OS X.

  Greenplum数据库是开源PostgreSQL数据库的并行且高度定制化版本,经过优化用于特定的查询,而不是事务处理。它是一个大规模的并行无分享的数据库,并有“多形态数据存储”,使数据库管理员可以做出一系列的数据库表和选择数据的行或列的定位查询,用于查询哪些数据、执行或压缩设置,应适用于此数据段。

  像别的数据仓库引擎,Greenplum数据库是数据压缩的重量级用户,用于加速查询和减少磁盘存储容量需求。

  Greenplum的Hadoop发行版同样也可以应用在相同的硬件设备上(进行适当调整),以及一个可以运行在任何基于Linux的x86服务器上的纯软件产品。

  去年12月,Greenplum公布了它的长远计划,混合它的数据仓库和Hadoop堆栈以创建一个大型的数据处理器,称做Unified Analytics Platform统一分析平台。

  EMC对Greenplum数据库4.2做了一些调整。第一,像他去年12月份说的,Greenplum已调整它的并行数据仓库加载技术gNET,所以它可以从数据仓库到Hadoop集群并行导入或者导出数据。

  同样重要的是发布的4.2版本gNET 功能中的关系数据库,允许gNET到达Hadoop集群,询问数据的位置,使用一些Hadoop集群的资源,而不是增加数据仓库设备的运行负担。

  Greenplum产品营销高级总监Mike Maxey解释道:“以前这是只读工具,现在在Hadoop中做更多的数据处理。”

  Greenplum数据库4.2也包括新的管理控制台称为Command Center,替代很多数据库管理员至今还在使用的旧工具PerfMon。Maxey表示,Command Center不像PerfMon,它是基于Web的工具,有数据库管理员需要的更多功能,例如启动、停止和优化运行的数据库、恢复和调整数据库镜像,在系统上进行搜索、分区或者取消询问。

  Command Center也可以跨越网络进入Greenplum HD或者MR Hadoop集群,通过控制台内部检查集群状态。Maxey表示:“随着时间的推移,Command Center将更广泛更深入地覆盖数据库和Hadoop平台。”

  Command Center的最初版本可用于Data Computing Appliance 1.2系统中,最终作为纯软件发行版提供给客户。

  该数据库的4.2版本调整了必备的性能,包括动态分区消除和查询内存优化。这个数据库还有新的管理包,在包括多个节点和不同功能的系统上,对数据库进行自动安装和升级扩展。

  最后,EMC在Greenplum Database 4.2中添加了Data Domain Boost重复数据删除备份软件。在基准测试中,EMC能够在不到8小时的时间内备份173TB的数据仓库。这是通过将部分Data Domain重复数据删除操作分配到该设备中的多个数据仓库节点中实现的,因为重复数据删除速度提高了,所以进行大规模任务的并行化以及更快地备份。

  除了发布新的数据库之外,Greenplum还强调,Greenplum MR Hadoop可运行在思科C系列机架式服务器之上。

作者: 佚名

来源: IT168

原文标题:EMC升级Greenplum 4.2 实现Hadoop处理


相关文章
|
3月前
|
XML 分布式计算 安全
hadoop升级流程
hadoop升级流程
|
分布式计算 Hadoop
EMR 升级Hadoop 2.8.5
信息摘要: EMR 提供Hadoop 2.8.5,方便开发者使用新版Hadoop功能。适用客户: 所有客户版本/规格功能: EMR-3.18.0及以后版本,Hadoop升级为2.8.5,开发者可以方便地使用新版Hadoop的功能。
|
分布式计算 Hadoop 分布式数据库
|
分布式计算 资源调度 Hadoop
|
分布式计算 Java Hadoop
HADOOP都升级到2.5啦~~~
经过前年的初次接触,现在已大约能理解整个体系啦。MAPREDUCE都改成YARN啦。 不过,还得继续往前走,再能实用。。。 HIVE,HBASE,ZOOKEEPER,, 思路如下: 安装系统,配置网络及计算机名 配置SSH登陆 安装及JAVA及配置JAVE_HOME, 配置HADOOP基础, 在WEB下查看端口及测试。
873 0
|
Web App开发 存储 分布式计算
发布Apache Hadoop 2.6.0——异构存储,长时间运行的服务与滚动升级支持
发布Apache Hadoop 2.6.0——异构存储,长时间运行的服务与滚动升级支持 我很高兴地宣布,在Apache的Hadoop社区已经发布的Apache Hadoop的2.6.0:http://markmail.org/message/gv75qf3orlimn6kt! 特别是,我们很高兴在此版本中相关的三个主要片:异构存储在HDFS使用SSD和内存层,支持长时间运行在YARN服务和滚动升级,将升级您的集群软件,然后重新启动升级的节点而无需关闭群集或丢失正在进行的工作。
941 0
|
6天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
24 2
|
6天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
8天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
39 1