Hadoop工具让数据仓库迁移更轻松-阿里云开发者社区

开发者社区> 寒凝雪> 正文

Hadoop工具让数据仓库迁移更轻松

简介:
+关注继续查看

从高成本数据仓库将任务卸载有时被看做是Hadoop商用集群的首要目标。迁移提取、转换、加载(ETL)、查询以及报告工作并不能显著改变商业模式,但它可能会抑制数据仓库的增长和成本。

但是,即便进入Hadoop时代已经有些年头了,将任务迁移至分布式平台并非易事。能够找出哪些任务在不给大量开发人员带来麻烦的情况下进行迁移,有助于数据管理人员做出最佳选择。

一款来自Cloudera公司的Hadoop工具Navigator Optimizer可能是个不错的选择。它源于该公司在2015年收购的Xplain.io,这家公司试图将某些与SQL类似的数据库优化功能引入Hadoop。该产品于今夏开始正式供应。

“该工具可以让人们查看那些正在其他平台上运行的查询,并可以查看它们将会如何在我们的Hadoop环境中表现,” Conversant的一名软件工程经理Peter Wojciechowski说,而Conversant是一家数字营销公司,它通过对大量数据的处理来呈现个性化的广告。

Conversant在查询中的表现
Conversant最初是将Hadoop用作数据的第一着陆点,之后通过Pivotal Greenplum数据仓库进行处理以用于分析。团队使用Navigator已经能够将某些任务迁移至Hadoop和Apache Hive数据仓库以及Impala SQL查询环境。

“如今,核心的ETL和某些大型处理工作是在一个Hadoop集群上进行的,”Wojciechowski说,高度迭代的处理工作对于Hadoop来说是不错的目标,但Greenplum并未被取代。在他的公司里,Greenplum仍担当着重要的分析责任。但现在,其使用则更为精炼。

Wojciechowski说,“以前,Greenplum负责了所有的工作负载,但并不是所有工作负载都与其契合。现在,有了该工具,我们就能更加游刃有余,例如,我们可以判断什么才是适合在Hive中运行的。”

通过使用Optimizer,Wojciechowski和他的团队能够说出在Hive和Impla中查询将会如何更好的执行,这就如同是接受在新环境中查询是如何执行的指导是一样的。Hadoop工具在生产中还有着进一步的应用。Optimizer与Navigator协同工作会帮助你判断如何将工作负载查询进行分组,这样就能发现更多的重复并更有效的对集群进行利用,”他说。

像Navigator Optimizer之类的技术有助于揭示数据连接,这是一个SQL常见的特性,而它会对Hadoop造成阻碍,451 Research的分析师James Curtis如是说。“Navigator会在将任务迁移至Impala或Hive之前对已有工作进行分析,并对需要重做的连接数量进行估计,”他说。

对于该工具在任务迁移中的作用他表示认同,但他强调对查询的优化远比仅用于迁移有着更广泛的使用。“对于那些拥有数以千计查询的公司来说,优化查询并不是琐碎的工作,”Curtis说。

改变和提升

像Cloudera Navigator套件之类产品的可用性可以覆盖包括所有最困难迁移任务中的一项:即将主框架数据迁移至Hadoop生态系统。

为此,主框架和Hadoop数据转换公司Syncsort表示,它正在和Cloudera合作,通过将Navigator连接至其工具来追踪传统来源的数据沿袭以改善数据治理。这些传统来源不仅限于主框架,而是包括运行在中端系统上的数据仓库。

对于将关系型数据仓库任务迁移至Hadoop来说,Cloudera并不是可以提供工具唯一厂商,这一领域是十分活跃的。

对于他们来说,独立的Hadoop分销竞争对手Hortonworks和MapR Technologies Inc.会提供相关的Hadoop工具,包括基于Apache Calcite的SQL优化工具,而Apache Calcite是一款包括了一个SQL解析器和查询规划器的开源项目,而它刚刚迎来它的第一个生日。

而且,数据管理服务公司Bitwise最近推出了Hydrograph,这是一款旨在简化卸载ETL工作负载到Hadoop和其他大数据框架的工具。Bitwise的软件是与客户Capital One一起开发的,它基于的开发环境使用了XML接口,因此任务可以迁移至不同的Hadoop框架,例如从MapReduce到Tez,只需要少量重新配置。

如果这些Hadoop工具能够让迁移设计更上一层楼并不断探索试错,则会改善对Hadoop的提升。对于企业中Hadoop和它的生态系统组件来说,在平台上高效地获取数据仓库工作仍是一项重要步骤。

本文转自d1net(转载)

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
如何将数据仓库从 AWS Redshift 迁移到阿里云 AnalyticDB for PostgreSQL
阿里云AnalyticDB for PosgreSQL与 AWS Redshift 均为采用PosgreSQL内核的MPP架构数据仓库服务,语法高度兼容一致。本文介绍两者的差异比较,以及如何从AWS Redshift迁移应用和数据到阿里云 ADB for PG。
3639 0
QT编写图片数据转换工具
学习QT已经一个月了,觉得QT真是个好东西,他的这种跨平台机制简直太棒了!还有QML这东西,真牛B!在这段学习期间,因为一个项目的需要,需要将图片转成数据,然后传出去,那边接收到数据后再对应转换成图片,才有了下面这个小工具,开发环境:QT 4.7.0,在LINUX下面重新编译也可以在LINUX下面运行,代码不用改!先放张截图吧。
758 0
自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察
客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云Databricks数据洞察集群之后,涉及到数仓数据和元数据的迁移以及Hive版本的订正更新。
137 0
数据分析工具PANDAS技巧-如何过滤数据
在本文中,我们将介绍在Python中过滤pandas数据帧的各种方法。 数据过滤是最常见的数据操作操作之一。 它类似于SQL中的WHERE子句,或者必须在MS Excel中使用过滤器根据某些条件选择特定行。
2025 0
浅析图数据库 Nebula Graph 数据导入工具——Spark Writer
本文主要讲解 Nebula Graph 基于 Spark 的分布式数据导入工具—— Spark Writer,它基于 DataFrame 实现,能够将多种数据源中的数据转化为图的点和边批量导入到图数据库中
306 0
ML之DR之PCA:利用PCA对手写数字图片识别数据集进行降维处理(理解PCA)
ML之DR之PCA:利用PCA对手写数字图片识别数据集进行降维处理(理解PCA)
16 0
阿里云开源 image-syncer 工具,容器镜像迁移同步的终极利器
为什么要做这个工具? 由于阿里云上的容器服务 ACK 在使用成本、运维成本、方便性、长期稳定性上大大超过公司自建自维护 Kubernets 集群,有不少公司纷纷想把之前自己维护 Kubernetes 负载迁移到阿里云 ACK 服务上。
3363 0
Hadoop数据迁移MaxCompute最佳实践
本文向您详细介绍如何通过使用DataWorks数据同步功能,将Hadoop数据迁移到阿里云MaxCompute大数据计算服务上。您也可以参考本文进行MaxCompute数据到Hadoop的反向迁移。
9274 0
+关注
5854
文章
223
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载