文档备案控制台

开发者社区大数据文章正文

自建Hive数据仓库迁移到阿里云EMR

2020-02-13 4043

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统，购买阿里云EMR集群之后，涉及到将数据仓库和Hive元数据的数据库迁移上云。

直达最佳实践：【自建Hive数据仓库迁移到阿里云EMR】
最佳实践频道：【点击查看更多上云最佳实践】
这里有丰富的企业上云最佳实践，从典型场景入门，提供一系列项目实践方案，降低企业上云门槛的同时满足您的需求！

场景描述

客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统，购买阿里云EMR集群之后，涉及到将数据仓库和Hive元数据的数据库迁移上云。目前主流Hive数据仓库迁移场景为1.x版本迁移到阿里云EMR(Hive 2.x版本），涉及到数据订正更新步骤。

解决问题

Hive数据仓库的数据迁移方案
Hive元数据库的迁移方案
Hive跨版本迁移后的数据订正

产品列表

专有网络VPC
弹性计算ECS
VPN网关
弹性MapReduce
对象存储OSS

直达最佳实践》》

文章标签：

分布式计算

弹性计算

SQL

网络安全

网络虚拟化

对象存储

Hadoop

HIVE

数据库

关键词：

阿里云emr

Hive数据仓库

emr阿里云

数据仓库迁移

数据仓库阿里云

最佳实践小文

目录

相关文章

青云交（Java大数据AI云原生Python）

|

SQL 分布式计算大数据

大数据新视界 --大数据大厂之Hive与大数据融合：构建强大数据仓库实战指南

本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容，并通过互联网广告和物流行业案例分析，展示其实际应用。具有专业性、可操作性和参考价值。

青云交（Java大数据AI云原生Python）

953 78 78

大数据新视界 --大数据大厂之Hive与大数据融合：构建强大数据仓库实战指南

墨祤

|

DataWorks 数据挖掘 Serverless

阿里云EMR Serverless StarRocks 内容合集

阿里云 EMR StarRocks 提供存算分离架构，支持实时湖仓分析，适用于多种 OLAP 场景。结合 Paimon 与 Flink，助力企业高效处理海量数据，广泛应用于游戏、教育、生活服务等领域，显著提升数据分析效率与业务响应速度。

墨祤

601 0 0

阿里云大数据

|

存储分布式计算 OLAP

百观科技基于阿里云 EMR 的数据湖实践分享

百观科技为应对海量复杂数据处理的算力与成本挑战，基于阿里云 EMR 构建数据湖。EMR 依托高可用的 OSS 存储、开箱即用的 Hadoop/Spark/Iceberg 等开源技术生态及弹性调度，实现数据接入、清洗、聚合与分析全流程。通过 DLF 与 Iceberg 的优化、阶梯式弹性调度（资源利用率提升至70%）及倚天 ARM 机型搭配 EMR Trino 方案，兼顾性能与成本，支撑数据分析需求，降低算力成本。

阿里云大数据

924 59 59

探索云世界

|

人工智能分布式计算 DataWorks

一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

本文介绍了一体系汽配供应链平台如何借助阿里云EMR Serverless Spark实现从传统Hadoop平台向云原生架构的迁移。通过融合高质量零部件供应与创新互联网科技，一体系利用EMR Serverless Spark和DataWorks构建高效数据分析体系，解决大规模数据处理瓶颈。方案涵盖实时数据集成、Lakehouse搭建、数仓分层设计及BI/ML应用支持，显著提升数据处理性能与业务响应速度，降低运维成本，为数字化转型奠定基础。最终实现研发效率提升、运维压力减轻，并推动AI技术深度整合，迈向智能化云原生数据平台。

探索云世界

452 4 4

阿里云大数据

|

存储分布式计算物联网

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台，实现了数据与 AI 技术的有效融合，解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台，最终实现不同场景下整体性能提升50%以上，同时综合成本下降30%。

阿里云大数据

1167 58 58

扬流

|

SQL 存储缓存

降本60% ，阿里云 EMR StarRocks 全新发布存算分离版本

阿里云 EMR Serverless StarRocks 现已推出全新存算分离版本，该版本不仅基于开源 StarRocks 进行了全面优化，实现了存储与计算解耦架构，还在性能、弹性伸缩以及多计算组隔离能力方面取得了显著进展。

扬流

1662 62 62

阿里云大数据

|

机器学习/深度学习分布式计算大数据

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

面对机器学习场景下的训练瓶颈，微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark，微财突破了单机训练使用的数据规模瓶颈，大幅提升了训练效率，解决了存算分离架构下 Shuffle 稳定性和性能困扰，为智能风控等业务提供了强有力的技术支撑。

阿里云大数据

776 15 15

扬流

|

SQL 存储缓存

阿里云EMR StarRocks X Paimon创建 Streaming Lakehouse

讲师焦明烨介绍了StarRocks的数据湖能力，如何使用阿里云EMR StarRocks构建基于Paimon的极速实时湖仓，StarRocks与Paimon的最新进展及未来规划。

扬流

779 59 59

阿里云大数据

|

SQL 弹性计算分布式计算

阿里云 EMR 发布托管弹性伸缩功能，支持自动调整集群大小，最高降本60%

阿里云开源大数据平台 E-MapReduce 重磅推出托管弹性伸缩功能，基于 EMR 托管弹性伸缩功能，您可以指定集群的最小和最大计算限制，EMR 会持续对与集群上运行的工作负载相关的关键指标进行采样，自动调整集群大小，以获得最佳性能和资源利用率。

阿里云大数据

768 15 15

热门文章

最新文章

使用Ranger对Hive数据进行脱敏

Atlas 2.1.0 实践（3）—— Atlas集成HIve

【通过Hive清洗、处理和计算原始数据，Hive清洗处理后的结果，将存入Hbase，海量数据随机查询场景从HBase查询数据】

DataGrip连接Hive执行DDL操作报错：「FAILED: ParseException line 1:5 cannot recognize input near 'show' 'indexes' 'on' in ddl statement」

hive：建库建表、表分区、内部表外部表、数据导入导出

Hive教程（07）- Hive自定义用户名密码验证(已开源）

大数据Hive多字节分隔符

Hive 分析函数lead、lag实例应用

java链接hive数据库实现增删改查操作

hive：条件查询、join关联查询、分组聚合、子查询

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

阿里云 EMR Serverless StarRocks3.x，极速统一的湖仓新范式

阿里云 EMR Serverless Spark 版开启免费公测

EMR Notebook 开启公测，提供交互式数据分析平台

使用Amazon EMR和Apache Hudi在S3上插入，更新，删除数据

使用Apache Hudi + Amazon EMR进行变化数据捕获(CDC)

一文带你认识医院信息化必备系统HIS、CIS、LIS、EMR、PACS、RIS等

轻喜到家基于 EMR-StarRocks 构建实时湖仓分析平台实践

云HIS系统+LIS检验系统+EMR电子病历系统源码

用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享

相关课程

更多

高校精品课-华东师范大学-数据仓库与商务智能

SaaS模式云数据仓库实战

数据分析系统之数据管理与数据仓库

阿里云云原生数据仓库AnalyticDB MySQL版使用教程

大数据Hive教程精讲

SaaS 模式云数据仓库必修课

相关电子书

更多

Hive Bucketing in Apache Spark

spark替代HIVE实现ETL作业

2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践

相关实验场景

更多

基于EMR StarRocks实现游戏玩家画像和行为分析

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！