文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 正文

为什么说数据湖是大数据和 AI 时代融合存储和计算的全新体系？

为什么说数据湖是大数据和 AI 时代融合存储和计算的全新体系？

展开

收起

Lee_tianbai 2021-01-07 15:09:16 2352 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

Lee_tianbai

数据量爆发式增长的今天，数字化转型成为 IT 行业的热点，数据需要更深度的价值挖掘，因此需要确保数据中保留的原始信息不丢失，应对未来不断变化的需求。当前以 Oracle 为代表的数据库中间件已经逐渐无法适应这样的需求，于是业界也不断地产生新的计算引擎，以便应对大数据时代的到来。企业开始纷纷自建开源 Hadoop 数据湖架构，原始数据统一存放在 HDFS 系统上，引擎以 Hadoop 和 Spark 开源生态为主，存储和计算一体。缺点是需要企业自己运维和管理整套集群，成本高且集群稳定性较差。在这种情况下，云上托管 Hadoop 数据湖架构（即 EMR 开源数据湖）应运而生。底层物理服务器和开源软件版本由云厂商提供和管理，数据仍统一存放在 HDFS 系统上，引擎以 Hadoop 和 Spark 开源生态为主。这个架构通过云上 IaaS 层提升了机器层面的弹性和稳定性，使企业的整体运维成本有所下降，但企业仍然需要对 HDFS 系统以及服务运行状态进行管理和治理，即应用层的运维工作。因为存储和计算耦合在一起，稳定性不是最优，两种资源无法独立扩展，使用成本也不是最优。

2021-01-07 15:09:27

赞同展开评论

问答分类：

存储人工智能大数据云原生大数据计算服务 MaxCompute 开源大数据平台 E-MapReduce

问答标签：

大数据AI 云原生大数据计算服务 MaxCompute ai AI大数据 AI计算数据湖云原生大数据计算服务 MaxCompute

问答地址：

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 问答

相关问答

阿里云ai服务器配置如何选择？费用计算价格多少？

631

1

0

数据湖是如何满足企业数据存储和安全需求的？

165

1

0

公共资源与AI计算资源的区别是什么？

301

1

0

modelscope-funasr的语音转文字AI,主要用显卡还是cpu计算啊？

370

1

0

AI Earth是不是没有图像融合的功能？平台的图像拼接功能，拼接时重叠部分怎么处理呢？

188

1

0

AI Earth最后处理的图像是所有时间段影像的融合还是什么？

172

0

0

为什么AI计算的硬件规格会不断变化和提升？

312

2

0

量子计算与AI结合能带来哪些优势？

230

1

0

NVIDIA是如何利用FP8计算技术优化AI训练的？

255

1

0

NVIDIA在AI加速计算领域的地位如何？

179

1

0

大数据与机器学习

开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

我要提问

收录在圈子:

阿里云E-MapReduce

2323

+ 订阅

相关文章

一文读懂百炼 Kimi K3：2.8 万亿 MoE 模型、百万上下文、分层计费方案

农场畜牧目标检测数据集：5类别、15,000张图像 | 目标检测

秒悟Meoo全解：零代码 AI 建站工具功能、积分计费、三版套餐及活动指南

Qwen3.8-Max-Preview抢先体验：2.4万亿参数、白天1折夜间0.2 折，阿里云百炼TokenPlan个人版39元开通

Qwen3.7-Max模型调用4种省钱方法：免费100万Tokens、AI节省计划、TokenPlan及限时5折活动

相关解决方案

更多

在 App 上搭建开箱即用的 AI 助手

睿译宝，AI文档翻译排版一步到位

在网站上增加一个 AI 助手

阿里云百炼专属版 AI Stack 一体机

在聊天系统中增加一个 AI 助手

热门讨论

热门文章

企业定制软件开发全流程该怎么管控，才能不延期不超预算？

NeuSoft是什么？

什么是 CDC？

starrocks通过DLF2.0建立外部表，可以进行delete或者update表数据的操作吗？

核桃编程的业务需求是什么？

HDFS是如何实现低资源消耗的？

S3DistCp是什么？

数据湖的对接主要体现在哪几个方面？

有requestId吗？

数据湖存储OSS是什么？

展开全部

阿里封神谈hadoop生态学习之路

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

HIVE MapJoin异常问题处理总结

首次揭秘|为6.4亿人次出行提供无线网络的技术架构

JindoFS概述：云原生的大数据计算存储分离方案

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

开源大数据周刊-第66期

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制

展开全部

还有其他疑问?