为什么说数据湖是大数据和 AI 时代融合存储和计算的全新体系?
数据量爆发式增长的今天,数字化转型成为 IT 行业的热点,数据需要更深度的价值挖 掘,因此需要确保数据中保留的原始信息不丢失,应对未来不断变化的需求。 当前以 Oracle 为代表的数据库中间件已经逐渐无法适应这样的需求,于是业界也不断 地产生新的计算引擎,以便应对大数据时代的到来。 企业开始纷纷自建开源 Hadoop 数据湖架构,原始数据统一存放在 HDFS 系统上,引 擎以 Hadoop 和 Spark 开源生态为主,存储和计算一体。 缺点是需要企业自己运维和管理整套集群,成本高且集群稳定性较差。 在这种情况下,云上托管 Hadoop 数据湖架构(即 EMR 开源数据湖)应运而生。底 层物理服务器和开源软件版本由云厂商提供和管理,数据仍统一存放在 HDFS 系统上,引 擎以 Hadoop 和 Spark 开源生态为主。 这个架构通过云上 IaaS 层提升了机器层面的弹性和稳定性,使企业的整体运维成本有 所下降,但企业仍然需要对 HDFS 系统以及服务运行状态进行管理和治理,即应用层的运 维工作。 因为存储和计算耦合在一起,稳定性不是最优,两种资源无法独立扩展,使用成本也不 是最优。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。