开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

为什么说数据湖是大数据和 AI 时代融合存储和计算的全新体系?

为什么说数据湖是大数据和 AI 时代融合存储和计算的全新体系?

展开
收起
Lee_tianbai 2021-01-07 15:09:16 2178 0
1 条回答
写回答
取消 提交回答
  • 数据量爆发式增长的今天,数字化转型成为 IT 行业的热点,数据需要更深度的价值挖 掘,因此需要确保数据中保留的原始信息不丢失,应对未来不断变化的需求。 当前以 Oracle 为代表的数据库中间件已经逐渐无法适应这样的需求,于是业界也不断 地产生新的计算引擎,以便应对大数据时代的到来。 企业开始纷纷自建开源 Hadoop 数据湖架构,原始数据统一存放在 HDFS 系统上,引 擎以 Hadoop 和 Spark 开源生态为主,存储和计算一体。 缺点是需要企业自己运维和管理整套集群,成本高且集群稳定性较差。 在这种情况下,云上托管 Hadoop 数据湖架构(即 EMR 开源数据湖)应运而生。底 层物理服务器和开源软件版本由云厂商提供和管理,数据仍统一存放在 HDFS 系统上,引 擎以 Hadoop 和 Spark 开源生态为主。 这个架构通过云上 IaaS 层提升了机器层面的弹性和稳定性,使企业的整体运维成本有 所下降,但企业仍然需要对 HDFS 系统以及服务运行状态进行管理和治理,即应用层的运 维工作。 因为存储和计算耦合在一起,稳定性不是最优,两种资源无法独立扩展,使用成本也不 是最优。

    2021-01-07 15:09:27
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
2023云栖大会:PolarDB for AI 立即下载
2023云栖大会:Lindorm一站式AI数据平台实战 立即下载
释放算力潜能加速应用构建Serverless为AI创新提速 立即下载