开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1629
内容
13
活动
5419
关注
|
机器学习/深度学习 存储 数据采集
|

使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】

本文介绍如何使用Databricks进行广告效果归因分析,完成一站式的部署机器学习,包括数据ETL、数据校验、模型训练/评测/应用等全流程。

984 0
|
存储 数据采集 运维
|

关于 Data Lake 的概念、架构与应用场景介绍

本文详细介绍了 Data Lake 的概念、架构与应用场景介绍。

3204 2
|
存储 消息中间件 数据采集
|

StarRocks X Flink CDC,打造端到端实时链路

作为一款全平台极速 MPP 架构,StarRocks 提供了多种性能优化手段与灵活的建模方式,在预聚合、宽表和星型/雪花等多种模型上,都可以获得极致的性能体验。通过 StarRocks 结合 Flink 构建开源实时数仓的方案,可以同时提供秒级数据同步和极速分析查询的能力。同时,通过 StarRocks 主键模型,也可以更好地支持实时和频繁更新等场景。

3918 0

使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】

本次课程将介绍如何试用Databricks进行广告效果归因分析,完成一站式的部署机器学习,包括数据ETL、数据校验、模型训练/评测/应用等全流程。讲师/嘉宾简介冯加亮,阿里云开源大数据平台技术工程师

918 1
|
分布式计算 Spark
|

spark

741 0
|
OLAP 数据管理 数据处理
|

EMR StarRocks 白皮书

StarRocks-新一代极速全场景MPP数据仓库产品解决方案。StarRocks 具备⽔平在线扩缩容,⾦融级⾼可⽤,兼容 MySQL 5.7 协议和 MySQL ⽣态,提供全⾯向量化引擎与多种数据源联邦查询等重要特性。StarRocks 致力于在全场景 OLAP 业务上为⽤户提供统⼀的解决⽅案,适⽤于对性能、实时性、并发能⼒和灵活性有较⾼ 要求的各类应⽤场景。

3809
|
机器学习/深度学习 存储 弹性计算
|

使用Databricks+Mlflow进行机器学习模型的训练和部署【Databricks 数据洞察公开课】

介绍如何使用Databricks和MLflow搭建机器学习生命周期管理平台,实现从数据准备、模型训练、参数和性能指标追踪、以及模型部署的全流程。

1534 0
|
BI OLAP 流计算
|

EMR-StarRocks 白皮书来啦!

EMR StarRocks 白皮书免费下载,架构、功能、解决方案,全方位解读!

86403 29
|
SQL 弹性计算 分布式计算
|

数据湖构建—如何构建湖上统一的数据权限

阿里云数据湖构建产品(DLF)提供的统一元数据服务,通过完善各种引擎/表格式生态解决了数据湖场景下多引擎面临的数据孤岛和元数据一致性问题,实现了开源大数据引擎及数据湖格式元数据的统一视图,避免了各引擎访问湖上数据其中额外的ETL成本并降低了业务处理链路的延时。

1775 0
|
分布式计算 Spark
|

Spark的缺点是什么?

864 1
|
存储 SQL JSON
|

Delta Lake基础介绍(开源版)【Databricks 数据洞察公开课】

针对社区版本Delta Lake提供的几大核心特性进行讲解,并通过示例演示如何使用这些特性。

1081 0
|
存储 数据采集 机器学习/深度学习
|

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

从数据仓库、数据湖的优劣势,湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。

1562 0
|
SQL 存储 人工智能
|

Databricks 企业版 Spark&Delta Lake 引擎助力 Lakehouse 高效访问

本文介绍了Databricks企业版Delta Lake的性能优势,借助这些特性能够大幅提升Spark SQL的查询性能,加快Delta表的查询速度。

446 0
|
SQL 存储 分布式计算
|

Delta Lake的演进历史及现状【Databricks 数据洞察公开课】

从大数据平台架构的演进、Delta Lake关键特性、版本迭代、重要功能等多方面,介绍Delta Lake的演进和优势。

1120 0
|
分布式计算 对象存储 Spark
|

为什么Spark访问OSS一致性难保证?

988 1
|
分布式计算 对象存储 Spark
|

Spark访问OSS性能差的原因是什么?

1069 1
|
分布式计算 对象存储 Spark
|

Spark访问OSS数据采用什么方式?

1073 1
|
SQL 分布式计算 Hadoop
|

简述Hadoop/Hive的优缺点?

552 1
|
SQL 分布式计算 资源调度
|

使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】

本文从零售业需求预测痛点、商店商品模型预测的实践演示,介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。

706 0
|
消息中间件 机器学习/深度学习 存储
|

企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

本文介绍了如何使用阿里云的Confluent Cloud和Databricks构建数据流和LakeHouse,并介绍了如何使用Databricks提供的能力来挖掘数据价值,使用Spark MLlib构建您的机器学习模型。

399 0
|
存储 SQL 人工智能
|

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

Delta Lake是一个开源存储层,它为数据湖带来了可靠性。Delta Lake提供了ACID事务、可扩展的元数据处理,并统一了流式处理和批处理数据处理。Delta-Lake运行在现有数据湖之上,并且与Apache Spark API完全兼容。希望本篇能让大家更深入了解Delta Lake,最终可以实践到工作当中。

597 0
|
存储 SQL 缓存
|

Delta Lake基础介绍(商业版)【Databricks 数据洞察公开课】

介绍 Lakehouse 搜索引擎的设计思想,探讨其如何使用缓存,辅助数据结构,存储格式,动态文件剪枝,以及 vectorized execution 达到优越的处理性能。

464 0
|
分布式计算 Kubernetes Spark
|

Spark on Kubernetes面临哪些问题?

556 1

阿里云EMR StarRocks 线上发布会

2022年5月11日14:00,阿里云EMR StarRocks 产品线上发布会重磅开启,精彩不容错过!阿里云EMR-StarRocks 是 StarRocks 授权阿里云的一款新一代开源OLAP产品,致力于构建极速统一分析体验,满足企业用户的多种数据分析场景。讲师/嘉宾简介本次发布会邀请到了来自阿里云、StarRocks、众安保险的产品技术专家,详细介绍 EMR StarRocks 的功能优势、应用场景以及落地实践,揭秘 StarRocks 极速数据湖分析能力背后的技术支撑和未来规划。

473 0
|
SQL 存储 分布式计算
|

数据湖揭秘—Delta Lake

Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark,Flink,Hive,PrestoDB,Trino 等查询/计算引擎。作为一个开放格式的存储层,它在提供了批流一体的同时,为湖仓架构提供可靠的,安全的,高性能的保证。

4389 7
|
数据挖掘 OLAP BI
|

技术揭秘 | 阿里云EMR StarRocks 线上发布会预约开启!

2022年5月11日14:00,阿里云EMR StarRocks 产品线上发布会重磅开启,精彩不容错过!

1830 1

使用Databricks和MLflow进行机器学习模型训练和部署的应用实践【Databricks 数据洞察公开课】

本期课介绍如何使用DDI和MLflow搭建机器学习生命周期管理平台,实现从数据准备、模型训练、参数和性能指标追踪、以及模型部署的全流程。讲师/嘉宾简介李锦桂--阿里云开源大数据平台开发工程师

1000 0
|
SQL 分布式计算 资源调度
|

使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】

本文从零售业需求预测痛点、商店商品模型预测的实践演示,介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。

754 0
|
SQL 分布式计算 负载均衡
|

阿里云RemoteShuffleService 新功能:AQE 和流控

阿里云EMR 自2020年推出 Remote Shuffle Service(RSS)以来,帮助了诸多客户解决 Spark 作业的性能、稳定性问题,并使得存算分离架构得以实施。为了更方便大家使用和扩展,RSS 在2022年初开源(https://github.com/alibaba/RemoteShuffleService),欢迎各路开发者共建: )

1427 0
|
Cloud Native 大数据 开发者
|

阿里云发布中国云原生数据湖应用洞察白皮书

近日,阿里云发布《中国云原生数据湖应用洞察白皮书》。云原生数据湖主要应用于泛互联网行业(40.7%)及传统行业的互联网场景(泛政务、金融、工业、医疗、汽车等),未来将向更多具有大数据和高价值属性的行业拓展。

570 0
|
数据采集 数据管理 云计算
|

中国云原生数据湖应用洞察 白皮书

近年来,在数字经济的背景下,互联网行业及传统企业加速云化转型,中国整体云服务市场的规模逐年扩增,云成为新一代IT基础设施已经成为不争的事实。其中,企业云化转型的深入以及用云思维的转变,驱动了PaaS市场份额的增长,基于云的能力创新已成为基础云发展新的增长引擎。云特有的“池化、弹性、成本、敏捷”等优势让数据层与应用层的很多设想得以实现,拥抱云原生成为数据湖乃至大数据的必然选择。

2109
|
消息中间件 机器学习/深度学习 存储
|

企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

本文介绍了如何使用阿里云的Confluent Cloud和Databricks构建数据流和LakeHouse,并介绍了如何使用Databricks提供的能力来挖掘数据价值,使用Spark MLlib构建您的机器学习模型。

643 0

使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】

从零售业需求预测痛点、商店商品模型预测的实践演示介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。讲师/嘉宾简介李锦桂--阿里云开源大数据平台开发工程师

533 0
|
存储 SQL 人工智能
|

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

Delta Lake是一个开源存储层,它为数据湖带来了可靠性。Delta Lake提供了ACID事务、可扩展的元数据处理,并统一了流式处理和批处理数据处理。Delta-Lake运行在现有数据湖之上,并且与Apache Spark API完全兼容。希望本篇能让大家更深入了解Delta Lake,最终可以实践到工作当中。

1160 1

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

从场景痛点、实践操作介绍如何使用Delta Lake同时处理批作业和流作业,快速搭建批流一体数据仓库。讲师/嘉宾简介讲师:佳亮,阿里云开源大数据平台技术工程师

1592 0
我要发布