开源大数据平台 E-MapReduce-博文-第4页-阿里云开发者社区-阿里云

扬流

|

存储运维分布式计算

|

博文

阿里云开源大数据平台EMR全面升级性能最高可提升6倍

12月27日,阿里云正式发布云原生开源大数据平台EMR 2.0，升级后的开源大数据平台在成本持平的情况下，扩缩容性能最高可提升6倍。

1007 0 0

扬流

|

分布式计算 Cloud Native 数据可视化

|

博文

直播预约｜阿里云EMR 2.0 重磅发布

面向未来，构建新一代开源大数据基础设施！阿里云EMR 2.0 发布会将于12月27日14点在线上举办。

564 0 0

扬流

|

存储 SQL 缓存

|

博文

技术内幕 | 阿里云EMR StarRocks 极速数据湖分析

本文为作者在 StarRocks Summit Asia 2022 上的分享

2156 0 0

扬流

|

存储弹性计算数据管理

|

博文

直播预告｜数据仓库？数据湖？停止纠结，流批融合的极速 Lakehouse来了！

无需数据导入，即可体验性能堪比数仓的数据湖分析！2022年12月8日19点，StarRocks Lakehouse Meetup - 极速湖仓分析技术专场线上直播重磅开启，精彩不容错过！

641 0 0

扬流

|

SQL 存储运维

|

博文

EMR-StarRocks 与 Flink 在汇量实时写入场景的最佳实践

本文详细介绍了 EMR-StarRocks 与 Flink 在汇量实时写入场景的最佳实践。

2864 1 3

阿里云大数据Al技术

|

存储分布式计算资源调度

|

博文

Spark on k8s 在阿里云 EMR 的优化实践

本文整理自阿里云技术专家范佚伦在7月17日阿里云数据湖技术专场交流会的分享。

2458 0 0

阿里云大数据Al技术

|

SQL 存储 JSON

|

博文

基于 Delta Lake 构建数据湖仓体系

本文整理自阿里云开源大数据平台技术专家毕岩在7月17日阿里云数据湖技术专场交流会的分享。

1527 0 1

扬流

|

存储缓存运维

|

博文

基于EMR的新一代数据湖存储加速技术详解

本文整理自阿里云开源大数据平台数据湖存储团队孙大鹏在7月17日阿里云数据湖技术专场交流会的分享。

1211 0 0

扬流

|

存储 SQL 分布式计算

|

博文

数据湖管理及优化

本文整理自阿里云开源大数据高级开发工程师杨庆苇在7月17日阿里云数据湖技术专场交流会的分享。

1492 0 0

扬流

|

SQL 存储弹性计算

|

博文

EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器

E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor，有效提升大数据集群运维效率，辅助 EMR 用户完善集群监控体系。

4014 0 0

扬流

|

SQL 存储分布式计算

|

博文

数据湖统一元数据与权限

本文整理自阿里云数据湖构建与分析研发熊佳树在7月17日阿里云数据湖技术专场交流会的分享。

2410 0 0

扬流

|

存储 SQL 分布式计算

|

博文

数据湖架构及概念简介

本文整理自阿里云开源大数据技术专家陈鑫伟在7月17日阿里云数据湖技术专场交流会的分享。

4859 0 4

安妮Annie

|

人工智能达摩院算法

|

博文

2022世界人工智能大会大模型主题论坛星光云集，共话大模型的创新与生态发展！

本次“大规模预训练模型”主题论坛由阿里巴巴集团主办，世界人工智能大会组委会指导，整体围绕“大规模预训练模型的创新、落地和开源开放”展开，将探讨的边界延伸至算法模型、大数据及训练框架等方向，邀请到来自阿里巴巴，澜舟科技，清华大学，粤港澳大湾区数字经济研究院，深势科技，复旦大学等机构，在大规模预训练模型领域深耕多年的领军人物，通过keynote演讲和圆桌论坛两个环节，展示国产大模型多元生态下的技术成果和思考。

2017 0 0

扬流

|

数据采集 SQL 弹性计算

|

博文

重磅发布！阿里云全链路数据湖开发治理解决方案

阿里云重磅发布全链路数据湖解决方案，主要包含开源大数据平台E-MapReduce(EMR) + 一站式大数据数据开发治理平台DataWorks + 数据湖构建DLF + 对象存储OSS等核心产品。

3455 4 4

灵杰开发者

|

机器学习/深度学习存储数据采集

|

博文

免费下载！《Databricks数据洞察：从入门到实践》

本书从技术基础介绍到场景应用实践，帮助读者入门数据湖Lakehouse以及部分spark相关应用。

718 0 0

扬流

|

存储弹性计算运维

|

博文

国内首批！阿里云云原生数据湖产品通过信通院评测认证

国内首批！得分排名第一！

1201 0 1

灵杰开发者

|

消息中间件存储 SQL

|

博文

使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】

本文介绍网约车模拟数据从产生，发布到流数据服务 Confluent，通过Databricks Structured Streaming进行实时数据处理，存储到LakeHouse，并使用spark和spark sql进行分析的应用实践。

1774 0 0

灵杰开发者

|

机器学习/深度学习存储数据采集

|

博文

使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】

本文介绍如何使用Databricks进行广告效果归因分析，完成一站式的部署机器学习，包括数据ETL、数据校验、模型训练/评测/应用等全流程。

1663 0 0

扬流

|

存储数据采集运维

|

博文

关于 Data Lake 的概念、架构与应用场景介绍

本文详细介绍了 Data Lake 的概念、架构与应用场景介绍。

3771 2 9

扬流

|

存储消息中间件数据采集

|

博文

StarRocks X Flink CDC，打造端到端实时链路

作为一款全平台极速 MPP 架构，StarRocks 提供了多种性能优化手段与灵活的建模方式，在预聚合、宽表和星型/雪花等多种模型上，都可以获得极致的性能体验。通过 StarRocks 结合 Flink 构建开源实时数仓的方案，可以同时提供秒级数据同步和极速分析查询的能力。同时，通过 StarRocks 主键模型，也可以更好地支持实时和频繁更新等场景。

4377 0 3

灵杰开发者

|

机器学习/深度学习存储弹性计算

|

博文

使用Databricks+Mlflow进行机器学习模型的训练和部署【Databricks 数据洞察公开课】

介绍如何使用Databricks和MLflow搭建机器学习生命周期管理平台，实现从数据准备、模型训练、参数和性能指标追踪、以及模型部署的全流程。

2009 0 0

扬流

|

BI OLAP 流计算

|

博文

EMR-StarRocks 白皮书来啦！

EMR StarRocks 白皮书免费下载，架构、功能、解决方案，全方位解读！

86571 29 46

扬流

|

SQL 弹性计算分布式计算

|

博文

数据湖构建—如何构建湖上统一的数据权限

阿里云数据湖构建产品（DLF）提供的统一元数据服务，通过完善各种引擎/表格式生态解决了数据湖场景下多引擎面临的数据孤岛和元数据一致性问题，实现了开源大数据引擎及数据湖格式元数据的统一视图，避免了各引擎访问湖上数据其中额外的ETL成本并降低了业务处理链路的延时。

2001 0 1

扬流

|

存储 SQL JSON

|

博文

Delta Lake基础介绍（开源版）【Databricks 数据洞察公开课】

针对社区版本Delta Lake提供的几大核心特性进行讲解，并通过示例演示如何使用这些特性。

1485 0 0

扬流

|

存储数据采集机器学习/深度学习

|

博文

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

从数据仓库、数据湖的优劣势，湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。

2601 0 0

扬流

|

SQL 存储人工智能

|

博文

Databricks 企业版 Spark&Delta Lake 引擎助力 Lakehouse 高效访问

本文介绍了Databricks企业版Delta Lake的性能优势，借助这些特性能够大幅提升Spark SQL的查询性能，加快Delta表的查询速度。

613 0 0

扬流

|

SQL 存储分布式计算

|

博文

Delta Lake的演进历史及现状【Databricks 数据洞察公开课】

从大数据平台架构的演进、Delta Lake关键特性、版本迭代、重要功能等多方面，介绍Delta Lake的演进和优势。

1750 0 0

灵杰开发者

|

SQL 分布式计算资源调度

|

博文

使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】

本文从零售业需求预测痛点、商店商品模型预测的实践演示，介绍Databricks如何助力零售商进行需求、库存预测，实现成本把控和营收增长。

885 0 2

灵杰开发者

|

消息中间件机器学习/深度学习存储

|

博文

企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

本文介绍了如何使用阿里云的Confluent Cloud和Databricks构建数据流和LakeHouse，并介绍了如何使用Databricks提供的能力来挖掘数据价值，使用Spark MLlib构建您的机器学习模型。

476 0 0

灵杰开发者

|

存储 SQL 人工智能

|

博文

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

Delta Lake是一个开源存储层，它为数据湖带来了可靠性。Delta Lake提供了ACID事务、可扩展的元数据处理，并统一了流式处理和批处理数据处理。Delta-Lake运行在现有数据湖之上，并且与Apache Spark API完全兼容。希望本篇能让大家更深入了解Delta Lake，最终可以实践到工作当中。

771 0 1

灵杰开发者

|

存储 SQL 缓存

|

博文

Delta Lake基础介绍（商业版）【Databricks 数据洞察公开课】

介绍 Lakehouse 搜索引擎的设计思想，探讨其如何使用缓存，辅助数据结构，存储格式，动态文件剪枝，以及 vectorized execution 达到优越的处理性能。

641 0 0

扬流

|

SQL 存储分布式计算

|

博文

数据湖揭秘—Delta Lake

Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark，Flink，Hive，PrestoDB，Trino 等查询/计算引擎。作为一个开放格式的存储层，它在提供了批流一体的同时，为湖仓架构提供可靠的，安全的，高性能的保证。

4749 7 9

扬流

|

数据挖掘 OLAP BI

|

博文

技术揭秘 | 阿里云EMR StarRocks 线上发布会预约开启！

2022年5月11日14：00，阿里云EMR StarRocks 产品线上发布会重磅开启，精彩不容错过！

2012 1 1

灵杰开发者

|

SQL 分布式计算资源调度

|

博文

使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】

本文从零售业需求预测痛点、商店商品模型预测的实践演示，介绍Databricks如何助力零售商进行需求、库存预测，实现成本把控和营收增长。

919 0 0

扬流

|

SQL 分布式计算负载均衡

|

博文

阿里云RemoteShuffleService 新功能：AQE 和流控

阿里云EMR 自2020年推出 Remote Shuffle Service(RSS)以来，帮助了诸多客户解决 Spark 作业的性能、稳定性问题，并使得存算分离架构得以实施。为了更方便大家使用和扩展，RSS 在2022年初开源(https://github.com/alibaba/RemoteShuffleService)，欢迎各路开发者共建: )

1669 0 1

扬流

|

Cloud Native 大数据开发者

|

博文

阿里云发布中国云原生数据湖应用洞察白皮书

近日，阿里云发布《中国云原生数据湖应用洞察白皮书》。云原生数据湖主要应用于泛互联网行业（40.7%）及传统行业的互联网场景（泛政务、金融、工业、医疗、汽车等），未来将向更多具有大数据和高价值属性的行业拓展。

720 0 0

灵杰开发者

|

消息中间件机器学习/深度学习存储

|

博文

企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

本文介绍了如何使用阿里云的Confluent Cloud和Databricks构建数据流和LakeHouse，并介绍了如何使用Databricks提供的能力来挖掘数据价值，使用Spark MLlib构建您的机器学习模型。

806 0 0

灵杰开发者

|

存储 SQL 人工智能

|

博文

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

Delta Lake是一个开源存储层，它为数据湖带来了可靠性。Delta Lake提供了ACID事务、可扩展的元数据处理，并统一了流式处理和批处理数据处理。Delta-Lake运行在现有数据湖之上，并且与Apache Spark API完全兼容。希望本篇能让大家更深入了解Delta Lake，最终可以实践到工作当中。

1452 1 1

灵杰开发者

|

存储 SQL 缓存

|

博文

Delta Lake基础介绍（商业版）【Databricks 数据洞察公开课】

介绍 Lakehouse 搜索引擎的设计思想，探讨其如何使用缓存，辅助数据结构，存储格式，动态文件剪枝，以及 vectorized execution 达到优越的处理性能。

1101 0 0

扬流

|

弹性计算数据挖掘网络安全

|

博文

EMR StarRocks 测试指南

日前，阿里云 E-MapReduce 与 StarRocks 社区合作，推出了首款 StarRocks 云上产品。同时，面向新老用户提供了99元指定机型（ecs.c6.xlarge）首月试用的优惠活动，欢迎感兴趣的用户前来测试。

2906 0 1

灵杰开发者

|

消息中间件 SQL 搜索推荐

|

博文

基于Confluent+Flink的实时数据分析最佳实践

在实际业务使用中，需要经常实时做一些数据分析，包括实时PV和UV展示，实时销售数据，实时店铺UV以及实时推荐系统等，基于此类需求，Confluent+实时计算Flink版是一个高效的方案。

1162 0 0

扬流

|

存储 SQL JSON

|

博文

Delta Lake基础介绍（开源版）【Databricks 数据洞察公开课】

针对社区版本Delta Lake提供的几大核心特性进行讲解，并通过示例演示如何使用这些特性。

2591 0 0

扬流

|

SQL 存储数据挖掘

|

博文

EMR StarRocks 极速数据湖分析原理解析

数据湖概念日益火热，本文由阿里云开源大数据 OLAP 团队和 StarRocks 数据湖分析团队共同为大家介绍“ StarRocks 极速数据湖分析 ”背后的原理。【首月99元】EMR StarRocks 数据湖极速分析体验，试用火热进行中，快来申请吧 -> https://survey.aliyun.com/apps/zhiliao/Yns9d9Xxz

2312 1 3

扬流

|

存储 SQL 搜索推荐

|

博文

【首月99元】EMR StarRocks 数据湖极速分析体验，试用活动火热进行中

日前，阿里云与 StarRocks 社区合作，推出了首款 StarRocks 云上产品。此外，面向新老用户还提供了99元指定机型（ecs.c6.xlarge）首月试用的优惠活动。

1036 0 0

扬流

|

SQL 存储人工智能

|

博文

Databricks 企业版 Spark&Delta Lake 引擎助力 Lakehouse 高效访问

本文介绍了Databricks企业版Delta Lake的性能优势，借助这些特性能够大幅提升Spark SQL的查询性能，加快Delta表的查询速度。

1075 2 2

扬流

|

存储数据采集机器学习/深度学习

|

博文

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

从数据仓库、数据湖的优劣势，湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。

3794 1 3

扬流

|

SQL 存储分布式计算

|

博文

Delta Lake的演进历史及现状【Databricks 数据洞察公开课】

从大数据平台架构的演进、Delta Lake关键特性、版本迭代、重要功能等多方面，介绍Delta Lake的演进和优势。

1600 4 8

扬流

|

数据挖掘

|

博文

初识阿里云E-MapReduce ClickHouse，到底有哪些优势？

本文将从核心能力、主要优势，及典型应用场景为大家继续介绍EMR~

1136 0 0

扬流

|

分布式计算 Hadoop 大数据

|

博文

自建Hadoop集群 VS 阿里云EMR，差距居然这么大？

本期将为大家带来开源大数据平台E-MapReduce与自建Hadoop集群对比，一起来看看吧~

1423 0 0

扬流

|

大数据

|

博文

阿里云EMR到底是什么？一图带你深入了解！

阿里云开源大数据平台E-MapReduce是运行在阿里云平台上的一种大数据处理的系统解决方案，那么它到底有着怎样的功能及优势呢？一起来看看吧！

4100 0 0

开源大数据平台 E-MapReduce

最新

博文

用户案例

免费试用

问答

视频

电子书

学习

活动

阿里云开源大数据平台EMR全面升级 性能最高可提升6倍

直播预约｜阿里云EMR 2.0 重磅发布

技术内幕 | 阿里云EMR StarRocks 极速数据湖分析

直播预告｜数据仓库？数据湖？停止纠结，流批融合的极速 Lakehouse来了！

EMR-StarRocks 与 Flink 在汇量实时写入场景的最佳实践

Spark on k8s 在阿里云 EMR 的优化实践

基于 Delta Lake 构建数据湖仓体系

基于EMR的新一代数据湖存储加速技术详解

数据湖管理及优化

EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器

数据湖统一元数据与权限

数据湖架构及概念简介

2022世界人工智能大会大模型主题论坛星光云集，共话大模型的创新与生态发展！

重磅发布！阿里云全链路数据湖开发治理解决方案

免费下载！《Databricks数据洞察：从入门到实践》

国内首批！阿里云云原生数据湖产品通过信通院评测认证

使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】

使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】

关于 Data Lake 的概念、架构与应用场景介绍

StarRocks X Flink CDC，打造端到端实时链路

使用Databricks+Mlflow进行机器学习模型的训练和部署【Databricks 数据洞察公开课】

EMR-StarRocks 白皮书来啦！

数据湖构建—如何构建湖上统一的数据权限

Delta Lake基础介绍（开源版）【Databricks 数据洞察公开课】

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

Databricks 企业版 Spark&Delta Lake 引擎助力 Lakehouse 高效访问

Delta Lake的演进历史及现状【Databricks 数据洞察公开课】

使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】

企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

Delta Lake基础介绍（商业版）【Databricks 数据洞察公开课】

数据湖揭秘—Delta Lake

技术揭秘 | 阿里云EMR StarRocks 线上发布会预约开启！

使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】

阿里云RemoteShuffleService 新功能：AQE 和流控

阿里云发布中国云原生数据湖应用洞察白皮书

企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

Delta Lake基础介绍（商业版）【Databricks 数据洞察公开课】

EMR StarRocks 测试指南

基于Confluent+Flink的实时数据分析最佳实践

Delta Lake基础介绍（开源版）【Databricks 数据洞察公开课】

EMR StarRocks 极速数据湖分析原理解析

【首月99元】EMR StarRocks 数据湖极速分析体验，试用活动火热进行中

Databricks 企业版 Spark&Delta Lake 引擎助力 Lakehouse 高效访问

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

Delta Lake的演进历史及现状【Databricks 数据洞察公开课】

初识阿里云E-MapReduce ClickHouse，到底有哪些优势？

自建Hadoop集群 VS 阿里云EMR，差距居然这么大？

阿里云EMR到底是什么？一图带你深入了解！

活跃用户

相关产品

阿里云开源大数据平台EMR全面升级性能最高可提升6倍