开源大数据平台 E-MapReduce-最新-第14页-阿里云开发者社区-阿里云

作为一款全平台极速 MPP 架构，StarRocks 提供了多种性能优化手段与灵活的建模方式，在预聚合、宽表和星型/雪花等多种模型上，都可以获得极致的性能体验。通过 StarRocks 结合 Flink 构建开源实时数仓的方案，可以同时提供秒级数据同步和极速分析查询的能力。同时，通过 StarRocks 主键模型，也可以更好地支持实时和频繁更新等场景。

4410 0 3

Dev-Talk

视频

使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】

本次课程将介绍如何试用Databricks进行广告效果归因分析，完成一站式的部署机器学习，包括数据ETL、数据校验、模型训练/评测/应用等全流程。讲师/嘉宾简介冯加亮，阿里云开源大数据平台技术工程师

1133 1 2

游客bre4wtiq2tsxc

分布式计算 Spark

问答

EMR StarRocks 白皮书

StarRocks-新一代极速全场景MPP数据仓库产品解决方案。StarRocks 具备⽔平在线扩缩容，⾦融级⾼可⽤，兼容 MySQL 5.7 协议和 MySQL ⽣态，提供全⾯向量化引擎与多种数据源联邦查询等重要特性。StarRocks 致力于在全场景 OLAP 业务上为⽤户提供统⼀的解决⽅案，适⽤于对性能、实时性、并发能⼒和灵活性有较⾼要求的各类应⽤场景。

4162 173

灵杰开发者

机器学习/深度学习存储弹性计算

博文

使用Databricks+Mlflow进行机器学习模型的训练和部署【Databricks 数据洞察公开课】

介绍如何使用Databricks和MLflow搭建机器学习生命周期管理平台，实现从数据准备、模型训练、参数和性能指标追踪、以及模型部署的全流程。

2040 0 0

扬流

BI OLAP 流计算

博文

EMR-StarRocks 白皮书来啦！

EMR StarRocks 白皮书免费下载，架构、功能、解决方案，全方位解读！

86590 29 46

扬流

SQL 弹性计算分布式计算

博文

数据湖构建—如何构建湖上统一的数据权限

阿里云数据湖构建产品（DLF）提供的统一元数据服务，通过完善各种引擎/表格式生态解决了数据湖场景下多引擎面临的数据孤岛和元数据一致性问题，实现了开源大数据引擎及数据湖格式元数据的统一视图，避免了各引擎访问湖上数据其中额外的ETL成本并降低了业务处理链路的延时。

2023 0 1

张柠檬

分布式计算 Spark

问答

Spark将Hadoop（主要是指MapReduce）的性能提升了一个量级，主要的得益于那两个方面？

1015 1 0

张柠檬

分布式计算 Hadoop

问答

Spark SQL引擎支持了window topn排序有哪些新增功能？

1390 1 0

游客gwxzsspn6neze

分布式计算 Spark

问答

Spark 又提出了什么，使用 Continuous Processing mode 来替代「微批」

535 1 0

游客gwxzsspn6neze

分布式计算 Spark

问答

批处理系统中计算过程中可以通过计算的什么来保证数据的一致性（如 Spark 中的 RDD 血缘）？

789 1 0

扬流

存储 SQL JSON

博文

Delta Lake基础介绍（开源版）【Databricks 数据洞察公开课】

针对社区版本Delta Lake提供的几大核心特性进行讲解，并通过示例演示如何使用这些特性。

1512 0 0

扬流

存储数据采集机器学习/深度学习

博文

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

从数据仓库、数据湖的优劣势，湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。

2645 0 0

扬流

SQL 存储人工智能

博文

Databricks 企业版 Spark&Delta Lake 引擎助力 Lakehouse 高效访问

本文介绍了Databricks企业版Delta Lake的性能优势，借助这些特性能够大幅提升Spark SQL的查询性能，加快Delta表的查询速度。

636 0 0

扬流

SQL 存储分布式计算

博文

Delta Lake的演进历史及现状【Databricks 数据洞察公开课】

从大数据平台架构的演进、Delta Lake关键特性、版本迭代、重要功能等多方面，介绍Delta Lake的演进和优势。

1780 0 0

游客hmzk6xi5mlygs

分布式计算

问答

Spark访问OSS数据采用什么方式？

1229 1 0

游客c7gnq4eofxp32

SQL 分布式计算 Hadoop

问答

使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】

本文从零售业需求预测痛点、商店商品模型预测的实践演示，介绍Databricks如何助力零售商进行需求、库存预测，实现成本把控和营收增长。

907 0 2

灵杰开发者

消息中间件机器学习/深度学习存储

博文

企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

本文介绍了如何使用阿里云的Confluent Cloud和Databricks构建数据流和LakeHouse，并介绍了如何使用Databricks提供的能力来挖掘数据价值，使用Spark MLlib构建您的机器学习模型。

486 0 0

灵杰开发者

存储 SQL 人工智能

博文

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

Delta Lake是一个开源存储层，它为数据湖带来了可靠性。Delta Lake提供了ACID事务、可扩展的元数据处理，并统一了流式处理和批处理数据处理。Delta-Lake运行在现有数据湖之上，并且与Apache Spark API完全兼容。希望本篇能让大家更深入了解Delta Lake，最终可以实践到工作当中。

792 0 1

灵杰开发者

存储 SQL 缓存

博文

Delta Lake基础介绍（商业版）【Databricks 数据洞察公开课】

介绍 Lakehouse 搜索引擎的设计思想，探讨其如何使用缓存，辅助数据结构，存储格式，动态文件剪枝，以及 vectorized execution 达到优越的处理性能。

658 0 0

游客c7gnq4eofxp32

分布式计算 Cloud Native Spark

问答

Spark on Kubernetes面临哪些问题？

651 1 0

游客c7gnq4eofxp32

分布式计算 NoSQL 对象存储

问答

Tablestore利用 OSS 系统对接 Spark ，可以完成什么工作？

960 1 0

Dev-Talk

视频

2022年5月11日14：00，阿里云EMR StarRocks 产品线上发布会重磅开启，精彩不容错过！阿里云EMR-StarRocks 是 StarRocks 授权阿里云的一款新一代开源OLAP产品，致力于构建极速统一分析体验，满足企业用户的多种数据分析场景。讲师/嘉宾简介本次发布会邀请到了来自阿里云、StarRocks、众安保险的产品技术专家，详细介绍 EMR StarRocks 的功能优势、应用场景以及落地实践，揭秘 StarRocks 极速数据湖分析能力背后的技术支撑和未来规划。

628 0 0

...

你好！

登录掌握更多精彩内容

账号登录

我的内容

我的收藏

EMR 官网

EMR Serverless StarRocks 版

EMR Serverless Spark 版

更多版块

大数据计算 MaxCompute 实时数仓 Hologres 实时计算 Flink 大数据开发治理DataWorks 检索分析服务 Elasticsearch版人工智能平台PAI 智能搜索推荐大数据运维SREWorks 数据可视化DataV 向量检索服务 Milvus 版

展开全部

活跃用户

Jayf

开源大数据平台 E-MapReduce

最新

博文

用户案例

免费试用

问答

视频

电子书

学习

活动

EMR StarROcks集群购买后，是不是还需要自己搭建和维护，其他的大数据组件

使用EMR，集群需要自己运维吗？都需要做哪些运维工作？有了解的大神吗？

hdfs上的数据导入到clickhouse用什么方式最快呢？spark通过jdbc导入，还是hdfs

用flinksql的方式 写进 sr的表，发现需要删除的数据没有删除， 参照文档https://do

想问问大佬，主键模型表 ，如果需要删除数据，但是主键是个组合键，目前2.2.x 能支持吗？

请教个问题，我想部署 1FE 节点 + 3BE节点的 StarRocks 集群， 在 EMR 控制台

国内首批！阿里云云原生数据湖产品通过信通院评测认证

请问/hadoop-yarn/containers/application* 日志很大，怎么配置

请问emr机器买的hbase日志在哪

关于HB：视频用windows系统的pr输出后，上传到阿里云生成链接。无法在ios系统中打开

HB因为故障重启导致cm-server下的monitor服务报错现在启动不了了

如何关闭hbase自动 spilt？

因为故障重启导致cm-server下的monitor服务报错现在启动不了了

关于HB：视频用windows系统的pr输出后，上传到阿里云生成链接。无法在ios系统中打开

使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】

使用DDI+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】

请问为什么不能够在DF的foreachPartition方法调用的函数方法中引用redis模块呢？

使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】

关于 Data Lake 的概念、架构与应用场景介绍

StarRocks X Flink CDC，打造端到端实时链路

使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】

spark

EMR StarRocks 白皮书

使用Databricks+Mlflow进行机器学习模型的训练和部署【Databricks 数据洞察公开课】

EMR-StarRocks 白皮书来啦！

数据湖构建—如何构建湖上统一的数据权限

Spark的缺点是什么？

Spark将Hadoop（主要是指MapReduce）的性能提升了一个量级，主要的得益于那两个方面？

初代Hadoop项目存在的问题是什么？

Spark SQL引擎支持了window topn排序有哪些新增功能？

Spark引擎，MRACC进行了哪些重点优化？

Spark 又提出了什么，使用 Continuous Processing mode 来替代「微批」

批处理系统中计算过程中可以通过计算的什么来保证数据的一致性（如 Spark 中的 RDD 血缘）？

Delta Lake基础介绍（开源版）【Databricks 数据洞察公开课】

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

Databricks 企业版 Spark&Delta Lake 引擎助力 Lakehouse 高效访问

Delta Lake的演进历史及现状【Databricks 数据洞察公开课】

为什么使用RDD？

为什么Spark访问OSS一致性难保证？

Spark访问OSS性能差的原因是什么？

Spark访问OSS数据采用什么方式？

简述Hadoop/Hive的优缺点？

使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】

企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

Delta Lake基础介绍（商业版）【Databricks 数据洞察公开课】

Spark云原生容器化后续的方向分为哪两方面？

Spark on Kubernetes面临哪些问题？

Tablestore利用 OSS 系统对接 Spark ，可以完成什么工作？

阿里云EMR StarRocks 线上发布会

活跃用户

相关产品

用flinksql的方式写进 sr的表，发现需要删除的数据没有删除，参照文档https://do

想问问大佬，主键模型表，如果需要删除数据，但是主键是个组合键，目前2.2.x 能支持吗？

请教个问题，我想部署 1FE 节点 + 3BE节点的 StarRocks 集群，在 EMR 控制台