开源大数据平台 E-MapReduce的搜索结果_热门

扬流

|

电子书

|

来自：大数据与机器学习

阿里云 JindoFS+OSS 数据上云实战

为了帮助读者能更全面地了解 JindoFS，我们特地编撰了这本电子书。从架构到场景到实操，全方面解读jindoFS。

# 对象存储 # 开源大数据平台 E-MapReduce # 云计算 # 对象存储 # 大数据

时不我与爱铭

|

博文

|

来自：大数据与机器学习

深度分析：Apache Kafka及其在大数据处理中的应用

Apache Kafka是高吞吐、低延迟的分布式流处理平台，常用于实时数据流、日志收集和事件驱动架构。与RabbitMQ（吞吐量有限）、Pulsar（多租户支持但生态系统小）和Amazon Kinesis（托管服务，成本高）对比，Kafka在高吞吐和持久化上有优势。适用场景包括实时处理、数据集成、日志收集和消息传递。选型需考虑吞吐延迟、持久化、协议支持等因素，使用时注意资源配置、数据管理、监控及安全性。

# 云消息队列 Kafka 版 # 日志服务 # 云消息队列 MQ # 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # 消息中间件 # 存储 # 大数据 # Kafka # Apache

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

重磅：阿里云 JindoFS SDK 全面开放使用，OSS 文件各项操作性能得到大幅提升

本文主要介绍如何使用JindoFS SDK来访问OSS对象存储，以及使用它来提升我们操作OSS文件的性能。值得一提的是，此前JindoFS SDK 仅限于E-MapReduce产品内部使用，此次全方位面向整个阿里云OSS用户放开，并提供官方维护和支持技术，欢迎广大用户集成和使用。

# 对象存储 # 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # SQL # 存储 # 分布式计算 # Hadoop # 大数据 # Java # 开发工具 # 对象存储 # HIVE # Spark

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

超详攻略！Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察产品链接：https://www.aliyun.com/product/bigdata/spark（当前产品提供￥599首购试用活动，欢迎试用！）

# 开源大数据平台 E-MapReduce # 云数据库 RDS MySQL 版 # 云原生大数据计算服务 MaxCompute # 对象存储 # 存储 # 机器学习/深度学习 # 人工智能 # 分布式计算 # 大数据 # 数据挖掘 # BI # 调度 # 对象存储 # Spark

扬流

|

博文

|

来自：大数据与机器学习

阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse

Apache Paimon 和 Apache Hudi 作为数据湖存储格式，有着高吞吐的写入和低延迟的查询性能，是构建数据湖的常用组件。本文在阿里云EMR上，针对数据实时入湖场景，对 Paimon 和 Hudi 的性能进行比对，并分别以 Paimon 和 Hudi 作为统一存储搭建准实时数仓。

# 开源大数据平台 E-MapReduce # 实时数仓 Hologres # 实时计算 Flink版 # 存储 # 分布式计算 # Apache # 流计算 # Spark

aliyun4381607004

|

博文

阿里云E-MapReduce Trino专属集群外连引擎及权限控制踩坑实践

本文以云厂商售后技术支持的角度，从客户的需求出发，对于阿里云EMR-Trino集群的选型，外连多引擎的场景、Ldap以及Kerberos鉴权等问题进行了简要的实践和记录，模拟客户已有的业务场景，满足客户需求的同时对过程中的问题点进行解决、记录和分析，包括但不限于Mysql、ODPS、Hive connector的配置，Hive、Delta及Hudi等不同表格式读取的兼容，aws s3、阿里云 oss协议访问异常的解决等。

# 对象存储 # 云数据库 RDS MySQL 版 # 开源大数据平台 E-MapReduce # 云服务器 ECS # SQL # 分布式计算 # 关系型数据库 # HIVE # 对象存储

技术内容小助手

|

9月前

|

博文

|

来自：大数据与机器学习

EMR管控平台全面升级：智能化助力客户实现在离线混部和降本增效

本次介绍EMR开源大数据平台2.0的最新特性，基于微服务架构，提供更稳定高效的服务。平台升级主要体现在智能化和Serverless两个方面。智能化功能利用大语言模型提升运维效率，推出一键诊断和根因分析，缩短问题定位时间。全托管弹性伸缩根据业务动态自动调整资源，提高资源利用率。即将推出的EMR on ACS产品形态支持离在线业务混部，进一步优化资源使用，帮助用户实现降本增效。

# 容器服务Kubernetes版 # 开源大数据平台 E-MapReduce # 资源管理 # 弹性伸缩 # 函数计算 # 云原生大数据计算服务 MaxCompute # 弹性计算 # 运维 # 监控 # Kubernetes # 大数据

探索云世界

|

2月前

|

博文

|

来自：大数据与机器学习

阿里云 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 产品

作者：玄橙 - 阿里云 EMR Serverless Spark 产品专家 EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务，包括任务开发、调试、调度和运维等，极大地简化了数据处理和模型训练的全流程。同时，它100%兼容开源 Spark 生态，能够无缝集成到客户现有的数据平台。使用 EMR Serverless Spark，企业可以更专注于数据处理分析和模型训练调优，提高工作效率。今天我将从业务痛点、产品定位、产品介绍以及客户案例四个部分详细介绍一下 EMR Serverless Spark 这款产品。

# 函数计算 # 开源大数据平台 E-MapReduce # 人工智能 # 分布式计算 # Serverless # 调度 # Spark

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

【ClickHouse 技术系列】- 在 ClickHouse 中处理实时更新

本文翻译自 Altinity 针对 ClickHouse 的系列技术文章。面向联机分析处理（OLAP）的开源分析引擎 ClickHouse，因其优良的查询性能，PB级的数据规模，简单的架构，被国内外公司广泛采用。本系列技术文章，将详细展开介绍 ClickHouse。

# 云数据库 ClickHouse # 云原生数据仓库AnalyticDB MySQL版 # 容器服务Kubernetes版 # 开源大数据平台 E-MapReduce # 存储 # 机器学习/深度学习 # 监控 # 测试技术 # OLAP # 数据库 # 云计算 # 索引

阿里云大数据

|

5月前

|

博文

|

来自：大数据与机器学习

千万级数据秒级响应！碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践

碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构，解决了海量数据处理中的资源利用率低、并发能力不足等问题，显著降低了硬件和运维成本。实时查询性能提升8倍，查询出错率减少30倍，集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验，还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。

# 函数计算 # 开源大数据平台 E-MapReduce # 存储 # 运维 # Serverless # BI # OLAP

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce