备案控制台

开源大数据平台 E-MapReduce

# 开源大数据平台 E-MapReduce #

0 关注

1607内容

相关子社区

119内容 1活动 374关注

最新热门文章问答视频电子书训练营活动

扬流

|

11月前

|

博文

|

来自：大数据与机器学习

降本60% ，阿里云 EMR StarRocks 全新发布存算分离版本

阿里云 EMR Serverless StarRocks 现已推出全新存算分离版本，该版本不仅基于开源 StarRocks 进行了全面优化，实现了存储与计算解耦架构，还在性能、弹性伸缩以及多计算组隔离能力方面取得了显著进展。

# 云原生数据仓库AnalyticDB MySQL版 # 开源大数据平台 E-MapReduce # 函数计算 # 对象存储 # SQL # 存储 # 缓存 # Serverless # 对象存储

扬流

|

11月前

|

博文

|

来自：大数据与机器学习

EMR Serverless Spark：一站式全托管湖仓分析利器

本文根据2024云栖大会阿里云 EMR 团队负责人李钰（绝顶）演讲实录整理而成

# 云原生数据仓库AnalyticDB MySQL版 # 数据管理 # 开源大数据平台 E-MapReduce # 函数计算 # 云原生大数据计算服务 MaxCompute # SQL # 分布式计算 # Serverless # 调度 # Spark

墨祤

|

10月前

|

博文

|

来自：大数据与机器学习

基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析

阿里云OpenLake解决方案建立在开放可控的OpenLake湖仓之上，提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据，提供湖仓数据表和文件的安全访问及IO加速，并支持大数据、搜索和AI多引擎对接。本文为您介绍以Flink作为Openlake方案的核心计算引擎，通过流式数据湖仓Paimon（使用DLF 2.0存储）和EMR StarRocks搭建流式湖仓。

# 云原生数据仓库AnalyticDB MySQL版 # 域名与网站 # 开源大数据平台 E-MapReduce # 云数据库 RDS MySQL 版 # 实时计算 Flink版 # 专有网络VPC # SQL # 流计算 # 关系型数据库 # MySQL # 数据库

寒沙牧

|

博文

|

来自：大数据与机器学习

HAS-插件式Kerberos认证框架

HAS (Hadoop Authentication Service), 致力于解决开源大数据服务和生态系统的认证支持。目前开源大数据（Hadoop/Spark）在安全认证上只内置支持了Kerberos方式，HAS提出了一种新的认证方式, 通过与现有的认证和授权体系进行对接，使得在Hadoop/Spark在上面支持Kerberos以外的认证方式变成可能，并对最终用户简化和隐藏Kerberos的复杂性。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 分布式计算 # 大数据 # Hadoop # Apache # 数据库 # 关系型数据库 # MySQL # Java # 安全 # 网络架构

寒沙牧

|

博文

|

来自：大数据与机器学习

Flume NG 简介及配置实战

最近在做日志采集相关的开发，了解了flume原理和实现，转载一篇文章，一起学习。

# 开源大数据平台 E-MapReduce # 日志服务 # 存储 # 监控 # Java

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

E-MapReduce 2.0.0 版本发布

本次发布包括：修改了界面的版本选择，新增了2.0.0版本，隐去了1.x版本（用SDK仍然可以继续创建，但我们强烈建议升级到最新版本），合并了Hadoop和HBase的版本选择。 Hadoop版本进行了升级，2.6.0 -> 2.7.2 集群JDK版本升级，1.7.0 -> 1.8.0 新增

# 开源大数据平台 E-MapReduce # 分布式数据库 # Python # Hbase

鸿初

|

博文

|

来自：大数据与机器学习

为什么要写技术文章-我对写作收获的理解

为了迎接更好的自己。过去的止步不前程序员最反感别人没写文档，最不喜欢自己写文档。我一直很认同技术人员应该持续写技术文章，可以总结经验，打造个人品牌，等等。但加上公司内部分享，实际也没写多少篇，这可能也是很多技术人员的通病吧。

# 开源大数据平台 E-MapReduce

开源大数据EMR

|

博文

|

来自：大数据与机器学习

基于Alluxio系统的Spark DataFrame高效存储管理技术

介绍越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理，提升数据访问性能。Qunar最近将Alluxio部署在他们的生产环境中，从而将Spark streaming作业的平均性能提升了15倍，峰值甚至达到300倍左右。

# 开源大数据平台 E-MapReduce # 存储 # 缓存 # 分布式计算 # 固态存储 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Spark SQL 性能优化再进一步：CBO 基于代价的优化

本文将介绍 CBO，它充分考虑了数据本身的特点（如大小、分布）以及操作算子的特点（中间结果集的分布及大小）及代价，从而更好的选择执行代价最小的物理执行计划，即 SparkPlan。

# 开源大数据平台 E-MapReduce # SQL # 分布式计算 # 大数据 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

正如在之前的那篇文章中 Spark Streaming 设计原理中说到 Spark 团队之后对 Spark Streaming 的维护可能越来越少，Spark 2.4 版本的 Release Note 里面果然一个 Spark Streaming 相关的 ticket 都没有。

# 开源大数据平台 E-MapReduce # 云消息队列 Kafka 版 # 实时计算 Flink版 # 存储 # 分布式计算 # API # 流计算 # Spark

1

...

13

14

15

...

20

免费试用