开源大数据平台 E-MapReduce的搜索结果_热门

蚂蚁数据智能技术

|

博文

|

DB-GPT v0.6.0 版本已发布，这是一个开源的AI原生数据应用开发框架，带来了多项新特性，包括AWEL协议升级至2.0，支持复杂编排；改进的数据应用创建与生命周期管理，支持多模式构建；GraphRAG增强图社区摘要与混合检索，图索引成本降低50%；丰富的Agent Memory类型；支持Text2NLU与Text2GQL微调；GPT-Vis前端可视化升级。这些更新助力企业快速构建智能数据应用，推动数字化转型。

# 开源大数据平台 E-MapReduce # 人工智能 # 数据可视化 # 前端开发 # 知识图谱 # 索引

寒沙牧

|

博文

|

来自：大数据与机器学习

YARN中的CPU资源隔离-CGroups

YARN中集成了CGroups的功能，使得NodeManger可以对container的CPU的资源使用进行控制，比如可以对单个container的CPU使用进行控制，也可以对NodeManger管理的总CPU进行控制。

# 开源大数据平台 E-MapReduce # 资源调度 # 测试技术 # Apache # 数据中心 # 容器

开源大数据EMR

|

博文

|

来自：大数据与机器学习

JindoFS概述：云原生的大数据计算存储分离方案

JindoFS 是一套新的云原生的数据湖解决方案。在 JindoFS 之前，云上客户主要使用 HDFS 和 OSS/S3 作为大数据存储。HDFS 是 Hadoop 原生的存储系统，10 年来，HDFS 已经成为大数据生态的存储标准，但是我们也可以看到 HDFS 虽然不断优化，但是 JVM 的瓶颈也始终无法突破。

# 云原生大数据计算服务 MaxCompute # 块存储 # 对象存储 # 开源大数据平台 E-MapReduce # 存储 # 缓存 # 分布式计算 # 大数据 # 对象存储

bean_stalk

|

博文

|

来自：大数据与机器学习

Spark Codegen浅析

Codegen是Spark Runtime优化性能的关键技术，核心在于动态生成java代码、即时compile和加载，把解释执行转化为编译执行。Spark Codegen分为Expression级别和WholeStage级别，分别针对表达式计算和全Stage计算做代码生成，都取得了数量级的性能提升。本文浅析Spark Codegen技术原理。

# 开源大数据平台 E-MapReduce # Java # 分布式计算 # Spark

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

JindoFS - 分层存储

JindoFS 存储内部我们是通过分层存储来降低这部分冷数据的存储成本，提高热数据的访问性能。

# 开源大数据平台 E-MapReduce # 对象存储 # 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # Cloud Native # 算法 # 大数据 # Apache # 对象存储 # Spark

开发者说

|

博文

|

来自：大数据与机器学习

自适应查询执行AQE：在运行时加速SparkSQL

SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践，技术上取得了哪些突破，以及周边的生态发展。本文是阿里巴巴云智能平台事业部王道远关于Spark3.0中自适应查询执行（AQE）的相关介绍。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。

# 开源大数据平台 E-MapReduce # 分布式计算 # Java # 大数据 # 测试技术 # 调度 # 数据库 # Spark # 人工智能

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

【数据湖开发治理篇】——数据湖开发治理平台DataWorks

元数据管理、数据集成、数据开发是数据湖需要解决的三大问题，阿里云的DataWorks作为一个通用的大数据平台，除了很好的解决了数仓场景的各类问题，也同样解决了数据湖场景中的核心痛点。

# 大数据开发治理平台 DataWorks # 云原生大数据计算服务 MaxCompute # 数据管理 # 数据集成 Data Integration # 云原生数据仓库AnalyticDB MySQL版 # 开源大数据平台 E-MapReduce # 存储 # SQL # 分布式计算 # DataWorks # 数据管理 # 关系型数据库 # MySQL # OLAP # MaxCompute # 对象存储

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

【详谈 Delta Lake 】系列技术专题之 Streaming（流式计算）

本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章。众所周知，Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术，而 Delta Lake 作为数据湖核心存储引擎方案给企业带来诸多的优势。本系列技术文章，将详细展开介绍 Delta Lake。

# 开源大数据平台 E-MapReduce # CDN # 云原生大数据计算服务 MaxCompute # 日志服务 # 存储 # 机器学习/深度学习 # JSON # 分布式计算 # 数据挖掘 # 网络性能优化 # Spark # 流计算 # 数据格式 # CDN

游客6vdkhpqtie2h2

|

问答

|

来自：大数据与机器学习

请问下EMR5.8.0Data Lake集群有没有Zeppelin和Hue组件呢

# 开源大数据平台 E-MapReduce

扬流

|

博文

|

来自：大数据与机器学习

数据湖管理及优化

本文整理自阿里云开源大数据高级开发工程师杨庆苇在7月17日阿里云数据湖技术专场交流会的分享。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 对象存储 # 日志服务 # 存储 # SQL # 分布式计算 # 监控 # Cloud Native # 大数据 # 对象存储 # HIVE # Spark # 索引

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce