开源大数据平台 E-MapReduce

首页 标签 开源大数据平台 E-MapReduce
# 开源大数据平台 E-MapReduce #
关注
1506内容
JindoTable数据湖优化与查询加速
近几年,数据湖架构的概念逐渐兴起,很多企业都在尝试构建数据湖。相比较大数据平台,数据湖在数据治理方面提出了更高的要求。对于数据湖场景所提出的新需求,“传统”的大数据工具在很多方面都面临着新的挑战。JindoTable 正是专为解决数据湖管理结构化数据甚至是半结构化数据的痛点而设计的,包括数据治理功能和查询加速功能。
JindoFS缓存加速数据湖上的机器学习训练
JindoFS提供了一个计算侧的分布式缓存系统,可以有效利用计算集群上的本地存储资源(磁盘或者内存)缓存OSS上的热数据,从而减少对OSS上数据的反复拉取,消耗网络带宽。
阿里巴巴数据湖技术对外公布
数据湖构建·Data Lake Formation是阿里巴巴数据湖团队带来的最新一站式入湖解决方案,助力企业无缝对接多种计算引擎,打破孤岛,洞察业务价值。本技术圈会持续发布最新产品动向和技术解读,更有不定期视频直播,与您一起完成企业大数据架构转型。敬请关注
阿里云 EMR 产品内部培训课程首次免费对外公开!
EMR产品技术团队将在这四节课中,循序渐进的为大家介绍一个开源大数据平台的产品产生背景、使用场景、操作规则等,更多的是面对企业实际需求时,阿里云大数据团队的一些思考方式。
9月10日 Spark 社区直播【利用持久内存提速Spark】
主要探讨如何在Spark上使用持久内存这一新技术来进一步提速性能。具体会介绍基于Plasma的共享内存方案来提速SQL数据源访问的性能以及利用持久内存扩展Spark现有内存磁盘存储层级来提速RDD cache在迭代式计算中的效果。
EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework
EMR团队探索并开发了SparkSQL Native Codegen框架,为SparkSQL换了引擎,新引擎带来最高4倍性能提升,为EMR再次获取世界第一立下汗马功劳。来自阿里云EMR团队的周克勇将详细介绍Native Codegen框架。
Apache Spark™ 3.0中全新的Structured Streaming UI
Spark 3.0中新的Structured Streaming UI会提供一些有用的信息和统计数据,以此来监视所有流作业,便于在开发调试过程中排除故障。同时,开发者还能够获得实时的监测数据,这能使生产流程更直观。
免费试用