开源大数据平台 E-MapReduce

首页 标签 开源大数据平台 E-MapReduce
# 开源大数据平台 E-MapReduce #
关注
1506内容
阿里云 EMR Delta Lake 在流利说数据接入中的架构和实践
为了消灭数据孤岛,企业往往会把各个组织的数据都接入到数据湖以提供统一的查询或分析。本文将介绍流利说当前数据接入的整个过程,期间遇到的挑战,以及delta在数据接入中产生的价值。
阿里云E-MapReduce全面支持Alluxio,为大数据全“源”加速
导读:阿里云 E-MapReduce全面支持Alluxio,Alluxio作为大数据领域存储层解决方案,将大幅提升EMR产品服务能力。Alluxio可以对数据源进行性能优化和缓存加速,让计算层和存储层能够轻装上阵,独立优化,又能保持密切依赖关系。下面将为大家分享阿里云 E-MapReduce Alluxio的实践经验与技术方案。
降本增效利器!趣头条Spark Remote Shuffle Service最佳实践
趣头条是一家依赖大数据的科技公司,在2018-2019年经历了业务的高速发展,主App和其他创新App的日活增加了10倍以上,相应的大数据系统也从最初的100台机器增加到了千台规模。面对业务和数据的日益增长,如何优化大数据平台,真正实现降本增效,技术人也面临着非常大的挑战,近半年趣头条和阿里云一起合作,通过Spark Remote Shuffle Service取得了较大的进展,在这里大家可以更加详细地了解这套方案。
2020收官行—BIGDATA + AI Meetup 2020第三站·北京站开启报名!
始于开源,精于实践,作为2020年收官之战,本次 Meetup 又将让大数据和 AI 擦出怎样的技术花火?开源届冉冉升起的新星和风光无限的老将们将会用哪些精彩案例作为年度收尾?来自阿里云、滴滴出行、微博、Databricks、汇量科技、 Zilliz 等知名企业的技术大咖将以实践案例深度解读大数据+AI的现在与未来。落地到出行、应用于医疗、服务在社交媒体,我们从声音、影像、图片、数字···交织的信息巨网中撕出一道道出口,透出属于大数据人的科技之光。
10月15日社区直播【Intel MLlib:构建平台优化的Spark机器学习】
Intel MLlib是一个为Apache Spark MLlib优化的软件包。它在保持和Spark MLlib兼容的同时,在底层利用原生算法库来实现在CPU和GPU上的最优化算法,同时使用Collective Communication来实现效率更高的节点间通信。我们的初步结果表明,该软件包在最小化应用改动的基础上,可以极大地提升MLlib算法的性能。
E-MapReduce客户端安装和卸载工具,实现Gateway功能
E-MapReduce客户端安装和卸载工具,主要用于集群外的ECS(已经存在)中需要使用hadoop,hive等客户端命令工具。 目前云平台提供的gateway只能重新创建ECS进行部署,而不支持在已经创建的Ecs中部署。
数据湖架构,为什么需要“湖加速”?
湖加速即为数据湖加速,是指在数据湖架构中,为了统一支持各种计算,对数据湖存储提供适配支持,进行优化和缓存加速的中间层技术。那么为什么需要湖加速?数据湖如何实现“加速”?本文将从三个方面来介绍湖加速背后的原因,分享阿里云在湖加速上的实践经验和技术方案。
免费试用