开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1627
内容
12
活动
5388
关注

第三节课:EMR 的存储解决方案

本节主要介绍EMR针对云上大数据的存储解决方案,如何为计算提供灵活高效的存储基础讲师:姚舜扬,花名辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作

803 0

第二节课:EMR 产品入门

本节主要内容有 EMR 核心组件简介和使用、常用引擎使用示例、数据开发等讲师:孙大鹏,花名诚历,阿里巴巴 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。

696 0

第一节课:走进开源大数据平台 EMR

本节主要介绍EMR产品历史、选择理由、产品形态介绍开营介绍:夏俊鸾,花名亦龙,阿里云智能资深技术专家讲师:王晓平,花名子关,阿里巴巴 EMR 产品专家

1004 0

Intel MLlib:构建平台优化的Spark机器学习

Intel MLlib是一个为Apache Spark MLlib优化的软件包。它在保持和Spark MLlib兼容的同时,在底层利用原生算法库来实现在CPU和GPU上的最优化算法,同时使用Collective Communication来实现效率更高的节点间通信。我们的初步结果表明,该软件包在最小化应用改动的基础上,可以极大地提升MLlib算法的性能。讲师介绍吴晓昶英特尔亚太研发有限公司大数据部门的高级软件工程师,主要研究方向为并行计算,大数据系统和机器学习,CPU和GPU的性能优化。目前关注Spark和机器学习的系统性能优化。

1111 0

JindoFS Fuse 支持

本次直播主要介绍如何利用FUSE的POSIX文件系统接口,像本地磁盘一样轻松使用大数据存储系统, 为云上AI场景提供了高效的数据访问手段。讲师介绍苏昆辉,花名抚月,阿里巴巴计算平台事业部 EMR 高级工程师, Apache HDFS committer. 目前从事开源大数据存储和优化方面的工作。

1197 0

Office Depot利用Analytics Zoo构建智能推荐系统的实践分享

大量实验结果表明深度学习能更好地帮助商家为用户个性化推荐感兴趣的商品。Office Depot将Analytics Zoo工具包引入到他们的推荐系统中,在Spark集群上分布式训练了各种推荐算法模型,实验结果相比于传统的推荐算法有了十分显著的提升,本次分享主要介绍Office Depot使用Analytics Zoo构建智能推荐系统的实践经验。有兴趣的同学,可以提前关注此开源项目:https://github.com/intel-analytics/analytics-zoo讲师介绍讲师:黄凯Intel数据分析团队软件工程师。负责开发基于Apache Spark的深度学习框架,同时支持企业客户在大数据平台上构建端到端的深度学习应用。他是Analytics Zoo和BigDL的核心贡献者之一。

1296 0

Hadoop Job committer 的演化和发展

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分,为分布式任务的写入提供一致性的保证,本次分享主要介绍Job Committer的演进历史,以及社区和EMR在S3/OSS等云存储上的最新进展。讲师介绍李呈祥,花名司麟 ,阿里云智能EMR团队高级技术专家,Apache Hive Committer, Apache Flink Committer,目前主要专注于EMR产品中开源计算引擎的优化工作。

749 0

是时候改变你数仓的增量同步方案了

本分享会先介绍传统数据增量同步方案,之后对比新方案(完全基于Spark无需额外组件),介绍新方案如何结合最新的数据湖(delta lake)实现,同时引入spark-binlog,极大的简化了数据增量的门槛和架构。如果时间允许,我们也会简单介绍开源项目spark-binlog,delta-plus等的内部设计是如何支持我们新的数据增量方案的。讲师介绍祝威廉,资深数据架构,11年研发经验。同时维护和开发多个开源项目。擅长大数据/AI领域的一些思路和工具。现专注于构建集大数据和机器学习于一体的综合性平台,降低AI落地成本相关工作上。

1540 0

Spark on Kubernetes & YARN

以Kubernetes为代表的云原生技术越来越流行起来,spark是如何跑在Kubernetes之上来享受云原生技术的红利?Spark跑在Kubernetes之上和跑在Hadoop YARN上又有什么区别?以及Kubernetes 和YARN的差异点是什么。讲师介绍何剑,阿里巴巴高级技术专家,专注于Kubernetes容器云和大数据底层调度以及基础架构,负责阿里巴巴容器平台在线服务和离线计算任务混部。此前就职于Hortonworks, 是Hadoop 社区Committer和PMC成员

1089 0

【云上大数据的一种高性能数据湖存储方案】

大数据上云是业界普遍共识,存储和计算分离的趋势日益显著,如何为云上蓬勃发展的大数据处理和分析引擎提供坚实的存储基础?这个 session 会主要讨论 EMR 技术团队重磅推出的一种新型混合存储解决方案,该方案基于云平台和云存储,面向新的存储硬件和计算发展趋势,为 EMR 弹性计算量身打造,在成本,弹性和性能上追求极佳平衡。技术上是如何实现的?性能如何?覆盖了哪些典型场景,最佳实践是什么?敬请期待!主讲人殳鑫鑫(辰石),阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。徐铖, Intel大数据团队软件开发经理

1410 0

使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】

从零售业需求预测痛点、商店商品模型预测的实践演示介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。讲师/嘉宾简介李锦桂--阿里云开源大数据平台开发工程师

406 0

Delta Lake数据湖基础介绍(商业版)【Databricks 数据洞察公开课】

公开课第五讲:介绍 Lakehouse 搜索引擎的设计思想,探讨其如何使用缓存,辅助数据结构,存储格式,动态文件剪枝,以及 vectorized execution 达到优越的处理性能。加入技术交流群下期预告《如何快速搭建流批一体数据仓库》讲师/嘉宾简介:李洁杏 Databricks 资深软件工程师

951 0

开源大数据社区 & 阿里云 E-MapReduce 系列直播 第12期

此次课程是继上一节“ Spark 大数据处理最佳实践 ” 课后,大数据最佳实践课程的第二课。主要讲一下 flink 流计算的最佳实践。讲师根据自己多年经验总结的方法论,从 flink 学习框架入手,配合一些非常落地的最佳实践,带你有章法的学习 flink ,摆脱技术小白称号!讲师简介简锋 阿里云 EMR 数据开发平台 负责人

759 0

开源大数据社区 & 阿里云 E-MapReduce 系列直播 第9期

EMR on ACK是企业级半托管的开源大数据平台,为阿里云E-MapReduce(EMR)提供了一个部署选项,允许您在阿里云容器服务Kubernetes版 (ACK) 上运行开源大数据框架。 目前支持Spark引擎的部署,结合自研的Remote shuffle service(RSS)服务组件,提供用户高稳定、高性价比、灵活的弹性计算服务。RSS解决了计算存储分离和混合架构下的shuffle稳定性和性能问题。本次直播将重点展开RSS的使用和性能展示。讲师介绍吴雪扬(枢木),阿里云高级开发工程师

2079 0

《数据湖存储架构选型》

数据湖技术在大数据领域炙手可热,随着在云上的广泛部署和应用,其业务价值逐渐获得业界共识。传统的大数据平台如何基于数据湖架构进行平台升级,享受新一轮的技术发展红利?郑老师着重跟大家分享了数据湖架构和应用在存储上面临的主要挑战,以及方案选型和最佳实践。嘉宾简介:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上研发业界领先的 Hadoop/Spark 大数据平台和数据湖解决方案产品。

817 0

Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析

Spark Shuffle RPMem扩展提供了一个基于PMem 和RDMA 来加速Shuffle的方案,它采用PMem 作为Shuffle的存储介质,利用PMDK 用户态编程库进行数据读写,减小用户态、内核态切换与文件系统开销;用基于RDMA网络协议异构的传输层实现高性能数据传输;还将RDMA直接注册在PMem上,减少内存拷贝。本次直播介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。讲师介绍:张建,英特尔亚太研发有限公司大数据部门的软件工程经理,专注于大数据和机器学习中存储方案优化

1942 2

Hadoop 小文件/冷文件分析

庞大的小文件和冷文件数量会对HDFS的性能产生不利影响,严重时甚至影响业务稳定性,这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法,并基于分析结果可以采取哪些处理措施。讲师:郭聪,花名析源,阿里云计算平台事业部技术专家。目前主要从事大数据领域APM产品的研发工作。

1296 0

Spark on Zeppelin

Apache Zeppelin 是一个交互式的大数据开发Notebook,从一开始就是为Spark定制的。Zeppelin Notebook的开发环境与传统IDE开发环境相比有几大优势:不需要编译Jar,环境配置简单,交互式开发,数据结果可视化等等。本次直播将会介绍Spark on Zeppelin的一些基本使用方式以及应用场景。章剑锋(简锋),开源界老兵,Apache Member,曾就职于 Hortonworks,目前在阿里巴巴计算平台事业部任高级技术专家,并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ,以及 Apache Pig 的 Committer。

1265 0

Analytics Zoo上的分布式TensorFlow训练AI玩FIFA足球游戏

近年来,由于对通用人工智能研究的潜在价值,训练AI玩游戏一直是一个火热的研究领域。FIFA实时视频游戏场景复杂,需要结合图像,强化学习等多种不同的AI技术,同时也要求agents响应有实时性,因此是一个非常好的试验场,可以用来探索不同类型的AI技术。本次分享主要介绍我们在训练AI玩FIFA视频游戏方面的一些工作。有兴趣的同学,可以提前关注此开源项目:https://github.com/intel-analytics/analytics-zoo讲师介绍:喻杉,Intel大数据分析团队机器学习工程师。她目前专注于在analytics-zoo大数据和人工智能平台上开发针对时间序列分析的自动机器学习组件。在加入intel前,她在浙江大学获得了学士和硕士学位。

1465 0

用Analytics-Zoo实现基于深度学习的胸腔疾病AI诊疗辅助

讲师介绍龚奇源博士,英特尔机器学习专家。从事多年数据隐私和机器学习研究,2017年加入英特尔,目前负责Analytics-Zoo中ClusterServing、Streaming、OpenVINO和推理优化等工作。直播简介:本次分享主要介绍如何利用Analytics Zoo和NIH胸部X光影像数据集,在Apache Spark集群上实现基于深度学习的胸腔疾病分类,为医生提供端到端的胸腔疾病AI诊疗辅助。有兴趣的同学,可以提前关注此开源项目:https://github.com/intel-analytics/analytics-zoo

1326 0

关于 JindoFS 最新的 OTS 方案

本次直播主要介绍JindoFS的元数据的后端演化。包括JindoFS的架构以及使用场景、JindoFS 元数据的不同的后端支持,以及JindoFS 在云上环境如何支持 OTS 作为元数据后端。讲师介绍殳鑫鑫,花名辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。

839 0

使用Apache SuperSet和EMR Spark打造交互式的数据探索平台

本次分享主要介绍如何结合Apache SuperSet和EMR Spark,利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应,交互式的可视化数据探索。讲师介绍李呈祥,花名司麟,阿里云智能EMR团队高级技术专家,Apache Hive Committer, Apache Flink Committer,目前主要专注于EMR产品中开源计算引擎的优化工作。

1326 0

使用分布式自动机器学习进行时间序列分析

对于时间序列预测搭建机器学习应用的过程非常繁琐且需要大量经验。为了提供一个简单易用的时间序列预测工具,我们将自动机器学习应用于时间序列预测,将特征生成,模型选择和超参数调优等过程实现自动化。我们的工具基于Ray(UC Berkeley RISELab开源的针对高级AI 应用的分布式框架,并作为Analytics zoo(由intel开源的统一的大数据分析和人工智能平台)的一部分功能提供给用户。嘉宾介绍喻杉,Intel大数据分析团队软件工程师。她目前专注于在analytics-zoo大数据和人工智能平台上开发自动机器学习组件。在加入intel前,她在浙江大学获得了学士和硕士学位。

1570 0

基于 Spark 打造高效云原生数据分析引擎

由阿里巴巴 EMR 团队提交的 TPC-DS 成绩在九月份的榜单中取得了排名第一的成绩。这个成绩背后离不开 EMR 团队对 Spark 执行引擎持续不断的优化。本次分享将选取一些有代表性的优化点,深入到技术细节做详细介绍,包括但不限于动态过滤、CBO增强、TopK排序等等。嘉宾介绍辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容。

1472 0

【基于Spark与TensorFlow的机器学习实践】

Apache Spark是目前最火热的计算框架,而TensorFlow是目前最火热的机器学习框架,当他们2个碰撞到一起的时候,也会产生巨大的能量。本议题会介绍EMR和PAI在这个上面的实践。主讲人吴威(无谓), 阿里巴巴高级技术专家,2008年加入阿里巴巴集团,先后在B2B和阿里云工作,一直从事大数据和分布式计算相关研究,作为主要开发和运维人员经历了阿里内部大数据集群的上线和发展壮大,现在阿里云EMR团队,负责Spark、Hadoop等计算引擎研发。江宇,阿里云EMR技术专家。从事Hadoop内核开发,目前专注于机器学习、深度学习大数据平台的建设

2151 1

Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理

Tablestore是阿里云自研的云原生结构化大数据存储服务,本议题会详细介绍如何基于Tablestore的CDC技术,将大表内实时数据更新对接Spark Streaming来实现数据的实时计算和处理。最新版本的Connector会随着EMR下个版本的SDK一起开源,场景环节会结合阿里内部的业务介绍用户如何结合Tablestore和Spark来实现实时数据处理。讲师介绍朱晓然 ,Tablestore存储服务技术专家

873 0
|
5月前
|

EMR StarRocks 3.0:极速统一湖仓新范式平台

EMR StarRocks 线上公开课 第1期直播亮点统一极速湖仓架构的技术思考Serverless StarRocks 亮点及技术优势Serverless StarRocks 已落地案例分享Serverless StarRocks 持续演进与规划讲师简介弘锐 - 阿里云 E-MapReduce 产品专家

355 0

Lakehouse Meetup “整合Pulsar和Lakehouse数据:使用Connector将Pulsar Topic中的数据Sink到Lakehouse storage”

Lakehouse Meetup “整合Pulsar和Lakehouse数据:使用Connector将Pulsar Topic中的数据Sink到Lakehouse storage”张勇 StreamNative 高级工程师Apache Pulsar Committer

254 0

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

从场景痛点、实践操作介绍如何使用Delta Lake同时处理批作业和流作业,快速搭建批流一体数据仓库。讲师/嘉宾简介讲师:佳亮,阿里云开源大数据平台技术工程师

1399 0

半小时,将你的Spark SQL模型变为在线服务

SparkSQL在机器学习场景中应用模型从批量到实时面临的问题 - SparkSQL 转换成实时执行成本高 - 离线特征和在线特征保持一致困难 - 离线效果与在线效果差距大我们是如何解决这些问题 相对传统实现方式我们优势 SparkSQL实时上线demo讲师:王太泽 第四范式特征工程数据库负责人 曾在百度担任资深研发工程师 一直致力于解决机器学习模型从离线到在线特征一致性问题和性能问题。

1522 0

Tablestore结合Spark的云上流批一体大数据架构

传统Lambda架构组件多运维复杂,如何使用一套存储和一套计算来实现流批架构充分享受技术红利?以Delta Lake为代表的新型数据湖方案越来越流行,传统的Lambda架构如何向数据湖架构进行扩展?以及结构化数据结合Delta Lake的最佳解决方案是什么。本次分享将会结合理论讲解和实际场景为您一一解答。讲师介绍王卓然, 花名琸然 阿里云存储服务技术专家

1574 0
我要发布