开源大数据平台 E-MapReduce
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。
EMR StarRocks 3.0:极速统一湖仓新范式平台
EMR StarRocks 线上公开课 第1期直播亮点统一极速湖仓架构的技术思考Serverless StarRocks 亮点及技术优势Serverless StarRocks 已落地案例分享Serverless StarRocks 持续演进与规划讲师简介弘锐 - 阿里云 E-MapReduce 产品专家
使用DDI+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】
本次课程将介绍网约车模拟数据从产生、发布到流数据服务confluent,通过Databricks Structured Streaming 进行实时数据处理,存储到LakeHouse,并使用spark和spark sql进行分析的应用实践。讲师/嘉宾简介李锦桂-阿里云开源大数据平台开发工程师
开源大数据社区 & 阿里云 E-MapReduce 系列直播 第11期
Spark 大家应该都很熟了,我们这次的 Spark 最佳实践课程不会生搬硬套去讲一些你能在网上找得到的东西。而是讲师基于自己多年的经验总结出来的一些关于Spark或者是大数据方面一些原则性的东西,一些非常落地的最佳实践,主要的目标是让你为摆脱Spark小白用户的称号。讲师简介简锋 阿里云 EMR 数据开发平台 负责人
开源大数据社区 & 阿里云 E-MapReduce 系列直播 第10期
EMR on ACK是企业级半托管的开源大数据平台,为阿里云E-MapReduce(EMR)提供了一个部署选项,允许您在阿里云容器服务Kubernetes版 (ACK) 上运行开源大数据框架。Yarn on K8S方案帮助您平衡不同集群的资源使用,共享集群间计算资源,充分利用所有节点的计算资源,满足计算资源弹性调度,云上混合部署在线和离线任务的需求。本次直播将重点展开 Yarn on ACK 的弹性介绍。讲师简介霁谦 阿里云开源大数据平台 高级开发工程师
第一节课:走进开源大数据平台 EMR
本节主要介绍EMR产品历史、选择理由、产品形态介绍开营介绍:夏俊鸾,花名亦龙,阿里云智能资深技术专家讲师:王晓平,花名子关,阿里巴巴 EMR 产品专家
《数据湖存储架构选型》
数据湖技术在大数据领域炙手可热,随着在云上的广泛部署和应用,其业务价值逐渐获得业界共识。传统的大数据平台如何基于数据湖架构进行平台升级,享受新一轮的技术发展红利?郑老师着重跟大家分享了数据湖架构和应用在存储上面临的主要挑战,以及方案选型和最佳实践。嘉宾简介:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上研发业界领先的 Hadoop/Spark 大数据平台和数据湖解决方案产品。
TFPark: Distributed TensorFlow in Production on Apache Spark
TFPark是开源AI平台Analytics Zoo中一个模块,它的可以很方便让用户在Spark集群中分布式地进行TensorFlow模型的训练和推断。一方面,TFPark利用Spark将TensorFlow 定义的AI训练或推理任务无缝的嵌入到用户的大数据流水线中,而无需对现有集群做任何修改;另一方面TFPark屏蔽了复杂的分布式系统逻辑,可以将单机开发的AI应用轻松扩展到几十甚至上百节点上。本次分享将介绍TFPark的使用,内部实现以及在生产环境中的实际案例。 讲师简介: 汪洋,英特尔大数据团队的机器学习工程师,专注于分布式机器学习框架和应用。他是Analytics Zoo和BigDL的核心贡献者之一。
是时候改变你数仓的增量同步方案了
本分享会先介绍传统数据增量同步方案,之后对比新方案(完全基于Spark无需额外组件),介绍新方案如何结合最新的数据湖(delta lake)实现,同时引入spark-binlog,极大的简化了数据增量的门槛和架构。如果时间允许,我们也会简单介绍开源项目spark-binlog,delta-plus等的内部设计是如何支持我们新的数据增量方案的。讲师介绍祝威廉,资深数据架构,11年研发经验。同时维护和开发多个开源项目。擅长大数据/AI领域的一些思路和工具。现专注于构建集大数据和机器学习于一体的综合性平台,降低AI落地成本相关工作上。
Tablestore结合Spark的云上流批一体大数据架构
传统Lambda架构组件多运维复杂,如何使用一套存储和一套计算来实现流批架构充分享受技术红利?以Delta Lake为代表的新型数据湖方案越来越流行,传统的Lambda架构如何向数据湖架构进行扩展?以及结构化数据结合Delta Lake的最佳解决方案是什么。本次分享将会结合理论讲解和实际场景为您一一解答。讲师介绍王卓然, 花名琸然 阿里云存储服务技术专家
云上大数据的存储方案设计和选择
上云拐点已来,开源大数据上云是业界共识。如何满足在云上低成本存储海量数据的同时又实现高效率弹性计算的潜在需求?放眼业界,都有哪些成熟存储方案和选择?各自适用的存储和计算场景是什么?背后的技术关键和考虑因素都有哪些?欢迎大数据技术爱好者面对面交流和探讨!嘉宾介绍姚舜扬,花名辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作;苏昆辉,花名抚月,阿里巴巴计算平台事业部 EMR 高级工程师, 曾就职于华为、网易. Apache HDFS committer. 对Hadoop、HBase等有深入研究, 对分布式存储、高性能优化有丰富经验. 目前从事大数据云化相关工作.
基于 Spark 打造高效云原生数据分析引擎
由阿里巴巴 EMR 团队提交的 TPC-DS 成绩在九月份的榜单中取得了排名第一的成绩。这个成绩背后离不开 EMR 团队对 Spark 执行引擎持续不断的优化。本次分享将选取一些有代表性的优化点,深入到技术细节做详细介绍,包括但不限于动态过滤、CBO增强、TopK排序等等。嘉宾介绍辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容。
【Spark Relational Cache实现亚秒级响应的交互式分析】
2019杭州云栖大会大数据生态专场中的分享《Spark Relational Cache实现亚秒级响应的交互式分析》Apache Spark被广泛用于超大规模的数据分析处理,在交互式分析等时间敏感的场景中,超大规模数据量的处理时间可能无法满足用户快速响应的需求。通过数据的预组织和预计算,将频繁访问的数据和计算提前执行并保存在Relational Cache中,优化后续特定模式的查询,可以显著提高查询速度,实现亚秒级的响应。本议题主要介绍Spark Relational Cache的实现原理和使用场景。主讲人王道远(健身),阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。
【助力云上开源生态 - 阿里云开源大数据平台的发展】
介绍阿里云上开源生态的发展,阿里云如何更好的支持和融合开源生态,以及未来的发展。主讲人夏立,花名雷飙,阿里巴巴计算平台EMR高级产品专家,2014年开始接触大数据,历经阿里内部的大数据发展,目前在阿里云上负责开源的大数据平台EMR产品,构建云上的开源生态。
Lakehouse Meetup “整合Pulsar和Lakehouse数据:使用Connector将Pulsar Topic中的数据Sink到Lakehouse storage”
Lakehouse Meetup “整合Pulsar和Lakehouse数据:使用Connector将Pulsar Topic中的数据Sink到Lakehouse storage”张勇 StreamNative 高级工程师Apache Pulsar Committer
使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】
本次课程将介绍如何试用Databricks进行广告效果归因分析,完成一站式的部署机器学习,包括数据ETL、数据校验、模型训练/评测/应用等全流程。讲师/嘉宾简介冯加亮,阿里云开源大数据平台技术工程师
阿里云EMR StarRocks 线上发布会
2022年5月11日14:00,阿里云EMR StarRocks 产品线上发布会重磅开启,精彩不容错过!阿里云EMR-StarRocks 是 StarRocks 授权阿里云的一款新一代开源OLAP产品,致力于构建极速统一分析体验,满足企业用户的多种数据分析场景。讲师/嘉宾简介本次发布会邀请到了来自阿里云、StarRocks、众安保险的产品技术专家,详细介绍 EMR StarRocks 的功能优势、应用场景以及落地实践,揭秘 StarRocks 极速数据湖分析能力背后的技术支撑和未来规划。
使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】
从零售业需求预测痛点、商店商品模型预测的实践演示介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。讲师/嘉宾简介李锦桂--阿里云开源大数据平台开发工程师
如何快速搭建云原生企业级数据湖架构及实践分享
众所周知,数据湖技术在大数据领域炙手可热,随着在云上的广泛部署和应用,其业务价值逐渐获得业界共识。如何快搭建数据湖架构被越来越多的企业探讨。本次演讲主要分享快速搭建云原生企业级数据湖架构及实践分享。讲师简介王震 -- 阿里云计算平台事业部 开源大数据平台 技术专家
数据湖JindoFS+OSS 实操干货36讲 第四课(7/8讲)
【第7/8讲 直播主题】1、Flink 高效 sink 写入 OSS2、Flume 高效写入 OSS【背景】为了让更多开发者了解并使用 JindoFS,由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16:00准时开讲!从五大板块入手,玩转数据湖!讲师介绍重湖 - 阿里巴巴计算平台事业部 EMR 高级工程师焱冰 - 阿里巴巴计算平台事业部 EMR 技术专家
数据湖JindoFS+OSS 实操干货36讲 第二课
【第二课直播主题】1、如何将 HDFS 数据归档到 OSS2、如何将 Hive 数据按分区归档到 OSS【背景】为了让更多开发者了解并使用 JindoFS,由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16:00准时开讲!从五大板块入手,玩转数据湖!讲师介绍辰石 - 阿里巴巴计算平台事业部 EMR 技术专家健身 - 阿里巴巴计算平台事业部 EMR 技术专家
第二节课:EMR 产品入门
本节主要内容有 EMR 核心组件简介和使用、常用引擎使用示例、数据开发等讲师:孙大鹏,花名诚历,阿里巴巴 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。
Intel MLlib:构建平台优化的Spark机器学习
Intel MLlib是一个为Apache Spark MLlib优化的软件包。它在保持和Spark MLlib兼容的同时,在底层利用原生算法库来实现在CPU和GPU上的最优化算法,同时使用Collective Communication来实现效率更高的节点间通信。我们的初步结果表明,该软件包在最小化应用改动的基础上,可以极大地提升MLlib算法的性能。讲师介绍吴晓昶英特尔亚太研发有限公司大数据部门的高级软件工程师,主要研究方向为并行计算,大数据系统和机器学习,CPU和GPU的性能优化。目前关注Spark和机器学习的系统性能优化。
存储计算分离场景的计算适应优化
讲师介绍王道远,花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。直播简介:本次分享会介绍云上大数据处理的存储计算分离特征,分析传统大数据处理中数据本地化与存储计算分离场景的区别,以及在存储计算分离场景中阿里云EMR的相关优化。
(第二部分)从Python 到Java ,Pyboot加速大数据和AI的融合
Python 代表机器学习生态,而以 Hadoop/Spark 为核心的开源大数据则以 Java 为主。前者拥有数不清的算法库和程序,后者承载着海量数据和大量的企业应用。除了 SQL 这个标准方式和各种五花八门的协议接口,还有没有更高效的一手数据通道,将两个生态对接起来,乃至深度融合?Pyboot 是我们在这个方向上的探索。有兴趣的同学欢迎现场观摩演示和技术交流。嘉宾介绍郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上提供更好用更有弹性的 Hadoop/Spark 大数据平台;孙大鹏,花名诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作;
深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】
从数据仓库、数据湖的优劣势,湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。讲师/嘉宾简介Databricks软件工程师 张泊产品技术咨询https://survey.aliyun.com/apps/zhiliao/VArMPrZOR加入技术交流群
第三节课:EMR 的存储解决方案
本节主要介绍EMR针对云上大数据的存储解决方案,如何为计算提供灵活高效的存储基础讲师:姚舜扬,花名辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作
Hadoop 小文件/冷文件分析
庞大的小文件和冷文件数量会对HDFS的性能产生不利影响,严重时甚至影响业务稳定性,这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法,并基于分析结果可以采取哪些处理措施。讲师:郭聪,花名析源,阿里云计算平台事业部技术专家。目前主要从事大数据领域APM产品的研发工作。