开源大数据平台 E-MapReduce-阿里云开发者社区-阿里云

开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1538
内容
11
活动
5356
关注

开源大数据社区 & 阿里云 E-MapReduce 系列直播 第12期

此次课程是继上一节“ Spark 大数据处理最佳实践 ” 课后,大数据最佳实践课程的第二课。主要讲一下 flink 流计算的最佳实践。讲师根据自己多年经验总结的方法论,从 flink 学习框架入手,配合一些非常落地的最佳实践,带你有章法的学习 flink ,摆脱技术小白称号!讲师简介简锋 阿里云 EMR 数据开发平台 负责人

664 0

数据湖JindoFS+OSS 实操干货36讲 第三课(5/6讲)

【第5/6讲直播主题】1、访问 OSS 这类对象存储最快的方式:JindoFS SDK2、Hadoop/Spark 访问 OSS 加速【背景】为了让更多开发者了解并使用 JindoFS,由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16:00准时开讲!从五大板块入手,玩转数据湖!【讲师】诚历 - 阿里巴巴计算平台事业部 EMR 技术专家流影 - 阿里巴巴计算平台事业部 EMR 技术专家

791 0

第三节课:EMR 的存储解决方案

本节主要介绍EMR针对云上大数据的存储解决方案,如何为计算提供灵活高效的存储基础讲师:姚舜扬,花名辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作

709 0

通过LLVM加速SparkSQL时间窗口计算

讲师介绍:王太泽第四范式特征工程数据库负责人曾在百度担任资深研发工程师一直致力于解决机器学习模型从离线到在线特征一致性问题和性能问题。议题简介为什么要优化spark时间窗口未加速前面临问题为什么要使用llvm加速而不是继续优化jvm codegen实现介绍-llvm 版本sql引擎设计如何与spark集成benchmark数据 vs spark3.0

1076 0

Hadoop 小文件/冷文件分析

庞大的小文件和冷文件数量会对HDFS的性能产生不利影响,严重时甚至影响业务稳定性,这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法,并基于分析结果可以采取哪些处理措施。讲师:郭聪,花名析源,阿里云计算平台事业部技术专家。目前主要从事大数据领域APM产品的研发工作。

1204 0

使用Apache SuperSet和EMR Spark打造交互式的数据探索平台

本次分享主要介绍如何结合Apache SuperSet和EMR Spark,利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应,交互式的可视化数据探索。讲师介绍李呈祥,花名司麟,阿里云智能EMR团队高级技术专家,Apache Hive Committer, Apache Flink Committer,目前主要专注于EMR产品中开源计算引擎的优化工作。

1216 0

【基于Spark与TensorFlow的机器学习实践】

Apache Spark是目前最火热的计算框架,而TensorFlow是目前最火热的机器学习框架,当他们2个碰撞到一起的时候,也会产生巨大的能量。本议题会介绍EMR和PAI在这个上面的实践。主讲人吴威(无谓), 阿里巴巴高级技术专家,2008年加入阿里巴巴集团,先后在B2B和阿里云工作,一直从事大数据和分布式计算相关研究,作为主要开发和运维人员经历了阿里内部大数据集群的上线和发展壮大,现在阿里云EMR团队,负责Spark、Hadoop等计算引擎研发。江宇,阿里云EMR技术专家。从事Hadoop内核开发,目前专注于机器学习、深度学习大数据平台的建设

2056 1
|
大数据
|

云上StarRocks,极速湖仓meetup - 北京站

来自水滴筹、猿辅导、阿里云 EMR 团队和 StarRocks 社区的技术专家,针对开源 OLAP 技术架构、 StarRocks 产品硬核技术及 EMR StarRocks 进行分享。EMR Serverless StarRocks 免费公测讲师/嘉宾简介水滴筹、猿辅导、阿里云 EMR 团队和 StarRocks 社区的技术专家

1758 1

《开源大数据热力报告 2022》解读

11 月 5 日,开放原子开源基金会、X-lab 开放实验室、阿里巴巴开源联合发布了《开源大数据热力报告 2022》。该报告收集了2015 年至 2022 年的相关公开数据进行关联分析,研究开源大数据进入“后 Hadoop 时代”的技术趋势,以及开源社区的运作模式对技术走向的助推作用。 本周四,我们将以直播的方式,就《开源大数据热力报告 2022》的结论进行延申,讨论应如何提高开源开发者活跃度,提升开源项目热力。讲师/嘉宾简介赵生宇(X-lab开放实验室核心成员、开源社成员、同济大学计算机在读博士生、OpenDigger开源项目发起人)燕青(Apache Kyuubi PPMC、Apache Spark Committer、Apache Submarine Committer、网易技术专家)、赵恒(StarRocks PMC、StarRocks产品负责人)徐榜江(雪尽)(Flink CDC Maintainer、Apache Flink Committer、阿里云技术专家)、徐昱(StarRocks Active Contributor,Apache Hudi Contributor,华米科技高级大数据工程师 )

312 0

Lakehouse Meetup“Apache Hudi 实时湖仓解决方案

Lakehouse Meetup“Apache Hudi 实时湖仓解决方案”陈玉兆阿里巴巴技术专家Apache Hudi PMCApache Calcite PMC

4098 0

Lakehouse Meetup “Apache Pulsar 的湖仓一体方案:Pulsar 的 Lakehouse 分层存储集成详解”

Lakehouse Meetup “Apache Pulsar 的湖仓一体方案:Pulsar 的 Lakehouse 分层存储集成详解”陈航StreamNative 高级工程师Apache Pulsar PMC member

294 0

使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】

从零售业需求预测痛点、商店商品模型预测的实践演示介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。讲师/嘉宾简介李锦桂--阿里云开源大数据平台开发工程师

321 0

企业级全托管 Spark 大数据分析平台及案例分析【Databricks 数据洞察公开课】

从产品介绍、功能、典型场景、应用案例、Demo演示等多方面入手,介绍如何基于Databricks 数据洞察——Apache Spark的全托管数据分析平台,满足数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等场景需求。产品技术咨询https://survey.aliyun.com/apps/zhiliao/VArMPrZOR加入技术交流群讲师/嘉宾简介棕泽阿里云技术专家阿里云开源大数据生态企业研发负责人

409 0

E-MapReduce 极客挑战赛线上宣讲会

直播介绍:(建议600字以内)E-MapReduce 极客挑战赛线上宣讲会直播内容:1、大咖寄语2、赛事解读讲师简介EMR极客挑战赛官方

408 0

开源大数据社区 & 阿里云 E-MapReduce 系列直播 第7期

云原生数据湖构建与分析最佳实践讲师花名健身--阿里巴巴计算平台事业部 EMR技术专家

526 0

第二节课:EMR 产品入门

本节主要内容有 EMR 核心组件简介和使用、常用引擎使用示例、数据开发等讲师:孙大鹏,花名诚历,阿里巴巴 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。

608 0

JindoFS 存储策略和读写优化

本次分享主要介绍数据读写在计算存储分离的场景下所面临的常见问题以及相关的优化手段,并结合应用场景介绍对数据缓存加速的相关技术和策略。讲师介绍姚舜扬,花名辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作

535 0

JindoFS Fuse 支持

本次直播主要介绍如何利用FUSE的POSIX文件系统接口,像本地磁盘一样轻松使用大数据存储系统, 为云上AI场景提供了高效的数据访问手段。讲师介绍苏昆辉,花名抚月,阿里巴巴计算平台事业部 EMR 高级工程师, Apache HDFS committer. 目前从事开源大数据存储和优化方面的工作。

1123 0

大规模文件元数据下的耗时操作优化

本次直播主要介绍大数据生态中常见的元数据服务部署形态,并分析大规模文件元数据下在生产环境中可能遇到的问题,以及针对这些问题如何进行优化和调整。讲师介绍孙大鹏,花名诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。

1169 0

实时数仓建设以及典型场景应用

本次分享会介绍实时数仓的思路以及一些实践,包括SparkStreaming SQL引擎,以及对Delta/Kudu/Druid/阿里云多种存储组件的深度整合;同时会在这个基础上介绍一些典型案例应用讲师介绍宋军,花名嵩林 阿里云EMR高级技术专家。从事Spark内核优化,对SparkCore/SprakSQL有深入了解,Spark Contributor

2086 0

Tablestore结合Spark的云上流批一体大数据架构

传统Lambda架构组件多运维复杂,如何使用一套存储和一套计算来实现流批架构充分享受技术红利?以Delta Lake为代表的新型数据湖方案越来越流行,传统的Lambda架构如何向数据湖架构进行扩展?以及结构化数据结合Delta Lake的最佳解决方案是什么。本次分享将会结合理论讲解和实际场景为您一一解答。讲师介绍王卓然, 花名琸然 阿里云存储服务技术专家

1479 0

云上大数据的存储方案设计和选择

上云拐点已来,开源大数据上云是业界共识。如何满足在云上低成本存储海量数据的同时又实现高效率弹性计算的潜在需求?放眼业界,都有哪些成熟存储方案和选择?各自适用的存储和计算场景是什么?背后的技术关键和考虑因素都有哪些?欢迎大数据技术爱好者面对面交流和探讨!嘉宾介绍姚舜扬,花名辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作;苏昆辉,花名抚月,阿里巴巴计算平台事业部 EMR 高级工程师, 曾就职于华为、网易. Apache HDFS committer. 对Hadoop、HBase等有深入研究, 对分布式存储、高性能优化有丰富经验. 目前从事大数据云化相关工作.

1435 0

Lakehouse Meetup “整合Pulsar和Lakehouse数据:使用Connector将Pulsar Topic中的数据Sink到Lakehouse storage”

Lakehouse Meetup “整合Pulsar和Lakehouse数据:使用Connector将Pulsar Topic中的数据Sink到Lakehouse storage”张勇 StreamNative 高级工程师Apache Pulsar Committer

191 0

阿里云EMR StarRocks 线上发布会

2022年5月11日14:00,阿里云EMR StarRocks 产品线上发布会重磅开启,精彩不容错过!阿里云EMR-StarRocks 是 StarRocks 授权阿里云的一款新一代开源OLAP产品,致力于构建极速统一分析体验,满足企业用户的多种数据分析场景。讲师/嘉宾简介本次发布会邀请到了来自阿里云、StarRocks、众安保险的产品技术专家,详细介绍 EMR StarRocks 的功能优势、应用场景以及落地实践,揭秘 StarRocks 极速数据湖分析能力背后的技术支撑和未来规划。

273 0

Delta Lake数据湖基础介绍(开源版)【Databricks 数据洞察公开课】

公开课第四讲:本期公开课针对社区版本Delta Lake提供的几大核心特性进行讲解,并通过示例演示如何使用这些特性。产品技术咨询https://survey.aliyun.com/apps/zhiliao/VArMPrZOR加入技术交流群下期预告《Delta Lake数据湖基础介绍(商业版)》讲师/嘉宾简介筱龙阿里云开源大数据平台技术专家

867 1

开源大数据社区 & 阿里云 E-MapReduce 系列直播 第10期

EMR on ACK是企业级半托管的开源大数据平台,为阿里云E-MapReduce(EMR)提供了一个部署选项,允许您在阿里云容器服务Kubernetes版 (ACK) 上运行开源大数据框架。Yarn on K8S方案帮助您平衡不同集群的资源使用,共享集群间计算资源,充分利用所有节点的计算资源,满足计算资源弹性调度,云上混合部署在线和离线任务的需求。本次直播将重点展开 Yarn on ACK 的弹性介绍。讲师简介霁谦 阿里云开源大数据平台 高级开发工程师

1087 0

基于 Spark 打造高效云原生数据分析引擎

由阿里巴巴 EMR 团队提交的 TPC-DS 成绩在九月份的榜单中取得了排名第一的成绩。这个成绩背后离不开 EMR 团队对 Spark 执行引擎持续不断的优化。本次分享将选取一些有代表性的优化点,深入到技术细节做详细介绍,包括但不限于动态过滤、CBO增强、TopK排序等等。嘉宾介绍辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容。

1369 0

Spark on Kubernetes & YARN

以Kubernetes为代表的云原生技术越来越流行起来,spark是如何跑在Kubernetes之上来享受云原生技术的红利?Spark跑在Kubernetes之上和跑在Hadoop YARN上又有什么区别?以及Kubernetes 和YARN的差异点是什么。讲师介绍何剑,阿里巴巴高级技术专家,专注于Kubernetes容器云和大数据底层调度以及基础架构,负责阿里巴巴容器平台在线服务和离线计算任务混部。此前就职于Hortonworks, 是Hadoop 社区Committer和PMC成员

998 0

【助力云上开源生态 - 阿里云开源大数据平台的发展】

介绍阿里云上开源生态的发展,阿里云如何更好的支持和融合开源生态,以及未来的发展。主讲人夏立,花名雷飙,阿里巴巴计算平台EMR高级产品专家,2014年开始接触大数据,历经阿里内部的大数据发展,目前在阿里云上负责开源的大数据平台EMR产品,构建云上的开源生态。

796 0
我要发布