开源大数据平台 E-MapReduce-阿里云开发者社区-阿里云

开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1532
内容
11
活动
5354
关注

阿里云EMR 2.0线上发布会

云原生趋势下,开源大数据处于重构之中,以 Hadoop 为核心的开源大数据体系,从 2015 年开始转变为多元化技术并行发展。阿里云EMR作为开源大数据领域的引领者,迎来重磅升级,从平台体验、数据开发、服务形态、分析场景实现全面创新。通过云原生能力重构平台层、数据层、计算层,满足数千客户流处理、数据可视化、交互式分析、数据湖等多场景需求,为客户构建新一代开源大数据基础设施!讲师/嘉宾简介荆杭-阿里云高级产品专家,EMR产品负责人绝顶-阿里云资深技术专家,EMR平台技术团队负责人无谓-阿里云资深技术专家,数据湖构建与分析负责人铁杰 - 阿里云高级技术专家,数据湖存储负责人辰繁 - 阿里云高级技术专家,开源大数据OLAP&生态负责人

62549 0

第四节课:EMR 开通与演示

本节主要介绍开通EMR的环境准备、账号准备、付费情况、实操演示讲师:魏巍,花名念民,阿里巴巴 EMR 产品经理

596 0

【EMR打造高效云原生数据分析引擎】

EMR-Jindo 是 EMR 推出的云原生 OLAP 引擎。凭借该引擎,EMR 成为第一个云上 TPC-DS 成绩提交者。经过持续不断地内核优化,目前基于最新 EMR-Jindo 引擎的 TPC-DS 成绩又有了大幅提高,达到了3615071,成本降低到 0.76 CNY。本次分享将介绍 EMR-Jindo 引擎背后的相关技术以及以 EMR-Jindo 为核心的云上大数据架构方案。主讲人辛现银(辛庸),阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容。

1039 0

(第一部分)从Python 到Java ,Pyboot加速大数据和AI的融合

Python 代表机器学习生态,而以 Hadoop/Spark 为核心的开源大数据则以 Java 为主。前者拥有数不清的算法库和程序,后者承载着海量数据和大量的企业应用。除了 SQL 这个标准方式和各种五花八门的协议接口,还有没有更高效的一手数据通道,将两个生态对接起来,乃至深度融合?Pyboot 是我们在这个方向上的探索。有兴趣的同学欢迎现场观摩演示和技术交流。嘉宾介绍郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上提供更好用更有弹性的 Hadoop/Spark 大数据平台;孙大鹏,花名诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作;

1430 0

【云上大数据的一种高性能数据湖存储方案】

大数据上云是业界普遍共识,存储和计算分离的趋势日益显著,如何为云上蓬勃发展的大数据处理和分析引擎提供坚实的存储基础?这个 session 会主要讨论 EMR 技术团队重磅推出的一种新型混合存储解决方案,该方案基于云平台和云存储,面向新的存储硬件和计算发展趋势,为 EMR 弹性计算量身打造,在成本,弹性和性能上追求极佳平衡。技术上是如何实现的?性能如何?覆盖了哪些典型场景,最佳实践是什么?敬请期待!主讲人殳鑫鑫(辰石),阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。徐铖, Intel大数据团队软件开发经理

1311 0

使用Databricks和MLflow进行机器学习模型训练和部署的应用实践【Databricks 数据洞察公开课】

本期课介绍如何使用DDI和MLflow搭建机器学习生命周期管理平台,实现从数据准备、模型训练、参数和性能指标追踪、以及模型部署的全流程。讲师/嘉宾简介李锦桂--阿里云开源大数据平台开发工程师

672 0

Apache Flink x Iceberg Meetup 上海站

问题与互动页面(戳我进入)4月17日,Apahce Flink 社区2021年的首场线下 Meetup 正式开启!本次Apahce Flink x Iceberg Meetup邀请了来自阿里巴巴、腾讯、Dell、汽车之家的四位技术专家,聚焦 Flink x Iceberg 数据湖应用主题,围绕湖仓一体架构实践、Iceberg和对象存储的数据湖构建方案、超大规模数据入湖实践以及数据入湖面临的挑战等全方位剖析数据湖生产应用难题!活动亮点:超多实用干货,从数据湖应用面临的挑战入手,解析数据湖架构升级、对象存储与 Iceberg 的数据湖生态以及百亿数据入湖实践,轻松 get 数据湖正确打开方式;活动形式多样化,线下线上同步开启,同城可参与线下 Meetup 面对面交流,异地也可在线观看直播,精彩内容不错过;丰富周边等你拿,报名参加就有机会获得超多 Flink 社区定制的精美周边!Meetup 技术交流群:(Apache Flink 社区)活动议程合作伙伴

7461 0

第三节课:EMR 的存储解决方案

本节主要介绍EMR针对云上大数据的存储解决方案,如何为计算提供灵活高效的存储基础讲师:姚舜扬,花名辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作

704 0

Hadoop 小文件/冷文件分析

庞大的小文件和冷文件数量会对HDFS的性能产生不利影响,严重时甚至影响业务稳定性,这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法,并基于分析结果可以采取哪些处理措施。讲师:郭聪,花名析源,阿里云计算平台事业部技术专家。目前主要从事大数据领域APM产品的研发工作。

1195 0

(第二部分)从Python 到Java ,Pyboot加速大数据和AI的融合

Python 代表机器学习生态,而以 Hadoop/Spark 为核心的开源大数据则以 Java 为主。前者拥有数不清的算法库和程序,后者承载着海量数据和大量的企业应用。除了 SQL 这个标准方式和各种五花八门的协议接口,还有没有更高效的一手数据通道,将两个生态对接起来,乃至深度融合?Pyboot 是我们在这个方向上的探索。有兴趣的同学欢迎现场观摩演示和技术交流。嘉宾介绍郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上提供更好用更有弹性的 Hadoop/Spark 大数据平台;孙大鹏,花名诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作;

1323 0

【助力云上开源生态 - 阿里云开源大数据平台的发展】

介绍阿里云上开源生态的发展,阿里云如何更好的支持和融合开源生态,以及未来的发展。主讲人夏立,花名雷飙,阿里巴巴计算平台EMR高级产品专家,2014年开始接触大数据,历经阿里内部的大数据发展,目前在阿里云上负责开源的大数据平台EMR产品,构建云上的开源生态。

791 0
|
11月前
|
大数据
|

云上StarRocks,极速湖仓meetup - 北京站

来自水滴筹、猿辅导、阿里云 EMR 团队和 StarRocks 社区的技术专家,针对开源 OLAP 技术架构、 StarRocks 产品硬核技术及 EMR StarRocks 进行分享。EMR Serverless StarRocks 免费公测讲师/嘉宾简介水滴筹、猿辅导、阿里云 EMR 团队和 StarRocks 社区的技术专家

1754 1

如何使用Delta Lake构建批流一体数据仓库【Databricks 数据洞察公开课】

从场景痛点、实践操作介绍如何使用Delta Lake同时处理批作业和流作业,快速搭建批流一体数据仓库。讲师/嘉宾简介讲师:佳亮,阿里云开源大数据平台技术工程师

1263 0

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

从数据仓库、数据湖的优劣势,湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。讲师/嘉宾简介Databricks软件工程师 张泊产品技术咨询https://survey.aliyun.com/apps/zhiliao/VArMPrZOR加入技术交流群

933 2

数据湖JindoFS+OSS 实操干货36讲 第四课(7/8讲)

【第7/8讲 直播主题】1、Flink 高效 sink 写入 OSS2、Flume 高效写入 OSS【背景】为了让更多开发者了解并使用 JindoFS,由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16:00准时开讲!从五大板块入手,玩转数据湖!讲师介绍重湖 - 阿里巴巴计算平台事业部 EMR 高级工程师焱冰 - 阿里巴巴计算平台事业部 EMR 技术专家

715 0

数据湖JindoFS+OSS 实操干货36讲 第三课(5/6讲)

【第5/6讲直播主题】1、访问 OSS 这类对象存储最快的方式:JindoFS SDK2、Hadoop/Spark 访问 OSS 加速【背景】为了让更多开发者了解并使用 JindoFS,由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16:00准时开讲!从五大板块入手,玩转数据湖!【讲师】诚历 - 阿里巴巴计算平台事业部 EMR 技术专家流影 - 阿里巴巴计算平台事业部 EMR 技术专家

786 0

Intel MLlib:构建平台优化的Spark机器学习

Intel MLlib是一个为Apache Spark MLlib优化的软件包。它在保持和Spark MLlib兼容的同时,在底层利用原生算法库来实现在CPU和GPU上的最优化算法,同时使用Collective Communication来实现效率更高的节点间通信。我们的初步结果表明,该软件包在最小化应用改动的基础上,可以极大地提升MLlib算法的性能。讲师介绍吴晓昶英特尔亚太研发有限公司大数据部门的高级软件工程师,主要研究方向为并行计算,大数据系统和机器学习,CPU和GPU的性能优化。目前关注Spark和机器学习的系统性能优化。

1006 0

OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能

讲师介绍:陈海锋,英特尔亚太研发有限公司大数据部门的高级软件架构师,开发经理,主要研究和关注基于Hadoop和Spark的大数据框架的分析和优化,Apache社区的长期贡献者。沈祥翔,英特尔亚太研发有限公司大数据部门的高级软件工程师,主要担任OAP项目的开发。分享介绍:简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化,使用索引和缓存来解决交互式查询性能挑战。英特尔和社区合作,为Spark SQL实现了索引和数据源缓存,通过为关键查询列创建并存储完整的B +树索引,并使用智能的细粒度数据缓存策略,我们可以极大的提升基于Spark SQL的交互式查询的性能。

1113 0

半小时,将你的Spark SQL模型变为在线服务

SparkSQL在机器学习场景中应用模型从批量到实时面临的问题 - SparkSQL 转换成实时执行成本高 - 离线特征和在线特征保持一致困难 - 离线效果与在线效果差距大我们是如何解决这些问题 相对传统实现方式我们优势 SparkSQL实时上线demo讲师:王太泽 第四范式特征工程数据库负责人 曾在百度担任资深研发工程师 一直致力于解决机器学习模型从离线到在线特征一致性问题和性能问题。

1425 0

Analytics Zoo上的分布式TensorFlow训练AI玩FIFA足球游戏

近年来,由于对通用人工智能研究的潜在价值,训练AI玩游戏一直是一个火热的研究领域。FIFA实时视频游戏场景复杂,需要结合图像,强化学习等多种不同的AI技术,同时也要求agents响应有实时性,因此是一个非常好的试验场,可以用来探索不同类型的AI技术。本次分享主要介绍我们在训练AI玩FIFA视频游戏方面的一些工作。有兴趣的同学,可以提前关注此开源项目:https://github.com/intel-analytics/analytics-zoo讲师介绍:喻杉,Intel大数据分析团队机器学习工程师。她目前专注于在analytics-zoo大数据和人工智能平台上开发针对时间序列分析的自动机器学习组件。在加入intel前,她在浙江大学获得了学士和硕士学位。

1359 0

存储计算分离场景的计算适应优化

讲师介绍王道远,花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。直播简介:本次分享会介绍云上大数据处理的存储计算分离特征,分析传统大数据处理中数据本地化与存储计算分离场景的区别,以及在存储计算分离场景中阿里云EMR的相关优化。

1219 0

实时数仓建设以及典型场景应用

本次分享会介绍实时数仓的思路以及一些实践,包括SparkStreaming SQL引擎,以及对Delta/Kudu/Druid/阿里云多种存储组件的深度整合;同时会在这个基础上介绍一些典型案例应用讲师介绍宋军,花名嵩林 阿里云EMR高级技术专家。从事Spark内核优化,对SparkCore/SprakSQL有深入了解,Spark Contributor

2077 0

使用分布式自动机器学习进行时间序列分析

对于时间序列预测搭建机器学习应用的过程非常繁琐且需要大量经验。为了提供一个简单易用的时间序列预测工具,我们将自动机器学习应用于时间序列预测,将特征生成,模型选择和超参数调优等过程实现自动化。我们的工具基于Ray(UC Berkeley RISELab开源的针对高级AI 应用的分布式框架,并作为Analytics zoo(由intel开源的统一的大数据分析和人工智能平台)的一部分功能提供给用户。嘉宾介绍喻杉,Intel大数据分析团队软件工程师。她目前专注于在analytics-zoo大数据和人工智能平台上开发自动机器学习组件。在加入intel前,她在浙江大学获得了学士和硕士学位。

1454 0

使用 Databricks 进行营销效果归因分析的应用实践【Databricks 数据洞察公开课】

本次课程将介绍如何试用Databricks进行广告效果归因分析,完成一站式的部署机器学习,包括数据ETL、数据校验、模型训练/评测/应用等全流程。讲师/嘉宾简介冯加亮,阿里云开源大数据平台技术工程师

431 0

使用Databricks进行零售业需求预测的应用实践【Databricks 数据洞察公开课】

从零售业需求预测痛点、商店商品模型预测的实践演示介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。讲师/嘉宾简介李锦桂--阿里云开源大数据平台开发工程师

313 0

E-MapReduce 极客挑战赛线上宣讲会

直播介绍:(建议600字以内)E-MapReduce 极客挑战赛线上宣讲会直播内容:1、大咖寄语2、赛事解读讲师简介EMR极客挑战赛官方

406 0

开源大数据社区 & 阿里云 E-MapReduce 系列直播 第7期

云原生数据湖构建与分析最佳实践讲师花名健身--阿里巴巴计算平台事业部 EMR技术专家

522 0

阿里云EMR系列直播-EMR spark on ACK产品演示及最佳实践

EMR on ACK是企业级半托管的开源大数据平台,为阿里云E-MapReduce(EMR)提供了一个部署选项,允许您在阿里云容器服务Kubernetes版 (ACK) 上运行开源大数据框架。 目前支持Spark引擎的部署,结合自研的Remote shuffle service服务组件,提供用户高稳定、高性价比、灵活的弹性计算服务。本次直播重点展开了该产品介绍和使用演示。讲师介绍石磊(砳岩),阿里云技术专家

1317 0

第二节课:EMR 产品入门

本节主要内容有 EMR 核心组件简介和使用、常用引擎使用示例、数据开发等讲师:孙大鹏,花名诚历,阿里巴巴 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。

603 0

第一节课:走进开源大数据平台 EMR

本节主要介绍EMR产品历史、选择理由、产品形态介绍开营介绍:夏俊鸾,花名亦龙,阿里云智能资深技术专家讲师:王晓平,花名子关,阿里巴巴 EMR 产品专家

906 0

利用持久内存提速Spark

主要探讨如何在Spark上使用持久内存这一新技术来进一步提速性能。具体会介绍基于Plasma的共享内存方案来提速SQL数据源访问的性能以及利用持久内存扩展Spark现有内存磁盘存储层级来提速RDD cache在迭代式计算中的效果。讲师介绍:纪琨尚,英特尔亚太研发有限公司大数据部门的软件工程师,专注于Spark计算框架上基于Optane PMEM的优化叶宇强,英特尔亚太研发有限公司大数据部门的资深软件工程师,专注于Spark计算框架上基于Optane PMEM的优化

1175 0

TFPark: Distributed TensorFlow in Production on Apache Spark

TFPark是开源AI平台Analytics Zoo中一个模块,它的可以很方便让用户在Spark集群中分布式地进行TensorFlow模型的训练和推断。一方面,TFPark利用Spark将TensorFlow 定义的AI训练或推理任务无缝的嵌入到用户的大数据流水线中,而无需对现有集群做任何修改;另一方面TFPark屏蔽了复杂的分布式系统逻辑,可以将单机开发的AI应用轻松扩展到几十甚至上百节点上。本次分享将介绍TFPark的使用,内部实现以及在生产环境中的实际案例。 讲师简介: 汪洋,英特尔大数据团队的机器学习工程师,专注于分布式机器学习框架和应用。他是Analytics Zoo和BigDL的核心贡献者之一。

675 0

用Analytics-Zoo实现基于深度学习的胸腔疾病AI诊疗辅助

讲师介绍龚奇源博士,英特尔机器学习专家。从事多年数据隐私和机器学习研究,2017年加入英特尔,目前负责Analytics-Zoo中ClusterServing、Streaming、OpenVINO和推理优化等工作。直播简介:本次分享主要介绍如何利用Analytics Zoo和NIH胸部X光影像数据集,在Apache Spark集群上实现基于深度学习的胸腔疾病分类,为医生提供端到端的胸腔疾病AI诊疗辅助。有兴趣的同学,可以提前关注此开源项目:https://github.com/intel-analytics/analytics-zoo

1223 0
|
6月前
|

Apache Kyuubi & Celeborn,助力 Spark 拥抱云原生

10月14日14:00-17:30,Apache Kyuubi & Celeborn 社区将在杭州举办「Apache Kyuubi & Celeborn (Incubating) 助力 Spark 拥抱云原生」Meetup,本次 Meetup 邀请到阿里云、网易数帆、Cisco、丁香园、Shopee 等技术大咖深入探讨交流基于 Apache Kyuubi & Celeborn 的技术实践,助力 Spark 拥抱云原生!讲师/嘉宾简介周克勇(一锤):阿里云 EMR Spark 引擎负责人,Apache Celeborn (Incubating) 的发起人潘成:网易数帆大数据技术专家,Apache Kyuubi PMC Member,Apache Celeborn (Incubating) PPMC Member朱夷(AngersZhuuuu):Shopee 技术专家, Spark PIC。 Apache Celeborn(Incubating) PPMC/Apache Spark active Contributor/ Apache HDFS/YARN contributorHe Zhao:Data Engineer at CiscoPengqi Li:Data Engineer at Cisco陈福:Apache Kyuubi PMC Member / Apache Celeborn (Incubating) Committer / 丁香园大数据基础平台负责人

999 1

《开源大数据热力报告 2022》解读

11 月 5 日,开放原子开源基金会、X-lab 开放实验室、阿里巴巴开源联合发布了《开源大数据热力报告 2022》。该报告收集了2015 年至 2022 年的相关公开数据进行关联分析,研究开源大数据进入“后 Hadoop 时代”的技术趋势,以及开源社区的运作模式对技术走向的助推作用。 本周四,我们将以直播的方式,就《开源大数据热力报告 2022》的结论进行延申,讨论应如何提高开源开发者活跃度,提升开源项目热力。讲师/嘉宾简介赵生宇(X-lab开放实验室核心成员、开源社成员、同济大学计算机在读博士生、OpenDigger开源项目发起人)燕青(Apache Kyuubi PPMC、Apache Spark Committer、Apache Submarine Committer、网易技术专家)、赵恒(StarRocks PMC、StarRocks产品负责人)徐榜江(雪尽)(Flink CDC Maintainer、Apache Flink Committer、阿里云技术专家)、徐昱(StarRocks Active Contributor,Apache Hudi Contributor,华米科技高级大数据工程师 )

302 0

使用DDI+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】

本次课程将介绍网约车模拟数据从产生、发布到流数据服务confluent,通过Databricks Structured Streaming 进行实时数据处理,存储到LakeHouse,并使用spark和spark sql进行分析的应用实践。讲师/嘉宾简介李锦桂-阿里云开源大数据平台开发工程师

273 0

企业级全托管 Spark 大数据分析平台及案例分析【Databricks 数据洞察公开课】

从产品介绍、功能、典型场景、应用案例、Demo演示等多方面入手,介绍如何基于Databricks 数据洞察——Apache Spark的全托管数据分析平台,满足数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等场景需求。产品技术咨询https://survey.aliyun.com/apps/zhiliao/VArMPrZOR加入技术交流群讲师/嘉宾简介棕泽阿里云技术专家阿里云开源大数据生态企业研发负责人

401 0

如何快速搭建云原生企业级数据湖架构及实践分享

众所周知,数据湖技术在大数据领域炙手可热,随着在云上的广泛部署和应用,其业务价值逐渐获得业界共识。如何快搭建数据湖架构被越来越多的企业探讨。本次演讲主要分享快速搭建云原生企业级数据湖架构及实践分享。讲师简介王震 -- 阿里云计算平台事业部 开源大数据平台 技术专家

978 0

开源大数据社区 & 阿里云 E-MapReduce 系列直播 第10期

EMR on ACK是企业级半托管的开源大数据平台,为阿里云E-MapReduce(EMR)提供了一个部署选项,允许您在阿里云容器服务Kubernetes版 (ACK) 上运行开源大数据框架。Yarn on K8S方案帮助您平衡不同集群的资源使用,共享集群间计算资源,充分利用所有节点的计算资源,满足计算资源弹性调度,云上混合部署在线和离线任务的需求。本次直播将重点展开 Yarn on ACK 的弹性介绍。讲师简介霁谦 阿里云开源大数据平台 高级开发工程师

1081 0

开源大数据社区 & 阿里云 E-MapReduce 系列直播 第9期

EMR on ACK是企业级半托管的开源大数据平台,为阿里云E-MapReduce(EMR)提供了一个部署选项,允许您在阿里云容器服务Kubernetes版 (ACK) 上运行开源大数据框架。 目前支持Spark引擎的部署,结合自研的Remote shuffle service(RSS)服务组件,提供用户高稳定、高性价比、灵活的弹性计算服务。RSS解决了计算存储分离和混合架构下的shuffle稳定性和性能问题。本次直播将重点展开RSS的使用和性能展示。讲师介绍吴雪扬(枢木),阿里云高级开发工程师

1952 0

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

EMR团队探索并开发了SparkSQL Native Codegen框架,为SparkSQL换了引擎,新引擎带来最高4倍性能提升,为EMR再次获取世界第一立下汗马功劳,本次直播将详细介绍Native Codegen框架。讲师简介:周克勇,花名一锤,阿里巴巴计算平台事业部EMR团队技术专家,大数据领域技术爱好者,对Spark有浓厚兴趣和一定的了解,目前主要专注于EMR产品中开源计算引擎的优化工作。参考文章:EMR Spark-SQL性能极致优化揭秘 Native Codegen Frameworkhttps://developer.aliyun.com/article/765156?spm=a2c6h.12873581.0.dArticle765156.5f6f47b4Mj7VpM&groupCode=aliyunemr

1784 0

Office Depot利用Analytics Zoo构建智能推荐系统的实践分享

大量实验结果表明深度学习能更好地帮助商家为用户个性化推荐感兴趣的商品。Office Depot将Analytics Zoo工具包引入到他们的推荐系统中,在Spark集群上分布式训练了各种推荐算法模型,实验结果相比于传统的推荐算法有了十分显著的提升,本次分享主要介绍Office Depot使用Analytics Zoo构建智能推荐系统的实践经验。有兴趣的同学,可以提前关注此开源项目:https://github.com/intel-analytics/analytics-zoo讲师介绍讲师:黄凯Intel数据分析团队软件工程师。负责开发基于Apache Spark的深度学习框架,同时支持企业客户在大数据平台上构建端到端的深度学习应用。他是Analytics Zoo和BigDL的核心贡献者之一。

995 0

使用Apache SuperSet和EMR Spark打造交互式的数据探索平台

本次分享主要介绍如何结合Apache SuperSet和EMR Spark,利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应,交互式的可视化数据探索。讲师介绍李呈祥,花名司麟,阿里云智能EMR团队高级技术专家,Apache Hive Committer, Apache Flink Committer,目前主要专注于EMR产品中开源计算引擎的优化工作。

1205 0

【Spark Relational Cache实现亚秒级响应的交互式分析】

2019杭州云栖大会大数据生态专场中的分享《Spark Relational Cache实现亚秒级响应的交互式分析》Apache Spark被广泛用于超大规模的数据分析处理,在交互式分析等时间敏感的场景中,超大规模数据量的处理时间可能无法满足用户快速响应的需求。通过数据的预组织和预计算,将频繁访问的数据和计算提前执行并保存在Relational Cache中,优化后续特定模式的查询,可以显著提高查询速度,实现亚秒级的响应。本议题主要介绍Spark Relational Cache的实现原理和使用场景。主讲人王道远(健身),阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。

1151 0

【基于Spark与TensorFlow的机器学习实践】

Apache Spark是目前最火热的计算框架,而TensorFlow是目前最火热的机器学习框架,当他们2个碰撞到一起的时候,也会产生巨大的能量。本议题会介绍EMR和PAI在这个上面的实践。主讲人吴威(无谓), 阿里巴巴高级技术专家,2008年加入阿里巴巴集团,先后在B2B和阿里云工作,一直从事大数据和分布式计算相关研究,作为主要开发和运维人员经历了阿里内部大数据集群的上线和发展壮大,现在阿里云EMR团队,负责Spark、Hadoop等计算引擎研发。江宇,阿里云EMR技术专家。从事Hadoop内核开发,目前专注于机器学习、深度学习大数据平台的建设

2051 1

StarRocks 3.0 极速统一的湖仓新范式

讲师简介张友东:StarRocks Active Contributor内容简介在线讲解从 shared-nothing 到 shared-data 的湖仓分析新范式如何帮助用户实现“极速统一“的价值。动手实践EMR Serverless StarRocks 免费测试https://developer.aliyun.com/article/1191440

1779 4

洞悉 Spark 任务调度新能力|Apache Spark + DolphinScheduler Meetup

洞悉 Spark 任务调度新能力|Apache Spark + DolphinScheduler Meetup特邀 - 阿里云 EMR 数据开发平台团队负责人孙一凡、BIGO 大数据研发工程师许名勇、阿里云 EMR Spark 引擎负责人周克勇 ,通过他们的分享让用户能更快更好更便捷的使用 Apahce Spark + Apahce DolphinScheduler 。讲师/嘉宾简介孙一凡(Evans 忆梵) 阿里云 EMR 数据开发平台团队负责人周克勇(一锤) 阿里云 EMR Spark 引擎负责人许名勇 BIGO 大数据研发工程师

2666 2

Lakehouse Meetup “Apache Pulsar 的湖仓一体方案:Pulsar 的 Lakehouse 分层存储集成详解”

Lakehouse Meetup “Apache Pulsar 的湖仓一体方案:Pulsar 的 Lakehouse 分层存储集成详解”陈航StreamNative 高级工程师Apache Pulsar PMC member

288 0
我要发布