开发者社区> 阿里云E-MapReduce团队> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎

简介: 11月16日的大数据+AI沙龙上海站取得圆满成功! EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。本次分享,揭秘TPC-DS 榜单第一名背后的强大引擎,探索Pyboot如何打通大数据生态,一同学习业内最新的存储方案和机器学习平台。
+关注继续查看

11月16日,阿里云大数据+AI技术沙龙,首战上海站取得圆满成功。我们邀请到阿里巴巴计算平台事业部 技术专家辛庸,辰山,抚月,诚历;高级技术专家铁杰,以及Intel软件工程师喻杉和大家进行分享交流。

以下是各议题相关资料沉淀。


议题一:
基于 Spark 打造高效云原生数据分析引擎

视频观看链接:https://developer.aliyun.com/live/1712?spm=a2c6h.12873581.0.0.270f1566XWpLUS&groupCode=apachespark

PPT链接:https://www.slidestalk.com/AliSpark/Meetup_Shanghai_16944

辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容。

议题简介:
由阿里巴巴 EMR 团队提交的 TPC-DS 成绩在九月份的榜单中取得了排名第一的成绩。这个成绩背后离不开 EMR 团队对 Spark 执行引擎持续不断的优化。
本次分享将选取一些有代表性的优化点,深入到技术细节做详细介绍,包括但不限于动态过滤、CBO增强、TopK排序等等。


议题二:
使用分布式自动机器学习进行时间序列分析

视频观看链接:https://developer.aliyun.com/live/1713?spm=a2c6h.12873581.0.0.270f1566XWpLUS&groupCode=apachespark

PPT链接:
https://www.slidestalk.com/AliSpark/TimeSeriesForecastingAutoML_Shan_19111673315

喻杉,Intel大数据分析团队软件工程师。她目前专注于在analytics-zoo大数据和人工智能平台上开发自动机器学习组件。在加入intel前,她在浙江大学获得了学士和硕士学位。

内容简介:
对于时间序列预测搭建机器学习应用的过程非常繁琐且需要大量经验。为了提供一个简单易用的时间序列预测工具,我们将自动机器学习应用于时间序列预测,将特征生成,模型选择和超参数调优等过程实现自动化。我们的工具基于Ray(UC Berkeley RISELab开源的针对高级AI 应用的分布式框架,并作为Analytics zoo(由intel开源的统一的大数据分析和人工智能平台)的一部分功能提供给用户。


议题三:
云上大数据的存储方案设计和选择

视频观看链接:https://developer.aliyun.com/live/1714?spm=a2c6h.12873581.0.0.270f1566XWpLUS&groupCode=apachespark

PPT链接:https://www.slidestalk.com/AliSpark/13535?video

姚舜扬,花名辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作;

苏昆辉,花名抚月,阿里巴巴计算平台事业部 EMR 高级工程师, 曾就职于华为、网易. Apache HDFS committer. 对Hadoop、HBase等有深入研究, 对分布式存储、高性能优化有丰富经验. 目前从事大数据云化相关工作.

议题简介:
上云拐点已来,开源大数据上云是业界共识。如何满足在云上低成本存储海量数据的同时又实现高效率弹性计算的潜在需求?放眼业界,都有哪些成熟存储方案和选择?各自适用的存储和计算场景是什么?背后的技术关键和考虑因素都有哪些?欢迎大数据技术爱好者面对面交流和探讨!


议题四:
从Python 到Java ,Pyboot加速大数据和AI的融合

视频观看链接:
https://developer.aliyun.com/live/1715?spm=a2c6h.12873581.0.0.270f1566XWpLUS&groupCode=apachespark

https://developer.aliyun.com/live/1717?spm=a2c6h.12873581.0.0.270f1566XWpLUS&groupCode=apachespark

PPT链接:https://www.slidestalk.com/AliSpark/PybootAI12722

郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上提供更好用更有弹性的 Hadoop/Spark 大数据平台;

孙大鹏,花名诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作;

议题简介:
Python 代表机器学习生态,而以 Hadoop/Spark 为核心的开源大数据则以 Java 为主。前者拥有数不清的算法库和程序,后者承载着海量数据和大量的企业应用。除了 SQL 这个标准方式和各种五花八门的协议接口,还有没有更高效的一手数据通道,将两个生态对接起来,乃至深度融合?Pyboot 是我们在这个方向上的探索。有兴趣的同学欢迎现场观摩演示和技术交流。


EMR团队介绍

阿里云 EMR 团队,致力于为客户提供开源大数据 Hadoop/Spark 生态基于云端的一站式,高可用弹性计算平台。EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现联合开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。
社区地址:https://developer.aliyun.com/group/apachespark


作为运行在阿里云平台上的一种大数据处理的系统解决方案,阿里云 Elastic MapReduce(E-MapReduce)构建于阿里云云服务器 ECS 上,基于开源的 Apache Hadoop 和 Apache Spark,让用户可以方便地使用 Hadoop 和 Spark 生态系统中的其他周边系统(如 Apache Hive、Apache Pig、HBase 等)来分析和处理自己的数据。官网:https://www.aliyun.com/product/emapreduce

E-MapReduce 目前已服务政府、教育、新零售、服务、互联网、人工智能等行业超千家企业,提供集群管理工具的集成解决方案,如主机选型、环境部署、集群搭建、集群配置、集群运行、作业配置、作业运行、集群管理、性能监控等。

今年3月份,E-MapReduce成为全球首个通过TPC认证的公共云产品。2019年9月,E-MapReduce新版本在TPC-DS 10TB benchmark中再次勇夺第一,性能达到5,261,414 QphDS,比之前最好成绩提升19%,并且将单位查询成本降低38%。同时,E-MapReduce首次将TPC-DS数据集规模拓展至100TB,性能达到14,861,137 QphDS,100TB的数据规模是竞争对手产品最大处理能力的10倍。

Jindo是阿里云智能E-MapReduce团队在开源的Apache Spark基础上自主研发的云原生分布式计算和存储引擎,已经在近千E-MapReduce客户中大规模部署使用。Jindo Spark在开源版本基础上做了大量优化和扩展,深度集成和连接了众多阿里云基础服务。

此次TPC-DS benchmark报告经过了严格第三方审计流程,任何阿里云智能的客户可以在阿里云官网购买并使用 最新版本。在benchmark测试中我们在阿里云ECS服务器上使用了Jindo Spark的最新版本,在几乎相同的硬件环境上,新版本的Jindo Spark展示了性能、功能和扩展性上有了长足的进步,在TPC-DS为代表的SQL查询性能相比以往版本有3倍以上的性能提升,查询规模更是提升了10倍,可以非常稳定的处理100TB规模的数据表。在本次 TPC-DS 10TB benchmark测试中,Jindo 引擎体现了比开源软件以及商业大数据产品更好的性能和更完整的分析支持。

感谢在开发的同时EMR团队对Spark社区的贡献。更多对Jindo Spark的性能优化和功能增强工作还在进行中,对开源大数据和数据库OLAP场景感兴趣的同学可以加小编微信(图一二维码,备注进群)进如本次技术交流微信群。也可钉钉扫码加入社区的钉钉群
image.png

image.png

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
AI Earth ——暨GEE\PIE之后,AIE已经悄然上线了,阿里云开发者模式上线
AI Earth ——暨GEE\PIE之后,AIE已经悄然上线了,阿里云开发者模式上线
0 0
《英特尔+阿里云机器学习PAI-全栈赋能AI生态,加速应用落地》电子版地址
英特尔+阿里云机器学习PAI-全栈赋能AI生态,加速应用落地
0 0
阿里云百城计划入局珠海!青莲网络携手阿里云为数字经济提供云AI动力
9月23日,青莲网络携手阿里云联合举办了【百城聚力·珠海站】专场沙龙活动————“数智化时代,企业云+AI实战案例深度剖析”,将云AI创新技术下沉城市,进一步加速珠海企业数智化升级。
0 0
超长序列,超快预测!深势科技联手阿里云,AI 蛋白质预测再下一城
强强联合,突破 AI 蛋白质预测模型推理性能瓶颈,支持最高 6.6k 长氨基酸序列蛋白质的预测计算,达到目前已知最优推理效果。
0 0
阿里云大数据助力知衣科技打造AI服装行业核心竞争力
杭州知衣科技有限公司是一家以人工智能技术为驱动的国家高新技术企业,致力于将数据化趋势发现、爆款挖掘和供应链组织能力标准化输出,打造智能化服装设计的供应链平台。
0 0
超长序列,超快预测!深势科技联手阿里云,AI蛋白质预测再下一城
强强联合,突破 AI 蛋白质预测模型推理性能瓶颈,支持最高 6.6k 长氨基酸序列蛋白质的预测计算,达到目前已知最优推理效果。
0 0
阿里云高性能计算负责人何万青:阿里云大计算加速HPC与AI融合
与AI相结合,高性能计算能够帮助科研人员将精力集中于专业领域。
0 0
互联网企业助力北京冬奥会:阿里云后端保障,百度AI抢镜,猎豹机器人火到外网……
互联网企业助力北京冬奥会:阿里云后端保障,百度AI抢镜,猎豹机器人火到外网……
0 0
阿里云天池2022人工智能师资培训将于8月16日开班
阿里云天池AI实训平台人工智能师资培训班诚挚邀请您来参加啦! 农业、气象、机器学习、图像识别四大经典赛题实验首次解读 阿里云专家和名校教师在线直播讲解,搭配AI实训平台实时演练 培训全程免费,完成任务即可获得阿里云官方颁发的师资培训证书
0 0
Gartner云AI开发者服务报告:阿里云跃升至挑战者象限
国际权威研究机构Gartner发布2022年《云AI开发者服务魔力象限》。凭借达摩院领先的AI算法和阿里云丰富的产品体系,继2021年入围远见者象限之后,阿里云进一步跃升至挑战者象限,且成为报告中执行能力最强的中国企业。
0 0
文章
问答
来源圈子
更多
E-MapReduce是构建于阿里云ECS弹性虚拟机之上,利用开源大数据生态系统,包括Hadoop和Spark,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。加入钉钉群聊阿里云E-MapReduce交流2群,点击进入查看详情 https://qr.dingtalk.com/action/joingroup?code=v1,k1,cNBcqHn4TvG0iHpN3cSc1B86D1831SGMdvGu7PW+sm4=&_dt_no_comment=1&origin=11
+ 订阅
相关文档: E-MapReduce
文章排行榜
最热
最新
相关电子书
更多
阿里巴巴大数据及AI实战
立即下载
飞天大数据&AI产品手册
立即下载
阿里巴巴机器学习平台AI
立即下载