阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 11月16日的大数据+AI沙龙上海站取得圆满成功! EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。本次分享,揭秘TPC-DS 榜单第一名背后的强大引擎,探索Pyboot如何打通大数据生态,一同学习业内最新的存储方案和机器学习平台。

11月16日,阿里云大数据+AI技术沙龙,首战上海站取得圆满成功。我们邀请到阿里巴巴计算平台事业部 技术专家辛庸,辰山,抚月,诚历;高级技术专家铁杰,以及Intel软件工程师喻杉和大家进行分享交流。

以下是各议题相关资料沉淀。


议题一:
基于 Spark 打造高效云原生数据分析引擎

视频观看链接:https://developer.aliyun.com/live/1712?spm=a2c6h.12873581.0.0.270f1566XWpLUS&groupCode=apachespark

PPT链接:https://www.slidestalk.com/AliSpark/Meetup_Shanghai_16944

辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容。

议题简介:
由阿里巴巴 EMR 团队提交的 TPC-DS 成绩在九月份的榜单中取得了排名第一的成绩。这个成绩背后离不开 EMR 团队对 Spark 执行引擎持续不断的优化。
本次分享将选取一些有代表性的优化点,深入到技术细节做详细介绍,包括但不限于动态过滤、CBO增强、TopK排序等等。


议题二:
使用分布式自动机器学习进行时间序列分析

视频观看链接:https://developer.aliyun.com/live/1713?spm=a2c6h.12873581.0.0.270f1566XWpLUS&groupCode=apachespark

PPT链接:
https://www.slidestalk.com/AliSpark/TimeSeriesForecastingAutoML_Shan_19111673315

喻杉,Intel大数据分析团队软件工程师。她目前专注于在analytics-zoo大数据和人工智能平台上开发自动机器学习组件。在加入intel前,她在浙江大学获得了学士和硕士学位。

内容简介:
对于时间序列预测搭建机器学习应用的过程非常繁琐且需要大量经验。为了提供一个简单易用的时间序列预测工具,我们将自动机器学习应用于时间序列预测,将特征生成,模型选择和超参数调优等过程实现自动化。我们的工具基于Ray(UC Berkeley RISELab开源的针对高级AI 应用的分布式框架,并作为Analytics zoo(由intel开源的统一的大数据分析和人工智能平台)的一部分功能提供给用户。


议题三:
云上大数据的存储方案设计和选择

视频观看链接:https://developer.aliyun.com/live/1714?spm=a2c6h.12873581.0.0.270f1566XWpLUS&groupCode=apachespark

PPT链接:https://www.slidestalk.com/AliSpark/13535?video

姚舜扬,花名辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作;

苏昆辉,花名抚月,阿里巴巴计算平台事业部 EMR 高级工程师, 曾就职于华为、网易. Apache HDFS committer. 对Hadoop、HBase等有深入研究, 对分布式存储、高性能优化有丰富经验. 目前从事大数据云化相关工作.

议题简介:
上云拐点已来,开源大数据上云是业界共识。如何满足在云上低成本存储海量数据的同时又实现高效率弹性计算的潜在需求?放眼业界,都有哪些成熟存储方案和选择?各自适用的存储和计算场景是什么?背后的技术关键和考虑因素都有哪些?欢迎大数据技术爱好者面对面交流和探讨!


议题四:
从Python 到Java ,Pyboot加速大数据和AI的融合

视频观看链接:
https://developer.aliyun.com/live/1715?spm=a2c6h.12873581.0.0.270f1566XWpLUS&groupCode=apachespark

https://developer.aliyun.com/live/1717?spm=a2c6h.12873581.0.0.270f1566XWpLUS&groupCode=apachespark

PPT链接:https://www.slidestalk.com/AliSpark/PybootAI12722

郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上提供更好用更有弹性的 Hadoop/Spark 大数据平台;

孙大鹏,花名诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作;

议题简介:
Python 代表机器学习生态,而以 Hadoop/Spark 为核心的开源大数据则以 Java 为主。前者拥有数不清的算法库和程序,后者承载着海量数据和大量的企业应用。除了 SQL 这个标准方式和各种五花八门的协议接口,还有没有更高效的一手数据通道,将两个生态对接起来,乃至深度融合?Pyboot 是我们在这个方向上的探索。有兴趣的同学欢迎现场观摩演示和技术交流。


EMR团队介绍

阿里云 EMR 团队,致力于为客户提供开源大数据 Hadoop/Spark 生态基于云端的一站式,高可用弹性计算平台。EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现联合开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。
社区地址:https://developer.aliyun.com/group/apachespark


作为运行在阿里云平台上的一种大数据处理的系统解决方案,阿里云 Elastic MapReduce(E-MapReduce)构建于阿里云云服务器 ECS 上,基于开源的 Apache Hadoop 和 Apache Spark,让用户可以方便地使用 Hadoop 和 Spark 生态系统中的其他周边系统(如 Apache Hive、Apache Pig、HBase 等)来分析和处理自己的数据。官网:https://www.aliyun.com/product/emapreduce

E-MapReduce 目前已服务政府、教育、新零售、服务、互联网、人工智能等行业超千家企业,提供集群管理工具的集成解决方案,如主机选型、环境部署、集群搭建、集群配置、集群运行、作业配置、作业运行、集群管理、性能监控等。

今年3月份,E-MapReduce成为全球首个通过TPC认证的公共云产品。2019年9月,E-MapReduce新版本在TPC-DS 10TB benchmark中再次勇夺第一,性能达到5,261,414 QphDS,比之前最好成绩提升19%,并且将单位查询成本降低38%。同时,E-MapReduce首次将TPC-DS数据集规模拓展至100TB,性能达到14,861,137 QphDS,100TB的数据规模是竞争对手产品最大处理能力的10倍。

Jindo是阿里云智能E-MapReduce团队在开源的Apache Spark基础上自主研发的云原生分布式计算和存储引擎,已经在近千E-MapReduce客户中大规模部署使用。Jindo Spark在开源版本基础上做了大量优化和扩展,深度集成和连接了众多阿里云基础服务。

此次TPC-DS benchmark报告经过了严格第三方审计流程,任何阿里云智能的客户可以在阿里云官网购买并使用 最新版本。在benchmark测试中我们在阿里云ECS服务器上使用了Jindo Spark的最新版本,在几乎相同的硬件环境上,新版本的Jindo Spark展示了性能、功能和扩展性上有了长足的进步,在TPC-DS为代表的SQL查询性能相比以往版本有3倍以上的性能提升,查询规模更是提升了10倍,可以非常稳定的处理100TB规模的数据表。在本次 TPC-DS 10TB benchmark测试中,Jindo 引擎体现了比开源软件以及商业大数据产品更好的性能和更完整的分析支持。

感谢在开发的同时EMR团队对Spark社区的贡献。更多对Jindo Spark的性能优化和功能增强工作还在进行中,对开源大数据和数据库OLAP场景感兴趣的同学可以联系EMR团队的无谓、铁杰和亦龙,也可加入钉钉群交流

二维码.JPG

微信扫描微信公众号二维码,每日推送技术文章和最新活动
公众号二维码.jpg


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7天前
|
机器学习/深度学习 数据采集 人工智能
探索AI技术在文本生成中的应用与挑战
【9月更文挑战第26天】本文深入探讨了AI技术在文本生成领域的应用,并分析了其面临的挑战。通过介绍AI文本生成的基本原理、应用场景以及未来发展趋势,帮助读者全面了解该技术的潜力和局限性。同时,文章还提供了代码示例,展示了如何使用Python和相关库实现简单的文本生成模型。
30 9
|
1天前
|
人工智能 自然语言处理 搜索推荐
AI技术在智能客服系统中的应用与挑战
【9月更文挑战第32天】本文将探讨AI技术在智能客服系统中的应用及其面临的挑战。我们将分析AI技术如何改变传统客服模式,提高服务质量和效率,并讨论在实际应用中可能遇到的问题和解决方案。
89 65
|
3天前
|
机器学习/深度学习 人工智能 供应链
精准农业:AI在农业生产中的应用
【10月更文挑战第1天】随着科技的发展,人工智能(AI)逐渐渗透到农业领域,通过精准监控和管理提升了农业生产效率和质量。AI在精准农业中的应用包括:精准农田管理,如个性化灌溉和施肥;作物病虫害识别与预测,及时发现并预防病虫害;智能农机自动化作业,提高作业效率;农产品质量检测与分类,确保品质;农业供应链优化,预测需求和价格。尽管面临数据收集、技术接受度等挑战,AI在精准农业中的未来前景广阔,有望实现全程自动化作业、数据驱动决策及智能预警系统,推动农业可持续发展。
22 11
|
1天前
|
机器学习/深度学习 人工智能 监控
AI与未来医疗:重塑健康产业的双刃剑随着科技的迅猛发展,人工智能(AI)正以前所未有的速度融入各行各业,其中医疗领域作为关系到人类生命健康的重要行业,自然也成为AI应用的焦点之一。本文将探讨AI在未来医疗中的潜力与挑战,分析其对健康产业可能带来的革命性变化。
在医疗领域,人工智能不仅仅是一种技术革新,更是一场关乎生死存亡的革命。从诊断到治疗,从后台数据分析到前端临床应用,AI正在全方位地改变传统医疗模式。然而,任何技术的发展都有其两面性,AI也不例外。本文通过深入分析,揭示AI在医疗领域的巨大潜力及其潜在风险,帮助读者更好地理解这一前沿技术对未来健康产业的影响。
|
3天前
|
机器学习/深度学习 数据采集 人工智能
探索AI在医疗诊断中的应用
【9月更文挑战第30天】本文将探讨人工智能(AI)如何在医疗诊断中发挥重要作用。我们将从AI的基本概念开始,然后深入到其在医疗领域的应用,特别是如何帮助医生进行更准确的诊断。最后,我们将通过一些实际的代码示例来展示AI是如何工作的。无论你是AI专家还是医疗专业人士,这篇文章都将为你提供有价值的信息。
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在医疗诊断中的应用与未来展望
随着人工智能技术的飞速发展,AI在医疗领域的应用日益广泛。本文探讨了AI在医疗诊断中的具体应用,包括医学影像分析、电子病历分析和辅助诊断等。同时,讨论了AI技术在未来医疗中的潜力和挑战,如数据隐私保护、算法的公平性和透明度等问题。通过分析具体案例和当前研究成果,本文揭示了AI在提高医疗诊断效率和准确性方面的显著优势,并对其未来发展进行了展望。
|
13天前
|
人工智能 运维 云计算
阿里云无影AI云电脑亮相 体验大幅升级
9月20日,2024云栖大会上阿里云无影AI云电脑全新亮相,基于最新的终端云计算技术和AI大模型能力,无影的综合体验大幅提升,新增了弹性升降配、双网自由切换、多端操作系统知识库问答、编码大师等AI智能体功能,为安全办公、个人娱乐带来全新的云上流畅体验,更可畅玩《黑神话:悟空》等3A游戏大作。同时,无影还宣布向开发者全面开放应用中心生态,开发者可免费入驻。
121 15
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在医疗诊断中的应用
【9月更文挑战第29天】随着科技的发展,人工智能(AI)已经在许多领域得到广泛应用,其中包括医疗诊断。AI可以帮助医生更准确、更快速地进行疾病诊断,提高医疗服务的质量和效率。本文将介绍AI在医疗诊断中的应用,包括图像识别、自然语言处理和预测分析等方面。
|
7天前
|
机器学习/深度学习 人工智能 算法
AI在医疗领域的应用与挑战
【9月更文挑战第25天】AI技术在医疗领域的应用日益广泛,从辅助诊断到药物研发,再到健康管理等方面都取得了显著成果。然而,随着AI技术的深入应用,也面临着数据隐私、算法透明度、法规政策等挑战。本文将探讨AI在医疗领域的应用现状与未来趋势,以及面临的主要挑战和解决方案。
|
7天前
|
机器学习/深度学习 人工智能 监控
探索AI在医疗健康中的革命性应用
本文探讨了人工智能(AI)在医疗健康领域中的应用及其带来的革命性变化。通过具体案例,我们展示了AI如何提升疾病诊断的准确性、优化治疗方案以及提高患者管理效率。同时,我们也讨论了AI技术在未来可能面临的伦理和隐私挑战,呼吁更多的研究和监管措施来应对这些问题。
下一篇
无影云桌面