阿里巴巴集团副总裁贾扬清:开源大数据生态前瞻

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
模型训练 PAI-DLC,100CU*H 3个月
实时计算 Flink 版,5000CU*H 3个月
简介: 本文整理自开源大数据专场中阿里巴巴集团副总裁,阿里巴巴计算平台事业部总裁贾扬清先生的精彩演讲,将为大家讲述开源大数据与人工智能生态前瞻,分享阿里云对开源的态度,以及对大数据和人工智能的未来规划。

2019阿里云峰会·上海开发者大会于7月24日盛大开幕,本次峰会与未来世界的开发者们分享开源大数据、IT基础设施云化、数据库、云原生、物联网等领域的技术干货,共同探讨前沿科技趋势。本文整理自开源大数据专场中阿里巴巴集团副总裁,阿里巴巴计算平台事业部总裁贾扬清先生的精彩演讲,将为大家讲述开源大数据与人工智能生态前瞻,分享阿里云对开源的态度,以及对大数据和人工智能的未来规划。

专家简介:贾扬清,阿里巴巴集团副总裁,阿里巴巴计算平台事业部总裁。曾任Facebook AI架构部门总监,负责前沿AI平台开发,Facebook各产品部门AI平台的支持以及前沿机器学习系统研究。曾在Google Brain担任研究科学家,致力于深度学习的科研与工程,在深度学习框架领域有很多的贡献和积累。他是Caffe作者,TensorFlow作者之一,Pytorch 1.0的合作领导者和Onnx创始人。

开源大数据专场PPT下载

本文内容整理自演讲视频以及PPT。

一、开源现状

目前为止,AI开源项目的发展可以说已经深入人心。从2013年的Caffe,到2015年Google推出的被认为是目前最流行的大规模可商业应用的人工智能框架——Tensorflow,到2017年Facebook推出的可以用来实现更加灵活,从科研到部署环境的PyTorch 1.0框架。可以说,近几年人工智能的发展与开源社区的开源共享精神是密不可分的。从全球角度来看,整个开源社区正在蓬勃发展。据2018年GitHub开源年度报告统计,GitHub上共有3100万用户在活跃的进行各种软件开发,全球共有约210万个组织建立了约9600万个仓库的开源项目。在2018年,GitHub新增活跃用户数量超过了前六年的总和,相较于2017年新增了40%的组织机构和30%的代码仓库。其中,国内的开发者也参与了很多开源项目,从底层的系统到上层应用,从全球趋势来看,开源无疑是软件发展的大势所趋。
image.png

下图是中国信通院企业采购大数据软件调研报告,从企业的角度来看,有53.9%的企业选择了开源软件商业版,有32.7%的企业选择了开源软件社区版,总计共有86.6% 的企业选择基于开源软件构建自己的大数据处理业务。不难发现,目前国内开源发展情况与全球趋势是一致的。
image.png

二、阿里云对于开源的态度:拥抱、贡献、共赢

阿里云是自主可控的云,同时又是开源兼容的云。在过去十年,阿里云最骄傲的一点是建立了一个从底层大规模的集成管理、集成控制、资源优化、大数据解决方案到上层业务平台的一系列软件栈。另一方面,阿里云在整个自主可控的大系统中应用了非常多的开源运行库和开源项目,这些开源运行库和开源项目作为不同的积木,帮助阿里云搭建起整个自主可控的大厦。

1. 拥抱开源

阿里内部有非常多的业务都在使用开源软件。除了淘宝、天猫、支付宝、AliExpress、菜鸟、聚划算和阿里云等阿里内部的业务之外,阿里云向用户提供的Iass和Pass服务也都借鉴和使用了开源的项目,比如,众所周知的Linux,Hadoop,Flink以及最新的人工智能的框架Caffe和TensorFlow等。阿里巴巴非常感激开源社区,并且热切的拥抱开源社区。
image.png

2. 贡献开源

阿里在拥抱开源社区同时,也在不断的向开源社区贡献基础力量。越来越多阿里内部一线的同学投入到开源的项目当中,贡献自己的力量。可以发现,当开源应用结合到与企业业务流程中运行时,会遇到非常多的问题,而这些问题可能也是最初开源环境中没有考虑到的问题。很多时候,开源项目起源于开发者的一个想法,为了构建一套系统,在设计、架构、开发过程中融入非常多的深入思考和巧妙设计,而实际业务的实践则能够使开源项目的设计得到锤炼和反馈。目前在国内,阿里是贡献开源最出色的企业。GitHub上有大量的开源项目由阿里创建,据阿里经济体GitHub开源生态报告统计,国内Top10的开源项目中,阿里的开源项目有6个。
image.png

在大数据和人工智能领域,目前为止,阿里已向开源社区贡献了超过100万行的代码。越来越多优秀的阿里工程师逐渐开始被开源的社区所接受。同时,开源社区也邀请阿里的同学们成为开源项目发展方向探讨的参与者。至今,阿里已培养50+社区多项目的Committer以及PMC,包括从最底层的ORC项目到Spark、Flink等项目。不仅如此,在阿里已有10多个产品和项目基于开源的优化得到了非常好的效果,优化后的项目无论从速度、可用性,亦或是稳定性方面相比开源的版本都有了较高的提升。
image.png

3.共赢开源

阿里云巨大业务体量为开源社区贡献技术试验场
开源软件离不开经济规律的控制,也就是说开源需要提供价值。目前,已经有非常多的企业选择将自己的基础架构迁移到云上。云是非常好的媒介,可以帮助开源软件实现商业价值对接企业的业务场景。阿里云巨大的业务体量可以为开源社区贡献技术的试验场。举例说明,Flink是一个流式计算的框架,同时也是阿里双11时期的中流砥柱。十年前,在阿里刚开始启动双11时,业务体量非常少,业务对于系统的压力也并不是太大。从2016年开始,阿里双11用户已经达到了几亿级别,用户大规模购买、浏览和查询等操作,导致后台指标在0点时突增。同时,阿里也逐渐发现大部分开源项目的设计没有关注如此大体量下的应用压力。因此,阿里云基于开源项目实现了非常多的优化以满足自身大体量业务需求。在人工智能方面,阿里也发现了类似的情况。上一代人工智能框架,如Caffe,在项目设计中往往带着学术界的影子,而经过工业界和学术界多年的锤炼,新一代的人工智能框架(如Tensorflow和PyTorch)逐渐开始考虑工业界大规模、弹性、高性能、部署多种环境(在端上,在云上,在手机端等等)的复杂情况。这些锤炼恰好为开源社区提供了非常好的反馈和也为此做出了较大贡献。
image.png

阿里云大数据与人工智能开源的云产品

大数据和人工智能方面,阿里云对开源社区的主要贡献有以下几点:
实时计算:Flink支撑了阿里在双11时期实时计算任务。
PAI组件:PAI是基于开源的PyTorch和Tensorflow框架深度优化的平台,PAI完全兼容了Tensorflow跟PyTorch的语法。在模型的分布式训练和模型部署时,PAI可以通过底层的优化,通信库的优化,与GPU及体系结构的优化,实现更快的训练和更大规模的部署。
EMR:大数据方面,不只有Flink流计算,还有传统的Hadoop,Spark等产品。阿里云ElasticMapReduce(EMR)平台,基于开源大数据集合服务,可以完美对接大数据场景当中所遇到的开源计算模式。同时帮助线下开源用户无缝迁云。
ElasticSearch:阿里云是赋能用户,实现商业价值的平台。阿里云与ElasticSearch达成了非常好的合作。由ElasticSearch的创始团队提供企业级的服务,阿里云为用户提供ElasticSearch产品,解决平台、管控和部署等一系列问题。这样的合作模式可以使得开源的软件更容易落地,从而帮助整个生态持续发展。
image.png

阿里云与开源社区的共存、共生、共赢。

如何将开源项目部署到实际应用系统当中?大部分企业和开发者逐渐把将他们的项目迁移到云上。从个人角度来看,在云上开发非常方便,从企业角度来看,在云上开发可以更容易进行跨地域和国际化部署。目前,阿里云在全球18个地域、49个可用区,服务230万家客户、间接地为数十亿用户提供云计算、大数据、人工智能算力,帮助客户部署自己的应用和产品。阿里为开源社区提供的云计算能力,与开源社区早已形成了共存、共生、共赢的强纽带关系。
image.png

三、大数据&人工智能未来规划

支持集团,服务云上:阿里云,阿里巴巴集团的基础团队同时支持集团内部的应用和云上的应用。阿里巴巴集团是阿里云最大的用户,相信在能够支撑如此大用户的情况下,阿里所提供的技术与产品都是经过验证的、可靠的。

回馈社区,营造生态:阿里和Flink社区深度合作之后,将阿里内部的Blink项目和Flink进行了整合,将结合的版本回馈社区。在与开源社区的交互过程中,阿里也积累了非常多的经验。

共建社区,共赢商业:目前,越来越多国内的开发者对开源有着非常大的热情。阿里云希望可以为这些开发者提供更多的服务,比如如何帮助开发者做CI,如何更好的做测试,如何实现更好的代码托管。同时,阿里云希望通过开源的会议,开源开发者的活动,进一步帮助企业与开源开发者社区进行更有效的沟通,助力开源社区和开源技术的发展。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
154 1
|
4月前
|
数据可视化 大数据 定位技术
GIS:开源webgl大数据地图类库整理
GIS:开源webgl大数据地图类库整理
139 0
|
2月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
236 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
4月前
|
机器学习/深度学习 搜索推荐 算法
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
|
5月前
|
存储 搜索推荐 数据建模
阿里巴巴大数据实践之数据建模:构建企业级数据湖
阿里巴巴通过构建高效的数据湖和实施先进的数据建模策略,实现了数据驱动的业务增长。这些实践不仅提升了内部运营效率,也为客户提供了更好的服务体验。随着数据量的不断增长和技术的不断创新,阿里巴巴将持续优化其数据建模方法,以适应未来的变化和发展。
|
4月前
|
机器学习/深度学习 监控 大数据
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
|
5月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute 2.0:开源系统的集成与创新
增强实时处理能力:进一步加强与Flink等实时处理框架的合作。 强化机器学习支持:提供更多内置的机器学习算法和工具。 增强数据治理功能:提供更完善的数据质量和安全治理方案。
|
5月前
|
存储 分布式计算 Hadoop
阿里巴巴飞天大数据架构体系与Hadoop生态系统的深度融合:构建高效、可扩展的数据处理平台
技术持续创新:随着新技术的不断涌现和应用场景的复杂化,阿里巴巴将继续投入研发力量推动技术创新和升级换代。 生态系统更加完善:Hadoop生态系统将继续扩展和完善,为用户提供更多元化、更灵活的数据处理工具和服务。
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
290 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
44 2
下一篇
DataWorks