拥抱开源,云原生时代下的开源牧码人的初心与坚守

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 王峰 阿里巴巴开源委员会大数据AI领域副主席 阿里云开源大数据平台负责人 Flink中文社区发起人

以下为开发者社区「开源人说」第四期——大数据&AI专场的主题分享,了解更多精彩详情👇

(以下根据演讲视频内容整理)


近日,阿里云向Apache孵化器捐赠了Celeborn项目(原EMR Remote Shuffle Service项目 ),这也是第一个诞生在阿里云上的Apache孵化项目。阿里云的开源大数据平台EMR能够支持在阿里云上运行业界主流的开源大数据组件,比如Hadoop、Spark、Flink、Kafka等,在云上提供了一套非常低门槛、易用的开源大数据全家桶服务。


10-1.png


云原生架构和理念也在不断强化、推行,比如存算分离架构等都是云上特有的架构属性。在此技术背景之下,我们发现在Hive、Spark 、Flink 等都有数据 shuffle 的需求。因此,阿里云提供了Remote Shuffle Service,用一套数据Shuffle来支持所有大数据计算引擎。


这就是云带来变化,云与开源结合后产生了化学反应。Remote Shuffle Service项目诞生后,又吸引了以小米、网易为代表的多家公司参与共建,最终于2021年12月开源。为了让更多公司参与共建,让项目产生更大的影响力,我们决定将其捐献给Apache基金会,从孵化器项目起步,也希望能够成为Apache的顶级项目。


10-2.png


云提供了弹性资源,用户能够非以常大的自由度运行业务、发挥算力,运行数字业务、做数据分析、做数据库、做 AI 、SaaS、PaaS等业务都在云上轻松展开。而运行开源软件需要准备很多环境,需要有硬件,也需要做参数配置,存在一定门槛。


云的出现推动了开源的兴起,因为在云上可以更轻松地获得资源,云弹性满足了按量使用、按需购买的需求,因此也可以轻松部署开源软件。云成为了开源软件的运行底座。比如,使用EMR可以在3分钟内创建100个节点集群,可以Hadoop、Spark、Flink 、Kafka 等主流开源组件,可以轻松实现运维、部署、管控、监控、使用、开发等一整套链路。


云使得开源软件的运行更加普适化,云与开源的关系也推动了整个数字经济和数字化转型的发展。另外,云上能够提供PAI DSW一致的Notebook开发体验。云也为开源提供了很好商业模式,通过开源让更多人受益。同时,通过开源构建自己的商业模式,得到更多资源去反哺开源社区,形成正向循环。总之,在云上运行开源软件、提供开源软件商业化服务等,能够让云与开源结合得更好,也让开源运行得更好。


阿里巴巴为开源提供了巨大支持,拥有开源项目3000+,超过 3 万个外部 contributor ,与超过100 个开源社区合作共建,共同推进开源项目、开源文化在业界的发展。


10-3.png

(上图均为生于云、长于云的开源项目)

10-4.png

阿里灵杰AI开源家族全栈采用开源风格,在不同行业、领域已经实现了诸多落地,比如音视频领域、自动驾驶领域、搜索推荐领域、OCR文字识别、金融量化、城市大脑的交通智能调度等。


最核心工程平台PAI 机器学习平台也积极拥抱开源技术,完全兼容了业界主流的TensorFlow、PyTouch等国际标准以及PaddlePaddle、MindSpore、OneFlow 等国内主流的AI框架 。同时,我们也实现了非常多优化,包括Deep系列、Blade 系列编译优化、 AI 算法优化、算法框架优化、 AI 引擎优化、 AI 编译优化,很多优化也进行了全面开源。阿里的 AI 链路从底层基础平台到上层应用,全部以开源技术栈运行,全程践行开源文化。


10-5.png


Flink已经成为实时计算的标准,国内各个互联网公司、金融公司、传统行业公司都已大量使用Flink 做实时流计算分析,也有很多海外公司采用了Apache Flink 做实时分析。


2015年,淘宝面临了极大的数据挑战,用户对购物体验不断提出新的要求,比如商品/价格需要实时更新、个性化排序模型/推荐模型需要实时更新,尤其在双 11 当天,运营策略变化非常快,需要根据用户反馈和市场变化实时调度,统计实时交易额做运营策略的调整。因此,阿里需要一个自己的实时大数据引擎。经过全面考虑,我们决定拥抱开源社区,用开源理念来构建下一代实时大数据计算平台。最终,我们选择了在Apache初出茅庐的 Flink 作为未来几年的核心技术基石。


2017年,我们继续坚定地拥抱开源,将原先阿里巴巴内部的JStorm、Blink和Galaxy统一到开源项目里,基于 Flink 来做未来的实时计算核心引擎。此后,阿里巴巴所有实时大数据分析、流式大数据分析都围绕着 Flink 来建设,也在 2017 年逐步统一了全集团的实时计算,基于 Flink 社区加大投入,并在 18 年将我们全面积累的能力上云,在云上提供基于 Flink 的大数据服务。


我们从 2016 年开始投入到社区建设,2017 年、2018年分别在欧洲、美国参加 Flink 社区大会,不断推动 Flink 社区在中国的成长。2019年,阿里巴巴全面收购了Flink背后的商业公司,全力支持社区发展。经过 2020-2021 这两年的持续投入,阿里巴巴在中国举办了将近 100 场线上线下的 Flink MeetUp 以及Flink Forward 大会,投入了大量人力、物力和精力。阿里始终坚定地、完全不考虑商业化、不考虑回报地推动Flink,使其成为了Apache社区中名列前茅的项目。更重要的,这几年努力的成果也离不开背后有的开源爱好者、开源文化践行者的推动。


10-6.png


目前,Flink社区全球开发者超1500人,3年增长1倍;GitHub Stars数近2万,3年增长3倍,处于社区top地位。


10-7.png

得益于阿里巴巴的持续投入, Flink 的关键指标在社区达到了 top 1 或 top 2 的位置。坚定地对开源进行投入,也验证了中国团队在国际项目中能够发挥价值,这是非常值得骄傲的一件事。


10-8.png


Flink社区经过持续演进和技术创新,从最早只有Java API到推出了SQL  API,让开发更简洁,门槛更低,更多人能够使用;后陆续推出了 CDC,能够更好地做数据集成;推出了Flink ML,与机器学习进行更好的合作配合;推出了table store 做流批体数据存储,也正在构建下一代流式数仓架构。


阿里巴巴毫无保留地将自己的技术创新完全开源到社区,惠及更多开发者,也希望吸引更多开发者一起推动社区发展。


10-9.png


灵杰体系是 AI 的开源代表,Flink 是大数据的开源代表,而 SREWorks 项目是积累了超过 10 年的大数据和 AI 运维能力的沉淀,目前也已开源。SREWorks 可以提供一站式运维服务套件管理,交付、运维、管理、监控、运营、数据资产等能力都可以通过 SREWorks 开源项目实现。


10-10.png


众多开源项目的背后是一群对开源有着巨大热情的员工、开发者,我们有着无限的激情,我们会有定期的开源技术分享,包括机器学习团队、大数据团队、欧美团队等进行国际化跨团队交流,有社区 meetup ,与不同公司进行交流,这也是开源项目能够完美落地的保证。


10-11.png


目前,我们的团队已经参与贡献了10+Apache顶级开源项目,培养出了 50 多名顶级开源项Committer、PMC,贡献开源代码150万+行。团队小伙伴们真正将自己工作中的积累、技术上的积累贡献到开源社区,提供给更多公司、更多企业去使用。也希望有更多人加入我们,共建开源社区。


《开源人说》为阿里云开发者社区与InfoQ 联合出品的一档精品开源视频栏目。栏目围绕阿里四大开源领域:云原生、操作系统、数据库、大数据&AI,介绍优秀的开源软件:RocketMQ、Dubbo、Anolis OS(龙蜥操作系统)、Flink、PolarDB、OceanBase等背后的故事,记录传播阿里技术追求极致和开放共享的精神。

https://developer.aliyun.com/topic/opensourcefolkstalk

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
人工智能 Cloud Native API
Higress 重磅更新:AI 能力全面开源,云原生能力再升级
Higress 最新的 1.4 版本基于为通义千问,以及多家云上 AGI 厂商客户提供 AI 网关的积累沉淀,开源了大量 AI 原生的网关能力。同时也在 Ingress、可观测、流控等云原生能力上做了全方位升级。
21417 278
|
2月前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
3月前
|
关系型数据库 分布式数据库 数据库
开源云原生数据库PolarDB PostgreSQL 15兼容版本正式发布
PolarDB进行了深度的内核优化,从而实现以更低的成本提供商业数据库的性能。
|
4月前
|
运维 监控 Cloud Native
|
7月前
|
自然语言处理 监控 Cloud Native
对话阿里云云原生产品负责人李国强:推进可观测产品与OpenTelemetry开源生态全面融合
阿里云宣布多款可观测产品全面升级,其中,应用实时监控服务 ARMS 在业内率先推进了与 OpenTelemetry 开源生态的全面融合,极大丰富了可观测的数据类型及规模,大幅增强了 ARMS 核心能力。本次阿里云 ARMS 产品全面升级的背景是什么?为什么会产生围绕 OpenTelemetry 进行产品演进的核心策略?在云原生、大模型等新型应用架构类型层出不穷的今天,又将如何为企业解决新的挑战?阿里云云原生应用平台产品负责人李国强接受采访解答了这些疑问,点击本文走进全新升级的阿里云可观测产品。
42048 17
|
6月前
|
Kubernetes Cloud Native 开发者
阿里云网络发布 alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
**阿里云发布开源版ALB控制器v1.2.0,对齐商业版ALB Ingress Controller v2.10.0。新版本增强了功能特性,提升了用户体验,并提供了最佳实践。功能更新包括自定义标签、QUIC协议支持、转发规则和安全策略等。此外,还引入了ReadinessGate实现滚动升级时的平滑上线和Prestop钩子确保平滑下线。用户可从GitHub获取开源代码,通过Docker Hub拉取镜像,开始使用alibaba-load-balancer-controller v1.2.0。**
331 3
阿里云网络发布 alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
|
6月前
|
Kubernetes Cloud Native 开发者
阿里云网络发布云原生网关 alibaba-load-balancer-controller v1.2.0,持续拥抱开源生态
alibaba-load-balancer-controller开源版本正式推出v1.2.0,能力对齐ALB Ingress Controller商业版v2.10.0。
|
6月前
|
运维 Kubernetes Cloud Native
Canonical 开源 MicroK8 | 云原生生态周报 Vol. 25
Canonical 开源 MicroK8 | 云原生生态周报 Vol. 25
|
7月前
|
Cloud Native 关系型数据库 分布式数据库
【PolarDB开源】PolarDB与云原生数据库比较:特点、优势与选型建议
【5月更文挑战第26天】PolarDB是阿里云的云原生数据库,以其计算存储分离、一写多读架构和数据一致性保障脱颖而出。与Amazon Aurora和Google Cloud Spanner相比,PolarDB在中国市场更具优势,适合读多写少的场景和需要严格数据一致性的应用。企业在选型时应考虑业务需求、地域、读写比例和兼容性。PolarDB作为优秀解决方案,将在云原生数据库领域持续发挥关键作用。
412 1
|
7月前
|
Cloud Native 关系型数据库 分布式数据库
【PolarDB开源】PolarDB数据迁移实战:平滑过渡至云原生数据库
【5月更文挑战第24天】本文介绍了如何平滑迁移数据至阿里云的云原生数据库PolarDB,包括迁移准备、策略选择、步骤、验证及示例代码。通过需求分析、环境准备和数据评估,选择全量、增量或在线迁移策略。使用数据导出、导入及同步工具(如DTS)完成迁移,并在完成后验证数据一致性、性能和安全。正确执行可确保业务连续性和数据完整性。
241 1
下一篇
DataWorks