「开源人说」|大咖齐聚首,大数据&AI开源话题对碰

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 「开源人说」第四期——大数据& AI专场在今年云栖大会举办,阿里巴巴开源委员会大数据AI领域副主席王峰和阿里云AI开源项目EasyRec负责人施兴现场分享热门开源项目背后的故事。开源中国创始人&CTO红薯,白鲸开源联合创始人代立冬,浙大博导赵俊博,InfoQ总编辑王一鹏、Apache软件基金会成员李钰等嘉宾圆桌共话,对开源热点及痛点问题展开激烈讨论。

活动开始,阿里巴巴开源委员会大数据AI领域副主席王峰进行了“云原生时代,做不忘初心开源牧马人”的主题分享。他从云原生时代,开发者参与开源的方式发生的变化作为引入,介绍了“生长”于云的开源项目。其中,重点提到了阿里云大数据AI开源代表——Apache Flink,并提出:“阿里巴巴毫无保留地将自己的技术创新完全开源到社区,惠及更多开发者,也希望吸引更多开发者一起推动社区发展。”


image.jpeg(阿里巴巴开源委员会大数据AI领域副主席 王峰演讲)


接下来,阿里云AI开源项目EasyRec负责人施兴进行了“AI普惠,阿里灵杰开源历程与思考”的主题分享。如今,AI 已经在生活中无处不在,它正在持续提供普惠的能力。阿里灵杰AI开源家族从场景应用到生产开发,提供了贯通全链路的AI开源能力。


回到开源的初心,他提到:期望能够在开源的基础上结合阿里在场景上的应用,实现更大的扩展,将成果回馈给开源社区。因此,接下来我们会在平台、算法、应用和资源调度层面做更多持续开源的工作,让更多开发者能够享受到阿里在实践场景下打磨的经验。另外,也希望更多开发者能够参与到开源社区,共建开源社区,建设AI新标准,开源且开放。 最后,我们期望更多开源产品能够与云结合,将实用、易用、放心用发挥得更加淋漓尽致,让AI开源更加普惠数字世界。


image.jpeg

阿里云AI开源项目EasyRec负责人 施兴演讲


最后,主持人——阿里云开发者社区负责人李若冰开源中国社区创始人&CTO红薯、白鲸开源联合创始人代立冬、Apache软件基金会成员李钰、InfoQ总编辑王一鹏、浙江大学博导赵俊博展开对话,讨论“云时代下的大数据&AI开源”。

(以下为圆桌讨论实录整理)


image.jpeg

(圆桌对话环节)


主持人:请各位聊一聊,投身开源的初衷是什么?

红薯:我最早做开发的时候使用了很多开源项目。但在2001年之前,国内的开源发展尚在起步阶段,项目也较为松散,因此我希望能够建立一个平台,将所有开源资源进行整合,方便开发者检索。可以说,我们见证了中国开源蓬勃发展的十几年,开源在中国的发展速度远远超过了我们想象,如今已经站在全球领先的位置。


主持人:李钰老师作为开源领域的元老级人物和商业化产品的负责人,最开始参与开源的初衷是什么?

李钰:为了理想工作值得敬佩,但为了生计工作也是一件应该被接纳理解的事。最早我在 IBM 的工作与开源大数据组件相关,因此对开源有了较深的了解。另一方面,我认为开源社区能带给技术人非常大的价值,我也希望能够与更多人交流讨论,提升自己。


主持人:国内和国外开源的氛围有什么不同吗?

赵俊博:学校范围内,国外的氛围会比国内更好一些,但这并不代表国内的同学不如国外同学优秀。国内外有一个共识是:开源这件事很酷。当前,国内大学为学生提供了非常全面的帮助,比如新生之友、德育导师、班主任、辅导员、学业导师、科研导师、就业导师等,一方面确保了学校的正常运转,但另一方面,过多的“主动投喂”在某种程度上也降低了同学们的主观能动性,使他们习惯于等待被动引导,而国外或新生代同学们的心态可能更开放。


主持人:如何评判一个开源项目能否进入孵化或未来能否成功?

代立冬:一般来说,有一定用户基础、开源有一段时间且在社区保持正常迭代的项目进入孵化器的可能性较大。另外,Apache也非常欣赏创新、原创性的项目以及能够解决某一方面痛点的项目。中国95%甚至以上的开源项目作者没有运营项目的经验,而一旦进入孵化器,即可得到很多mentor的帮助,得到Apache积累20多年的成功经验,项目也更容易成功。


主持人:开源项目对于“成功”的定义是什么?

红薯:不同项目的标准不一样,不同领域的标准也不一样,比如数据库软件与前端库软件为不同领域,不具备可比性,即使某个前端项目得到了很多关注,也并不意味着它比数据库项目更成功。因此,我认为评判一个项目是否成功,项目是否满足发起人的预期相关,如果满足发起人的预期,则可以认为是一个成功的开源项目。另外,依靠star数判断项目也并非客观手段,比如 github 上的一些教程项目收获数以万计的star数,但这也仅仅意味着它有用,并不代表项目成功。


因此,我们推出了码云指数,从代码活跃度、贡献者团人数、对于 issue 的处理情况等五个角度对一个项目进行评判。目前正在做2.0版本,希望能够同时分析gitte和github上的项目,过程也会更加细化,并且以完全开源的方式来实现,以帮助开发者从更多角度观察项目的发展历程。


主持人:Flink在大数据开源项目中具有非常大的影响力,发展过程中,它做对了哪几步得以走到今天的位置?

李钰:判断一个开源项目是否成功,从投资人角度看,盈利是判断标准;从用户角度看,易用、能够帮助解决实际问题是判断标准;从开发者角度看,技术上的挑战性是判断标准。


主持人:AI 开源当前核心需要解决的问题是什么?

赵俊博:回顾历史,开源为 AI 做了太多, AI 也为开源做了太多。从基础设施的角度来看,AI已经具备一定的基础。早前,从底层开始写一个项目,往往需要几万行代码;而有了开源社区,很多内容可以直接从社区获得并投入使用。另外,数据方面,我希望能够从更开源的角度,将数据去中心化,加上隐私保护机制,加上联邦学习,将它们整合在一起。比如AI for Sicence需要投入巨大的资金,靠一个人、一个机构的力量无法实现,我希望有更全球化的开源社区将数据聚拢在一起,形成新的商业模式,然后回馈到每一个贡献者身上,让社区能够成功运转。AI 底层离不开数据的高效流转,我希望人人可以贡献数据,人人可以分享数据,人人可以用数据进行深度分析。


主持人:一个公司在应用开源技术的时候,最应该关注的点是什么?如何避免负面事件的发生?

代立冬:选择开源项目,首先考虑的是能否解决问题。同时,也需要考虑产品成熟度,比如当前产品处于什么阶段、已经发布多少版本、是否为Apache顶级项目等,以及关注其生态,比如社区活跃是否足够高。另外,也需要重点关注漏洞,比如通过专业公司进行漏洞扫描,以避免高危事件的发生。


主持人:大数据技术成熟度评估的背后是什么样的模型?评估过程比较看重哪些因素?

王一鹏:单纯通过数据统计很难客观评判一个项目的成熟度,我们的评估模型将开源项目的成熟度划分为几个部分来评估:其一,代码健康占比约40%,包括close issue、close PR以及PR数值等;其二,社区生态占比约40%,包括社区贡献比例、社区开发者活跃度;其三,X-lab贡献的项目协作影响力指数占比约10%,比如一批人深度参与开源社区,他们作为开发者身份的参与了项目A,则项目A的权重会增加,但同时已经通过算法直接避免了多位专家加入某一项目导致项目权重极高的可能性;其四,star 数量占比 10% 。


主持人:开源发展到今天,不管是协议还是整体社区发展,在世界范围之内都已非常成熟。对于中国而言,有没有一个方向方式能够实现弯道超车?

红薯:开源社区是否繁荣,唯一能够量化的评价标准是知名项目的数量,因此要实现超车,首先需要将数量提升到与其他国家处于同一层次。另外,当前开源中国托管的开源项目在数据量上与github 依然存在约10倍的差距,而开源影响力的差距更是远远不止。因此我也清醒地认识到,中国开源的发展道阻且长,想要实现超车,不管是数量还是质量都需要有更快的发展。

主持人:请为年轻的学生留一句寄语。

王一鹏:一定要出于热爱去投入开源,跨越语言隔阂和文化差异一起参与开源项目,这样才能真正做好开源。如果能在开源中得到快乐,这也是开源项目给予你的回馈。


李钰:少年强则国强,要实现弯道超车必然需要生力军源源不断地加入开源,开源也需要走到校园里。对于年轻同学们而言,开源是一种非常便携的社会实践方式,且开源社区里有非常多经验丰富、技术一流的developer 会热心地为开源新人提供无偿帮助。另外,开源社区是真实项目,会在生产中应用,同学们可以通过参与到开源社区,提前感受在生产中做开发和在实验室里开发的差别。与此同时,在开源项目里贡献代码也是简历上极为出彩的加分项


代立冬:开源中国做过统计,很多开源项目活不过两年。我觉得参与开源除了热爱之外,很重要的点在于坚持,我们应该把它当成终身事业来奋斗。做DolphinScheduler的第一天,我们就决定将它做成国际化的开源项目,以国际化标准来要求团队成员,比如英文issue、往来邮件等。坚持三年、坚持五年,最终会看见不一样的自己。


红薯:开源的必要性和优势已经不需要再论证,我们只要坚定地朝着这个方向努力,努力为社区留下一些自己的贡献。

赵俊博:希望年轻的同学能更主动、更勇敢。积极地提交PR,即使不被采纳,你也可以在社区给予的反馈中获得成长和进步,这些都是学校里无法获得的宝贵经验。


image.jpeg

(活动现场全体合影)

配图2.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
13天前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
43 6
|
1月前
|
存储 人工智能 uml
介绍一款好用的开源画图神器-draw.io | AI应用开发
draw.io 是一款基于浏览器的开源绘图工具,无需安装即可使用,支持多种操作系统和设备。其简洁的界面、丰富的形状库、智能对齐功能和强大的云端协作能力,使其成为专业人士和创意爱好者的首选。无论是产品设计、流程图绘制还是思维导图构建,draw.io 都能满足你的多样化需求。【10月更文挑战第7天】
103 0
|
14天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
10天前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
13天前
|
存储 人工智能 SEO
全开源免费AI网址导航网站源码
Aigotools 可以帮助用户快速创建和管理导航站点,内置站点管理和自动收录功能,同时提供国际化、SEO、多种图片存储方案。让用户可以快速部署上线自己的导航站。
31 1
|
21天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
74 10
|
30天前
|
人工智能 Java API
阿里云开源 AI 应用开发框架:Spring AI Alibaba
近期,阿里云重磅发布了首款面向 Java 开发者的开源 AI 应用开发框架:Spring AI Alibaba(项目 Github 仓库地址:alibaba/spring-ai-alibaba),Spring AI Alibaba 项目基于 Spring AI 构建,是阿里云通义系列模型及服务在 Java AI 应用开发领域的最佳实践,提供高层次的 AI API 抽象与云原生基础设施集成方案,帮助开发者快速构建 AI 应用。本文将详细介绍 Spring AI Alibaba 的核心特性,并通过「智能机票助手」的示例直观的展示 Spring AI Alibaba 开发 AI 应用的便利性。示例源
|
1月前
|
机器学习/深度学习 人工智能 TensorFlow
解锁AI潜力:让开源模型在私有环境绽放——手把手教你搭建专属智能服务,保障数据安全与性能优化的秘密攻略
【10月更文挑战第8天】本文介绍了如何将开源的机器学习模型(如TensorFlow下的MobileNet)进行私有化部署,包括环境准备、模型获取与转换、启动TensorFlow Serving服务及验证部署效果等步骤,适用于希望保护用户数据并优化服务性能的企业。
50 4
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在医疗领域的应用及其挑战
【10月更文挑战第34天】本文将探讨人工智能(AI)在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念入手,然后详细介绍其在医疗领域的各种应用,如疾病诊断、药物研发、患者护理等。最后,我们将讨论AI在医疗领域面临的主要挑战,包括数据隐私、算法偏见、法规合规等问题。
28 1