重磅嘉宾畅聊大数据&AI开源话题,零距离感受激荡开源江湖

简介: 「开源人说」第四期——大数据& AI专场在今年云栖大会举办,阿里巴巴开源委员会大数据AI领域副主席王峰和阿里云AI开源项目EasyRec负责人施兴现场分享热门开源项目背后的故事。开源中国创始人&CTO红薯,白鲸开源联合创始人代立冬,浙大博导赵俊博,InfoQ总编辑王一鹏、Apache软件基金会成员李钰等嘉宾圆桌共话,对开源热点及痛点问题展开激烈讨论。

(直播视频回顾)


活动开始,阿里巴巴开源委员会大数据AI领域副主席王峰进行了“云原生时代,做不忘初心开源牧马人”的主题分享。他从云原生时代,开发者参与开源的方式发生的变化作为引入,介绍了“生长”于云的开源项目。其中,重点提到了阿里云大数据AI开源代表——Apache Flink,并提出:“阿里巴巴毫无保留地将自己的技术创新完全开源到社区,惠及更多开发者,也希望吸引更多开发者一起推动社区发展。”


9-1.jpeg

(阿里巴巴开源委员会大数据AI领域副主席 王峰演讲)


接下来,阿里云AI开源项目EasyRec负责人施兴进行了“AI普惠,阿里灵杰开源历程与思考”的主题分享。如今,AI 已经在生活中无处不在,它正在持续提供普惠的能力。阿里灵杰AI开源家族从场景应用到生产开发,提供了贯通全链路的AI开源能力。


回到开源的初心,他提到:期望能够在开源的基础上结合阿里在场景上的应用,实现更大的扩展,将成果回馈给开源社区。因此,接下来我们会在平台、算法、应用和资源调度层面做更多持续开源的工作,让更多开发者能够享受到阿里在实践场景下打磨的经验。另外,也希望更多开发者能够参与到开源社区,共建开源社区,建设AI新标准,开源且开放。 最后,我们期望更多开源产品能够与云结合,将实用、易用、放心用发挥得更加淋漓尽致,让AI开源更加普惠数字世界。


9-2.jpeg

(阿里云AI开源项目EasyRec负责人 施兴演讲)


最后,主持人——阿里云开发者社区负责人李若冰开源中国社区创始人&CTO红薯、白鲸开源联合创始人代立冬、Apache软件基金会成员李钰、InfoQ总编辑王一鹏、浙江大学博导赵俊博展开对话,讨论“云时代下的大数据&AI开源”。


(以下为圆桌讨论实录整理)

9-3.jpeg

(圆桌对话环节)


主持人:请各位聊一聊,投身开源的初衷是什么?

红薯:我最早做开发的时候使用了很多开源项目。但在2001年之前,国内的开源发展尚在起步阶段,项目也较为松散,因此我希望能够建立一个平台,将所有开源资源进行整合,方便开发者检索。可以说,我们见证了中国开源蓬勃发展的十几年,开源在中国的发展速度远远超过了我们想象,如今已经站在全球领先的位置。


主持人:李钰老师作为开源领域的元老级人物和商业化产品的负责人,最开始参与开源的初衷是什么?

李钰:为了理想工作值得敬佩,但为了生计工作也是一件应该被接纳理解的事。最早我在 IBM 的工作与开源大数据组件相关,因此对开源有了较深的了解。另一方面,我认为开源社区能带给技术人非常大的价值,我也希望能够与更多人交流讨论,提升自己。


主持人:国内和国外开源的氛围有什么不同吗?

赵俊博:学校范围内,国外的氛围会比国内更好一些,但这并不代表国内的同学不如国外同学优秀。国内外有一个共识是:开源这件事很酷。当前,国内大学为学生提供了非常全面的帮助,比如新生之友、德育导师、班主任、辅导员、学业导师、科研导师、就业导师等,一方面确保了学校的正常运转,但另一方面,过多的“主动投喂”在某种程度上也降低了同学们的主观能动性,使他们习惯于等待被动引导,而国外或新生代同学们的心态可能更开放。


主持人:如何评判一个开源项目能否进入孵化或未来能否成功?

代立冬:一般来说,有一定用户基础、开源有一段时间且在社区保持正常迭代的项目进入孵化器的可能性较大。另外,Apache也非常欣赏创新、原创性的项目以及能够解决某一方面痛点的项目。中国95%甚至以上的开源项目作者没有运营项目的经验,而一旦进入孵化器,即可得到很多mentor的帮助,得到Apache积累20多年的成功经验,项目也更容易成功。


主持人:开源项目对于“成功”的定义是什么?

红薯:不同项目的标准不一样,不同领域的标准也不一样,比如数据库软件与前端库软件为不同领域,不具备可比性,即使某个前端项目得到了很多关注,也并不意味着它比数据库项目更成功。因此,我认为评判一个项目是否成功,项目是否满足发起人的预期相关,如果满足发起人的预期,则可以认为是一个成功的开源项目。另外,依靠star数判断项目也并非客观手段,比如 github 上的一些教程项目收获数以万计的star数,但这也仅仅意味着它有用,并不代表项目成功。


因此,我们推出了码云指数,从代码活跃度、贡献者团人数、对于 issue 的处理情况等五个角度对一个项目进行评判。目前正在做2.0版本,希望能够同时分析gitte和github上的项目,过程也会更加细化,并且以完全开源的方式来实现,以帮助开发者从更多角度观察项目的发展历程。


主持人:Flink在大数据开源项目中具有非常大的影响力,发展过程中,它做对了哪几步得以走到今天的位置?

李钰:判断一个开源项目是否成功,从投资人角度看,盈利是判断标准;从用户角度看,易用、能够帮助解决实际问题是判断标准;从开发者角度看,技术上的挑战性是判断标准。


主持人:AI 开源当前核心需要解决的问题是什么?

赵俊博:回顾历史,开源为 AI 做了太多, AI 也为开源做了太多。从基础设施的角度来看,AI已经具备一定的基础。早前,从底层开始写一个项目,往往需要几万行代码;而有了开源社区,很多内容可以直接从社区获得并投入使用。另外,数据方面,我希望能够从更开源的角度,将数据去中心化,加上隐私保护机制,加上联邦学习,将它们整合在一起。比如AI for Sicence需要投入巨大的资金,靠一个人、一个机构的力量无法实现,我希望有更全球化的开源社区将数据聚拢在一起,形成新的商业模式,然后回馈到每一个贡献者身上,让社区能够成功运转。AI 底层离不开数据的高效流转,我希望人人可以贡献数据,人人可以分享数据,人人可以用数据进行深度分析。


主持人:一个公司在应用开源技术的时候,最应该关注的点是什么?如何避免负面事件的发生?

代立冬:选择开源项目,首先考虑的是能否解决问题。同时,也需要考虑产品成熟度,比如当前产品处于什么阶段、已经发布多少版本、是否为Apache顶级项目等,以及关注其生态,比如社区活跃是否足够高。另外,也需要重点关注漏洞,比如通过专业公司进行漏洞扫描,以避免高危事件的发生。


主持人:大数据技术成熟度评估的背后是什么样的模型?评估过程比较看重哪些因素?

王一鹏:单纯通过数据统计很难客观评判一个项目的成熟度,我们的评估模型将开源项目的成熟度划分为几个部分来评估:其一,代码健康占比约40%,包括close issue、close PR以及PR数值等;其二,社区生态占比约40%,包括社区贡献比例、社区开发者活跃度;其三,X-lab贡献的项目协作影响力指数占比约10%,比如一批人深度参与开源社区,他们作为开发者身份的参与了项目A,则项目A的权重会增加,但同时已经通过算法直接避免了多位专家加入某一项目导致项目权重极高的可能性;其四,star 数量占比 10% 。


主持人:开源发展到今天,不管是协议还是整体社区发展,在世界范围之内都已非常成熟。对于中国而言,有没有一个方向方式能够实现弯道超车?

红薯:开源社区是否繁荣,唯一能够量化的评价标准是知名项目的数量,因此要实现超车,首先需要将数量提升到与其他国家处于同一层次。另外,当前开源中国托管的开源项目在数据量上与github 依然存在约10倍的差距,而开源影响力的差距更是远远不止。因此我也清醒地认识到,中国开源的发展道阻且长,想要实现超车,不管是数量还是质量都需要有更快的发展。

主持人:请为年轻的学生留一句寄语。

王一鹏:一定要出于热爱去投入开源,跨越语言隔阂和文化差异一起参与开源项目,这样才能真正做好开源。如果能在开源中得到快乐,这也是开源项目给予你的回馈。


李钰:少年强则国强,要实现弯道超车必然需要生力军源源不断地加入开源,开源也需要走到校园里。对于年轻同学们而言,开源是一种非常便携的社会实践方式,且开源社区里有非常多经验丰富、技术一流的developer 会热心地为开源新人提供无偿帮助。另外,开源社区是真实项目,会在生产中应用,同学们可以通过参与到开源社区,提前感受在生产中做开发和在实验室里开发的差别。与此同时,在开源项目里贡献代码也是简历上极为出彩的加分项


代立冬:开源中国做过统计,很多开源项目活不过两年。我觉得参与开源除了热爱之外,很重要的点在于坚持,我们应该把它当成终身事业来奋斗。做DolphinScheduler的第一天,我们就决定将它做成国际化的开源项目,以国际化标准来要求团队成员,比如英文issue、往来邮件等。坚持三年、坚持五年,最终会看见不一样的自己。


红薯:开源的必要性和优势已经不需要再论证,我们只要坚定地朝着这个方向努力,努力为社区留下一些自己的贡献。

赵俊博:希望年轻的同学能更主动、更勇敢。积极地提交PR,即使不被采纳,你也可以在社区给予的反馈中获得成长和进步,这些都是学校里无法获得的宝贵经验。


9-4.jpeg

(活动现场全体合影)


《开源人说》为阿里云开发者社区与InfoQ 联合出品的一档精品开源视频栏目。栏目围绕阿里四大开源领域:云原生、操作系统、数据库、大数据&AI,介绍优秀的开源软件:RocketMQ、Dubbo、Anolis OS(龙蜥操作系统)、Flink、PolarDB、OceanBase等背后的故事,记录传播阿里技术追求极致和开放共享的精神。

https://developer.aliyun.com/topic/opensourcefolkstalk

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
20天前
|
人工智能 数据管理 Serverless
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
22 2
|
20天前
|
人工智能 运维 Cloud Native
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
20 2
|
2月前
|
人工智能 自然语言处理 机器人
Jina AI 发布中英和英德双语 8K 向量模型,魔搭社区开源最佳实践!
在 Jina Embeddings 英语向量模型突破百万下载后,今天,Jina AI正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。
|
2月前
|
人工智能 缓存 关系型数据库
Mistral AI vs. Meta:顶级开源LLM比较
为了提高性能,大型语言模型(llm)通常会通过增加模型大小的方法来实现这个目标,但是模型大小的增加也增加了计算成本和推理延迟,增加了在实际场景中部署和使用llm的障碍。
58 2
|
1月前
|
人工智能 自然语言处理 开发工具
AI2 开源新 LLM,重新定义 open AI
艾伦人工智能研究所(Allen Institute for AI,简称 AI2)宣布推出一个名为 OLMo 7B 的新大语言模型,并开源发布了预训练数据和训练代码。OLMo 7B 被描述为 “一个真正开放的、最先进的大型语言模型”。
|
3天前
|
人工智能 自然语言处理 搜索推荐
魔搭ModelScope社区作为一个AI模型开源平台,提供了丰富的模型资源和便捷的服务
【2月更文挑战第9天】魔搭ModelScope社区作为一个AI模型开源平台,提供了丰富的模型资源和便捷的服务
18 3
|
20天前
|
人工智能 数据管理 大数据
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
24 2
|
4天前
|
人工智能
微软变“渣男”!据悉已投资法国开源 AI 独角兽Mistral,OpenAI成“备胎”了?
【2月更文挑战第8天】微软变“渣男”!据悉已投资法国开源 AI 独角兽Mistral,OpenAI成“备胎”了?
13 3
微软变“渣男”!据悉已投资法国开源 AI 独角兽Mistral,OpenAI成“备胎”了?
|
10天前
|
人工智能 数据可视化 测试技术
Meta AI开源CLIP-DINOiser | 如何将自监督DINO的Trick教给CLIP?这里就是答案!
Meta AI开源CLIP-DINOiser | 如何将自监督DINO的Trick教给CLIP?这里就是答案!
31 0
|
20天前
|
人工智能 运维 数据管理
阿里云数据库走向Serverless与AI驱动的一站式数据平台
阿里云数据库走向Serverless与AI驱动的一站式数据平台
24 2

热门文章

最新文章