重磅嘉宾畅聊大数据&AI开源话题,零距离感受激荡开源江湖

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 「开源人说」第四期——大数据& AI专场在今年云栖大会举办,阿里巴巴开源委员会大数据AI领域副主席王峰和阿里云AI开源项目EasyRec负责人施兴现场分享热门开源项目背后的故事。开源中国创始人&CTO红薯,白鲸开源联合创始人代立冬,浙大博导赵俊博,InfoQ总编辑王一鹏、Apache软件基金会成员李钰等嘉宾圆桌共话,对开源热点及痛点问题展开激烈讨论。

(直播视频回顾)


活动开始,阿里巴巴开源委员会大数据AI领域副主席王峰进行了“云原生时代,做不忘初心开源牧马人”的主题分享。他从云原生时代,开发者参与开源的方式发生的变化作为引入,介绍了“生长”于云的开源项目。其中,重点提到了阿里云大数据AI开源代表——Apache Flink,并提出:“阿里巴巴毫无保留地将自己的技术创新完全开源到社区,惠及更多开发者,也希望吸引更多开发者一起推动社区发展。”


9-1.jpeg

(阿里巴巴开源委员会大数据AI领域副主席 王峰演讲)


接下来,阿里云AI开源项目EasyRec负责人施兴进行了“AI普惠,阿里灵杰开源历程与思考”的主题分享。如今,AI 已经在生活中无处不在,它正在持续提供普惠的能力。阿里灵杰AI开源家族从场景应用到生产开发,提供了贯通全链路的AI开源能力。


回到开源的初心,他提到:期望能够在开源的基础上结合阿里在场景上的应用,实现更大的扩展,将成果回馈给开源社区。因此,接下来我们会在平台、算法、应用和资源调度层面做更多持续开源的工作,让更多开发者能够享受到阿里在实践场景下打磨的经验。另外,也希望更多开发者能够参与到开源社区,共建开源社区,建设AI新标准,开源且开放。 最后,我们期望更多开源产品能够与云结合,将实用、易用、放心用发挥得更加淋漓尽致,让AI开源更加普惠数字世界。


9-2.jpeg

(阿里云AI开源项目EasyRec负责人 施兴演讲)


最后,主持人——阿里云开发者社区负责人李若冰开源中国社区创始人&CTO红薯、白鲸开源联合创始人代立冬、Apache软件基金会成员李钰、InfoQ总编辑王一鹏、浙江大学博导赵俊博展开对话,讨论“云时代下的大数据&AI开源”。


(以下为圆桌讨论实录整理)

9-3.jpeg

(圆桌对话环节)


主持人:请各位聊一聊,投身开源的初衷是什么?

红薯:我最早做开发的时候使用了很多开源项目。但在2001年之前,国内的开源发展尚在起步阶段,项目也较为松散,因此我希望能够建立一个平台,将所有开源资源进行整合,方便开发者检索。可以说,我们见证了中国开源蓬勃发展的十几年,开源在中国的发展速度远远超过了我们想象,如今已经站在全球领先的位置。


主持人:李钰老师作为开源领域的元老级人物和商业化产品的负责人,最开始参与开源的初衷是什么?

李钰:为了理想工作值得敬佩,但为了生计工作也是一件应该被接纳理解的事。最早我在 IBM 的工作与开源大数据组件相关,因此对开源有了较深的了解。另一方面,我认为开源社区能带给技术人非常大的价值,我也希望能够与更多人交流讨论,提升自己。


主持人:国内和国外开源的氛围有什么不同吗?

赵俊博:学校范围内,国外的氛围会比国内更好一些,但这并不代表国内的同学不如国外同学优秀。国内外有一个共识是:开源这件事很酷。当前,国内大学为学生提供了非常全面的帮助,比如新生之友、德育导师、班主任、辅导员、学业导师、科研导师、就业导师等,一方面确保了学校的正常运转,但另一方面,过多的“主动投喂”在某种程度上也降低了同学们的主观能动性,使他们习惯于等待被动引导,而国外或新生代同学们的心态可能更开放。


主持人:如何评判一个开源项目能否进入孵化或未来能否成功?

代立冬:一般来说,有一定用户基础、开源有一段时间且在社区保持正常迭代的项目进入孵化器的可能性较大。另外,Apache也非常欣赏创新、原创性的项目以及能够解决某一方面痛点的项目。中国95%甚至以上的开源项目作者没有运营项目的经验,而一旦进入孵化器,即可得到很多mentor的帮助,得到Apache积累20多年的成功经验,项目也更容易成功。


主持人:开源项目对于“成功”的定义是什么?

红薯:不同项目的标准不一样,不同领域的标准也不一样,比如数据库软件与前端库软件为不同领域,不具备可比性,即使某个前端项目得到了很多关注,也并不意味着它比数据库项目更成功。因此,我认为评判一个项目是否成功,项目是否满足发起人的预期相关,如果满足发起人的预期,则可以认为是一个成功的开源项目。另外,依靠star数判断项目也并非客观手段,比如 github 上的一些教程项目收获数以万计的star数,但这也仅仅意味着它有用,并不代表项目成功。


因此,我们推出了码云指数,从代码活跃度、贡献者团人数、对于 issue 的处理情况等五个角度对一个项目进行评判。目前正在做2.0版本,希望能够同时分析gitte和github上的项目,过程也会更加细化,并且以完全开源的方式来实现,以帮助开发者从更多角度观察项目的发展历程。


主持人:Flink在大数据开源项目中具有非常大的影响力,发展过程中,它做对了哪几步得以走到今天的位置?

李钰:判断一个开源项目是否成功,从投资人角度看,盈利是判断标准;从用户角度看,易用、能够帮助解决实际问题是判断标准;从开发者角度看,技术上的挑战性是判断标准。


主持人:AI 开源当前核心需要解决的问题是什么?

赵俊博:回顾历史,开源为 AI 做了太多, AI 也为开源做了太多。从基础设施的角度来看,AI已经具备一定的基础。早前,从底层开始写一个项目,往往需要几万行代码;而有了开源社区,很多内容可以直接从社区获得并投入使用。另外,数据方面,我希望能够从更开源的角度,将数据去中心化,加上隐私保护机制,加上联邦学习,将它们整合在一起。比如AI for Sicence需要投入巨大的资金,靠一个人、一个机构的力量无法实现,我希望有更全球化的开源社区将数据聚拢在一起,形成新的商业模式,然后回馈到每一个贡献者身上,让社区能够成功运转。AI 底层离不开数据的高效流转,我希望人人可以贡献数据,人人可以分享数据,人人可以用数据进行深度分析。


主持人:一个公司在应用开源技术的时候,最应该关注的点是什么?如何避免负面事件的发生?

代立冬:选择开源项目,首先考虑的是能否解决问题。同时,也需要考虑产品成熟度,比如当前产品处于什么阶段、已经发布多少版本、是否为Apache顶级项目等,以及关注其生态,比如社区活跃是否足够高。另外,也需要重点关注漏洞,比如通过专业公司进行漏洞扫描,以避免高危事件的发生。


主持人:大数据技术成熟度评估的背后是什么样的模型?评估过程比较看重哪些因素?

王一鹏:单纯通过数据统计很难客观评判一个项目的成熟度,我们的评估模型将开源项目的成熟度划分为几个部分来评估:其一,代码健康占比约40%,包括close issue、close PR以及PR数值等;其二,社区生态占比约40%,包括社区贡献比例、社区开发者活跃度;其三,X-lab贡献的项目协作影响力指数占比约10%,比如一批人深度参与开源社区,他们作为开发者身份的参与了项目A,则项目A的权重会增加,但同时已经通过算法直接避免了多位专家加入某一项目导致项目权重极高的可能性;其四,star 数量占比 10% 。


主持人:开源发展到今天,不管是协议还是整体社区发展,在世界范围之内都已非常成熟。对于中国而言,有没有一个方向方式能够实现弯道超车?

红薯:开源社区是否繁荣,唯一能够量化的评价标准是知名项目的数量,因此要实现超车,首先需要将数量提升到与其他国家处于同一层次。另外,当前开源中国托管的开源项目在数据量上与github 依然存在约10倍的差距,而开源影响力的差距更是远远不止。因此我也清醒地认识到,中国开源的发展道阻且长,想要实现超车,不管是数量还是质量都需要有更快的发展。

主持人:请为年轻的学生留一句寄语。

王一鹏:一定要出于热爱去投入开源,跨越语言隔阂和文化差异一起参与开源项目,这样才能真正做好开源。如果能在开源中得到快乐,这也是开源项目给予你的回馈。


李钰:少年强则国强,要实现弯道超车必然需要生力军源源不断地加入开源,开源也需要走到校园里。对于年轻同学们而言,开源是一种非常便携的社会实践方式,且开源社区里有非常多经验丰富、技术一流的developer 会热心地为开源新人提供无偿帮助。另外,开源社区是真实项目,会在生产中应用,同学们可以通过参与到开源社区,提前感受在生产中做开发和在实验室里开发的差别。与此同时,在开源项目里贡献代码也是简历上极为出彩的加分项


代立冬:开源中国做过统计,很多开源项目活不过两年。我觉得参与开源除了热爱之外,很重要的点在于坚持,我们应该把它当成终身事业来奋斗。做DolphinScheduler的第一天,我们就决定将它做成国际化的开源项目,以国际化标准来要求团队成员,比如英文issue、往来邮件等。坚持三年、坚持五年,最终会看见不一样的自己。


红薯:开源的必要性和优势已经不需要再论证,我们只要坚定地朝着这个方向努力,努力为社区留下一些自己的贡献。

赵俊博:希望年轻的同学能更主动、更勇敢。积极地提交PR,即使不被采纳,你也可以在社区给予的反馈中获得成长和进步,这些都是学校里无法获得的宝贵经验。


9-4.jpeg

(活动现场全体合影)


《开源人说》为阿里云开发者社区与InfoQ 联合出品的一档精品开源视频栏目。栏目围绕阿里四大开源领域:云原生、操作系统、数据库、大数据&AI,介绍优秀的开源软件:RocketMQ、Dubbo、Anolis OS(龙蜥操作系统)、Flink、PolarDB、OceanBase等背后的故事,记录传播阿里技术追求极致和开放共享的精神。

https://developer.aliyun.com/topic/opensourcefolkstalk

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
12天前
|
机器学习/深度学习 人工智能 UED
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
OOTDiffusion是一款开源的AI虚拟试衣工具,能够智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。该工具支持半身和全身试穿模式,操作简单,适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。
98 27
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
|
1天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
30 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
5天前
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
39 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
12天前
|
机器学习/深度学习 Web App开发 人工智能
Amurex:开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息
Amurex是一款开源的AI会议助手,提供实时建议、智能摘要、快速回顾关键信息等功能,帮助用户提升会议效率。本文将详细介绍Amurex的功能、技术原理以及如何运行和使用该工具。
67 18
Amurex:开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息
|
10天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
93 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
3天前
|
机器学习/深度学习 人工智能 算法
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具,支持图像和视频的多样化标注样式,适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。
22 2
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
Meta AI推出的Llama 3.3是一款70B参数的纯文本语言模型,支持多语言对话,具备高效、低成本的特点,适用于多种应用场景,如聊天机器人、客户服务自动化、语言翻译等。
64 13
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
|
11天前
|
人工智能 安全 PyTorch
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
SPDL是Meta AI推出的开源高性能AI模型数据加载解决方案,基于多线程技术和异步事件循环,提供高吞吐量、低资源占用的数据加载功能,支持分布式系统和主流AI框架PyTorch。
44 10
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
|
11天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
62 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
10天前
|
数据采集 人工智能 编解码
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。
56 7
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
下一篇
DataWorks