重磅嘉宾畅聊大数据&AI开源话题,零距离感受激荡开源江湖

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 「开源人说」第四期——大数据& AI专场在今年云栖大会举办,阿里巴巴开源委员会大数据AI领域副主席王峰和阿里云AI开源项目EasyRec负责人施兴现场分享热门开源项目背后的故事。开源中国创始人&CTO红薯,白鲸开源联合创始人代立冬,浙大博导赵俊博,InfoQ总编辑王一鹏、Apache软件基金会成员李钰等嘉宾圆桌共话,对开源热点及痛点问题展开激烈讨论。

(直播视频回顾)


活动开始,阿里巴巴开源委员会大数据AI领域副主席王峰进行了“云原生时代,做不忘初心开源牧马人”的主题分享。他从云原生时代,开发者参与开源的方式发生的变化作为引入,介绍了“生长”于云的开源项目。其中,重点提到了阿里云大数据AI开源代表——Apache Flink,并提出:“阿里巴巴毫无保留地将自己的技术创新完全开源到社区,惠及更多开发者,也希望吸引更多开发者一起推动社区发展。”


9-1.jpeg

(阿里巴巴开源委员会大数据AI领域副主席 王峰演讲)


接下来,阿里云AI开源项目EasyRec负责人施兴进行了“AI普惠,阿里灵杰开源历程与思考”的主题分享。如今,AI 已经在生活中无处不在,它正在持续提供普惠的能力。阿里灵杰AI开源家族从场景应用到生产开发,提供了贯通全链路的AI开源能力。


回到开源的初心,他提到:期望能够在开源的基础上结合阿里在场景上的应用,实现更大的扩展,将成果回馈给开源社区。因此,接下来我们会在平台、算法、应用和资源调度层面做更多持续开源的工作,让更多开发者能够享受到阿里在实践场景下打磨的经验。另外,也希望更多开发者能够参与到开源社区,共建开源社区,建设AI新标准,开源且开放。 最后,我们期望更多开源产品能够与云结合,将实用、易用、放心用发挥得更加淋漓尽致,让AI开源更加普惠数字世界。


9-2.jpeg

(阿里云AI开源项目EasyRec负责人 施兴演讲)


最后,主持人——阿里云开发者社区负责人李若冰开源中国社区创始人&CTO红薯、白鲸开源联合创始人代立冬、Apache软件基金会成员李钰、InfoQ总编辑王一鹏、浙江大学博导赵俊博展开对话,讨论“云时代下的大数据&AI开源”。


(以下为圆桌讨论实录整理)

9-3.jpeg

(圆桌对话环节)


主持人:请各位聊一聊,投身开源的初衷是什么?

红薯:我最早做开发的时候使用了很多开源项目。但在2001年之前,国内的开源发展尚在起步阶段,项目也较为松散,因此我希望能够建立一个平台,将所有开源资源进行整合,方便开发者检索。可以说,我们见证了中国开源蓬勃发展的十几年,开源在中国的发展速度远远超过了我们想象,如今已经站在全球领先的位置。


主持人:李钰老师作为开源领域的元老级人物和商业化产品的负责人,最开始参与开源的初衷是什么?

李钰:为了理想工作值得敬佩,但为了生计工作也是一件应该被接纳理解的事。最早我在 IBM 的工作与开源大数据组件相关,因此对开源有了较深的了解。另一方面,我认为开源社区能带给技术人非常大的价值,我也希望能够与更多人交流讨论,提升自己。


主持人:国内和国外开源的氛围有什么不同吗?

赵俊博:学校范围内,国外的氛围会比国内更好一些,但这并不代表国内的同学不如国外同学优秀。国内外有一个共识是:开源这件事很酷。当前,国内大学为学生提供了非常全面的帮助,比如新生之友、德育导师、班主任、辅导员、学业导师、科研导师、就业导师等,一方面确保了学校的正常运转,但另一方面,过多的“主动投喂”在某种程度上也降低了同学们的主观能动性,使他们习惯于等待被动引导,而国外或新生代同学们的心态可能更开放。


主持人:如何评判一个开源项目能否进入孵化或未来能否成功?

代立冬:一般来说,有一定用户基础、开源有一段时间且在社区保持正常迭代的项目进入孵化器的可能性较大。另外,Apache也非常欣赏创新、原创性的项目以及能够解决某一方面痛点的项目。中国95%甚至以上的开源项目作者没有运营项目的经验,而一旦进入孵化器,即可得到很多mentor的帮助,得到Apache积累20多年的成功经验,项目也更容易成功。


主持人:开源项目对于“成功”的定义是什么?

红薯:不同项目的标准不一样,不同领域的标准也不一样,比如数据库软件与前端库软件为不同领域,不具备可比性,即使某个前端项目得到了很多关注,也并不意味着它比数据库项目更成功。因此,我认为评判一个项目是否成功,项目是否满足发起人的预期相关,如果满足发起人的预期,则可以认为是一个成功的开源项目。另外,依靠star数判断项目也并非客观手段,比如 github 上的一些教程项目收获数以万计的star数,但这也仅仅意味着它有用,并不代表项目成功。


因此,我们推出了码云指数,从代码活跃度、贡献者团人数、对于 issue 的处理情况等五个角度对一个项目进行评判。目前正在做2.0版本,希望能够同时分析gitte和github上的项目,过程也会更加细化,并且以完全开源的方式来实现,以帮助开发者从更多角度观察项目的发展历程。


主持人:Flink在大数据开源项目中具有非常大的影响力,发展过程中,它做对了哪几步得以走到今天的位置?

李钰:判断一个开源项目是否成功,从投资人角度看,盈利是判断标准;从用户角度看,易用、能够帮助解决实际问题是判断标准;从开发者角度看,技术上的挑战性是判断标准。


主持人:AI 开源当前核心需要解决的问题是什么?

赵俊博:回顾历史,开源为 AI 做了太多, AI 也为开源做了太多。从基础设施的角度来看,AI已经具备一定的基础。早前,从底层开始写一个项目,往往需要几万行代码;而有了开源社区,很多内容可以直接从社区获得并投入使用。另外,数据方面,我希望能够从更开源的角度,将数据去中心化,加上隐私保护机制,加上联邦学习,将它们整合在一起。比如AI for Sicence需要投入巨大的资金,靠一个人、一个机构的力量无法实现,我希望有更全球化的开源社区将数据聚拢在一起,形成新的商业模式,然后回馈到每一个贡献者身上,让社区能够成功运转。AI 底层离不开数据的高效流转,我希望人人可以贡献数据,人人可以分享数据,人人可以用数据进行深度分析。


主持人:一个公司在应用开源技术的时候,最应该关注的点是什么?如何避免负面事件的发生?

代立冬:选择开源项目,首先考虑的是能否解决问题。同时,也需要考虑产品成熟度,比如当前产品处于什么阶段、已经发布多少版本、是否为Apache顶级项目等,以及关注其生态,比如社区活跃是否足够高。另外,也需要重点关注漏洞,比如通过专业公司进行漏洞扫描,以避免高危事件的发生。


主持人:大数据技术成熟度评估的背后是什么样的模型?评估过程比较看重哪些因素?

王一鹏:单纯通过数据统计很难客观评判一个项目的成熟度,我们的评估模型将开源项目的成熟度划分为几个部分来评估:其一,代码健康占比约40%,包括close issue、close PR以及PR数值等;其二,社区生态占比约40%,包括社区贡献比例、社区开发者活跃度;其三,X-lab贡献的项目协作影响力指数占比约10%,比如一批人深度参与开源社区,他们作为开发者身份的参与了项目A,则项目A的权重会增加,但同时已经通过算法直接避免了多位专家加入某一项目导致项目权重极高的可能性;其四,star 数量占比 10% 。


主持人:开源发展到今天,不管是协议还是整体社区发展,在世界范围之内都已非常成熟。对于中国而言,有没有一个方向方式能够实现弯道超车?

红薯:开源社区是否繁荣,唯一能够量化的评价标准是知名项目的数量,因此要实现超车,首先需要将数量提升到与其他国家处于同一层次。另外,当前开源中国托管的开源项目在数据量上与github 依然存在约10倍的差距,而开源影响力的差距更是远远不止。因此我也清醒地认识到,中国开源的发展道阻且长,想要实现超车,不管是数量还是质量都需要有更快的发展。

主持人:请为年轻的学生留一句寄语。

王一鹏:一定要出于热爱去投入开源,跨越语言隔阂和文化差异一起参与开源项目,这样才能真正做好开源。如果能在开源中得到快乐,这也是开源项目给予你的回馈。


李钰:少年强则国强,要实现弯道超车必然需要生力军源源不断地加入开源,开源也需要走到校园里。对于年轻同学们而言,开源是一种非常便携的社会实践方式,且开源社区里有非常多经验丰富、技术一流的developer 会热心地为开源新人提供无偿帮助。另外,开源社区是真实项目,会在生产中应用,同学们可以通过参与到开源社区,提前感受在生产中做开发和在实验室里开发的差别。与此同时,在开源项目里贡献代码也是简历上极为出彩的加分项


代立冬:开源中国做过统计,很多开源项目活不过两年。我觉得参与开源除了热爱之外,很重要的点在于坚持,我们应该把它当成终身事业来奋斗。做DolphinScheduler的第一天,我们就决定将它做成国际化的开源项目,以国际化标准来要求团队成员,比如英文issue、往来邮件等。坚持三年、坚持五年,最终会看见不一样的自己。


红薯:开源的必要性和优势已经不需要再论证,我们只要坚定地朝着这个方向努力,努力为社区留下一些自己的贡献。

赵俊博:希望年轻的同学能更主动、更勇敢。积极地提交PR,即使不被采纳,你也可以在社区给予的反馈中获得成长和进步,这些都是学校里无法获得的宝贵经验。


9-4.jpeg

(活动现场全体合影)


《开源人说》为阿里云开发者社区与InfoQ 联合出品的一档精品开源视频栏目。栏目围绕阿里四大开源领域:云原生、操作系统、数据库、大数据&AI,介绍优秀的开源软件:RocketMQ、Dubbo、Anolis OS(龙蜥操作系统)、Flink、PolarDB、OceanBase等背后的故事,记录传播阿里技术追求极致和开放共享的精神。

https://developer.aliyun.com/topic/opensourcefolkstalk

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
16天前
|
人工智能 Cloud Native 数据管理
重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
阿里云发布首个AI多模数据管理平台DMS,助力业务决策提效10倍
107 17
|
13天前
RTX3090可跑,360AI团队开源最新视频模型FancyVideo
【9月更文挑战第23天】近年来,人工智能技术的迅猛发展推动了视频生成领域的进步,但在合成动态、连贯且时长较长的视频方面仍面临挑战。为此,360AI团队提出了FancyVideo模型,通过跨帧文本指导实现更为连贯的视频生成。FancyVideo引入了跨帧文本指导模块(CTGM),包含时间信息注入器(TII)、时间相关性优化器(TAR)和时间特征增强器(TFB)三个组件,分别负责注入帧特定信息、优化相关性和增强时间一致性。这些机制使模型能生成具有连贯动作和丰富运动的视频,适用于动画制作和视频编辑等领域。然而,FancyVideo也存在计算复杂度高和细节真实感提升空间等局限。
27 3
|
2月前
|
人工智能 文字识别 算法
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
X-AnyLabeling是一款强大的辅助标注工具,集成了AI推理引擎和丰富功能,为图像数据工程师提供一站式解决方案。它支持图像和视频文件的自动标注,提供了包括矩形框、多边形在内的七种标注样式,适应多样化的训练场景需求。X-AnyLabeling内置了多种SOTA级AI模型,如YOLO、SAM系列等,并支持GPU加速和多种数据集格式的导入导出,确保高效的数据处理。此外,它还具备良好的跨平台兼容性,可在多种操作系统上运行,并提供详尽的帮助文档和社区支持,帮助用户轻松上手并解决使用过程中遇到的问题。
103 2
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
|
1月前
|
人工智能 分布式计算 DataWorks
大数据&AI产品月刊【2024年8月】
大数据& AI 产品技术月刊【2024年8月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
29天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
9天前
|
人工智能 自然语言处理 Linux
Llama 3.2:开源可定制视觉模型,引领边缘AI革命
Llama 3.2 系列 11B 和 90B 视觉LLM,支持图像理解,例如文档级理解(包括图表和图形)、图像字幕以及视觉基础任务(例如基于自然语言描述在图像中精确定位对象)。
|
2月前
|
数据采集 人工智能 安全
AI大数据处理与分析实战--体育问卷分析
本文是关于使用AI进行大数据处理与分析的实战案例,详细记录了对深圳市义务教育阶段学校“每天一节体育课”网络问卷的分析过程,包括数据概览、交互Prompt、代码处理、年级和学校维度的深入分析,以及通过AI工具辅助得出的分析结果和结论。
|
2月前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
|
2月前
|
人工智能 安全 Anolis
专访英特尔:开源与 AI 迅猛发展,龙蜥社区提供高效合作平台
龙蜥社区为开源技术、AI 技术提供了一个非常好的高效合作的平台。

热门文章

最新文章

下一篇
无影云桌面