带你读《2022年开源大数据热力报告》——研究目标和研究模型

简介: 带你读《2022年开源大数据热力报告》——研究目标和研究模型

如何定量分析“后Hadoop时代”开源项目和技术趋势


研究目标

Hadoop 作为开源大数据技术的起源,兴起于2006年。我们收集从Hadoop 发展第10年,即2015年至今的相关公开数据进行关联分析,研究开源大数据进入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。


使用热力值进行定量分析

开源项目热力值,使用量化指标,刻画开源项目的开发迭代活跃度和受开发者欢迎程度。


具体来讲,主要来自于几个方面:

(1)开发者对开源项目的关注度,以及应用场景的广度和深度

(2)开发者参与项目开发的贡献活跃度

(3)开发者在开发过程中展现出的协作关联度

(4)项目和社区的可持续发展的健康度

这些和大数据技术发展趋势、开源项目的技术吸引力、开源社区治理水平以及项目传播力强相关。


本报告所呈现的开源大数据热力从全景、技术栈分类以及单项目角度对入围项目的热力表现进行可视化的多维度洞察,并将项目进程中的关键事件与热力表现进行关联分析,并引入开源基金会、知名开源项目等领域专家进行访谈,尝试找到项目健康发展一般规律,并对有效提升项目影响力的方法论进行了归纳总结。


数据来源

采集时间为2022年10月1日。

通过 GitHub log 获取2015年1月至2022年9月的公开数据(包括项目Id、Star、Issue、Open PR,Review Comment,Merge PR等)。

通过Jira api 获取2015年1月至2022年9月的公开数据(包括项目Id、Issue数量)。



热力值研究模型


热力值表征开源项目开发者参与热度

开发者参与开源项目一般遵从规律:关注项目(Star)->参与问题反馈(提 Issue)->参与开发协(提交 PR 和 Review、活跃 Contributor 等)。因此,热力值由该规律中的3个关键指标加权而来。


项目关注:每年新增 Star 数量,来自于 GitHub 公开数据

社区反馈:每年新增 Issue 数量,来自于 GitHub 与 Jira 公开数据

• 开发协作:每年 OpenRank 值,OpenRank 由 GitHub 公开数据(Open PR,Review Comment,Merge PR)计算所得,算法来自X-Lab开放实验室


#说明:

因开源大数据项目中有超过40%的项目,使用Jira进行Issue提交和反馈,因此将 X-Lab 原有的 OpenRank 算法进行了修正,将Issue剔除出来,不参与OpenRank 计算。而将 GitHub 与 Jira 公开数据中的 Issue 数单独列出作为社区反馈维度进行计算。



image.png


#说明:

所有大数据项目数据合计来看,新增 Star 数8年增长倍数为3,Issue 数8年增长倍数为1.8,OpenRank 值8年增长倍数为8。因此将基期中三个核心指标的权重比例设置为:25%:35%:40%。第8期的权重比例将变化为:15%:15%:70%。表征开发协作的比重大幅提升,这也与开源项目的生命源动力来自于更广泛的社区开发协作保持一致性。

热力值计算详见:

https://github.com/X-lab2017/open-digger/tree/master/cooperations



相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
存储 SQL 分布式计算
开源大数据比对平台设计与实践—dataCompare
开源大数据比对平台设计与实践—dataCompare
70 0
|
4月前
|
SQL 大数据 关系型数据库
开源大数据比对平台(dataCompare)新版本发布
开源大数据比对平台(dataCompare)新版本发布
74 0
|
4月前
|
SQL 存储 分布式计算
从0到1介绍一下开源大数据比对平台dataCompare
从0到1介绍一下开源大数据比对平台dataCompare
123 0
|
7月前
|
机器学习/深度学习 数据采集 算法
解码大数据:模型与算法的奥秘和应用
解码大数据:模型与算法的奥秘和应用
|
5月前
|
机器学习/深度学习 分布式计算 大数据
开源大数据平台的发展
开源大数据平台的发展
66 0
|
4月前
|
存储 分布式计算 负载均衡
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
61 0
|
1月前
|
机器学习/深度学习 分布式计算 监控
大模型开发:你如何使用大数据进行模型训练?
在大数据模型训练中,关键步骤包括数据准备(收集、清洗、特征工程、划分),硬件准备(分布式计算、并行训练),模型选择与配置,训练与优化,监控评估,以及模型的持久化与部署。过程中要关注数据隐私、安全及法规遵循,利用技术进步提升效率和性能。
50 2
|
5月前
|
人工智能 分布式计算 大数据
开源大数据平台 3.0 技术解读
阿里云研究员,阿里云计算平台事业部开源大数据平台负责人王峰围绕新一代的流式湖仓、全面 Serverless 化、更智能的开源大数据等多维度解读开源大数据平台 3.0~
1022 1
开源大数据平台 3.0 技术解读
|
1月前
|
SQL 存储 监控
构建端到端的开源现代数据平台
构建端到端的开源现代数据平台
54 4
|
1月前
|
人工智能 DataWorks 数据可视化
心动基于阿里云DataWorks构建游戏行业通用大数据模型
心动游戏在阿里云上构建云原生大数据平台,基于DataWorks构建行业通用大数据模型,如玩家、产品、SDK、事件、发行等,满足各种不同的分析型应用的要求,如AI场景、风控场景、数据分析场景等。
335 1