如何定量分析“后Hadoop时代”开源项目和技术趋势
研究目标
Hadoop 作为开源大数据技术的起源,兴起于2006年。我们收集从Hadoop 发展第10年,即2015年至今的相关公开数据进行关联分析,研究开源大数据进入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。
使用热力值进行定量分析
开源项目热力值,使用量化指标,刻画开源项目的开发迭代活跃度和受开发者欢迎程度。
具体来讲,主要来自于几个方面:
(1)开发者对开源项目的关注度,以及应用场景的广度和深度
(2)开发者参与项目开发的贡献活跃度
(3)开发者在开发过程中展现出的协作关联度
(4)项目和社区的可持续发展的健康度
这些和大数据技术发展趋势、开源项目的技术吸引力、开源社区治理水平以及项目传播力强相关。
本报告所呈现的开源大数据热力从全景、技术栈分类以及单项目角度对入围项目的热力表现进行可视化的多维度洞察,并将项目进程中的关键事件与热力表现进行关联分析,并引入开源基金会、知名开源项目等领域专家进行访谈,尝试找到项目健康发展一般规律,并对有效提升项目影响力的方法论进行了归纳总结。
数据来源
采集时间为2022年10月1日。
通过 GitHub log 获取2015年1月至2022年9月的公开数据(包括项目Id、Star、Issue、Open PR,Review Comment,Merge PR等)。
通过Jira api 获取2015年1月至2022年9月的公开数据(包括项目Id、Issue数量)。
热力值研究模型
热力值表征开源项目开发者参与热度
开发者参与开源项目一般遵从规律:关注项目(Star)->参与问题反馈(提 Issue)->参与开发协(提交 PR 和 Review、活跃 Contributor 等)。因此,热力值由该规律中的3个关键指标加权而来。
• 项目关注:每年新增 Star 数量,来自于 GitHub 公开数据
• 社区反馈:每年新增 Issue 数量,来自于 GitHub 与 Jira 公开数据
• 开发协作:每年 OpenRank 值,OpenRank 由 GitHub 公开数据(Open PR,Review Comment,Merge PR)计算所得,算法来自X-Lab开放实验室
#说明:
因开源大数据项目中有超过40%的项目,使用Jira进行Issue提交和反馈,因此将 X-Lab 原有的 OpenRank 算法进行了修正,将Issue剔除出来,不参与OpenRank 计算。而将 GitHub 与 Jira 公开数据中的 Issue 数单独列出作为社区反馈维度进行计算。
#说明:
所有大数据项目数据合计来看,新增 Star 数8年增长倍数为3,Issue 数8年增长倍数为1.8,OpenRank 值8年增长倍数为8。因此将基期中三个核心指标的权重比例设置为:25%:35%:40%。第8期的权重比例将变化为:15%:15%:70%。表征开发协作的比重大幅提升,这也与开源项目的生命源动力来自于更广泛的社区开发协作保持一致性。
热力值计算详见:
https://github.com/X-lab2017/open-digger/tree/master/cooperations