owned this note
owned this note
Published
Linked with GitHub
# 数据篇
## 概述
2024 中国开源年度报告以深入全面的数据洞察为基础,共分为九大部分。第一部分**总体宏观洞篇**,通过对基础事件、活跃仓库、活跃用户、开源许可证和编程语言等方面的深入分析,揭示中国在全球开源生态中的全貌。第二部分 **OpenRank 排行榜篇**,提供了全球和中国各领域开源项目、企业、基金会、开发者以及协作机器人的排名,为业界提供全面系统的 OpenRank 指标信息服务。第三和第四部分为**企业洞察篇**和**基金会洞察篇**,通过演变图和趋势分析,呈现了全球和中国企业、基金会在开源领域中的演化。第五部分**技术领域洞察篇**,深入研究了各领域 Top10 榜单和项目变化情况,展示了前沿技术的发展方向和趋势。第六部分**开源项目洞察篇**,深入探讨了不同项目类型、领域和主题的多样性和创新方向。第七部分**开发者洞察篇**,则通过对开发者类型、工作时间分布、地区分布和机器人使用情况的分析,展现了开发者群体的多样性和工作特征。第八部分**商业开源洞察篇**聚焦中国及全球商业开源企业和项目的发展现状和趋势,分析商业开源企业的表现及成长路径。第九部分**高校开源洞察篇**介绍了开源之夏 OSPP 活动的举办情况,并结合 OpenRank 社区算法及其指标分析了相关高校与学生的表现情况,展现了高校学生参与开源活动的相关趋势。整体而言,数据篇通过丰富多彩的数据洞察与分析,勾勒出中国开源生态在 2024 年的全景图。
### 指标介绍
**OpenRank**
OpenRank 指标是由 X-lab 开放实验室所研发,基于开源开发者-项目协作关系网络构建的协作网络指标,不仅能够很好的表征项目的整体发展状态、社区参与度,同时也引入了开源生态的要素,能够很好地将开源生态中位于关键协作位置的项目、人、组织等实体识别并展示出来。OpenRank 目前已经得到了工业界和学术界的广泛认同,被包括中国标准化研究院系列开源治理标准、信通院开源治理白皮书、开放原子开源基金会全球开源大屏、企业开源办公室治理工具箱等所广泛采纳。
关于该指标的定义请参考:
[1] [Shengyu Zhao et al: OpenRank Leaderboard: Motivating Open Source Collaborations Through Social Network Evaluation in Alibaba. ICSE, 2024](https://www.researchgate.net/publication/376686121_OpenRank_Leaderboard_Motivating_Open_Source_Collaborations_Through_Social_Network_Evaluation_in_Alibaba)
[2] [赵生宇: 如何评价一个开源项目(三)价值流网络, 2021](https://blog.frankzhao.cn/how_to_measure_open_source_3)
[3] 工业和信息化部标准化研究院: 《信息技术 开源治理 第3部分:社区治理与运营》[T/CESA 1270.3-2023]、《信息技术 开源治理 第 5 部分:开源贡献者评价模型》[T/CESA 1270.5-2023], 2023
**活跃度(Activity)**
活跃度是 X-lab 研发的评价项目或开发者活跃程度的统计性指标。开发者活跃度由开发者 Issue、PR 及代码 Review 等行为加权得到。项目活跃度由项目中所有开发者活跃度总和进行数值处理后得到。
关于该指标的定义请参考:
[1] [Xiaoya Xia et al: Exploring activity and contributors on GitHub: Who, what, when, and where. APSEC, 2023](https://ieeexplore.ieee.org/abstract/document/10043221)
[2] [赵生宇:如何评价一个开源项目(一)——活跃度,2021](https://blog.frankzhao.cn/how_to_measure_open_source_1)
## 一. 总体宏观洞察
### 1.1 基础事件
**基础事件**是本数据篇分析的数据基础,是指全球化开源协作平台上(如 GitHub、Gitee 等)由于开发者活动行为所产生一系列事件日志数据。对基础事件的统计分析,可以宏观洞察全球开原生态发展的态势。本次开源年度报告所涉及的开源协作平台包括 GitHub、Gitee 以及 GitLink。
#### 1.1.1 GitHub 全域事件趋势
首先,统计分析全域 GitHub 的事件⽇志总体数量,如下图所示。
![1-1](https://github.com/kaiyuanshe/2024-China-Open-Source-Report/blob/main/public/image/data/chapter_1/1-1.png?raw=true)
<center>图 1.1 GitHub 年度事件数趋势 </center>
<br>
可以看到GitHub近⼏年全域事件日志总数都在明显上升,显示了全球开源发展中的增速。2024 年 GitHub ⽇志数据达到了 17.5 亿,相⽐ 2023 年增⻓了约 10%。在经过了 2018-2023 的高增长后,GitHub 平台的年度事件增长速度逐渐下降。但由于整体体量的关系,10% 的增长率还是一个非常大的数字,继续凸显出开源科技的发展在全球数字化转型中的活跃与关键地位。
关于2024年相比于2023年事件总数增长速度更快的原因,笔者通过调查发现,自 GitHub Copilot 等工具于 2023 年初开始成为主流以来,GitHub 上的开发人员数量迅速增长,南半球的开发人员数量显着增加,人工智能正在推动人们对软件开发的兴趣。更多开发者的参与是的日志总数更高。
#### 1.1.2 GitHub 和 Gitee 的总事件数趋势比较
由于 GitHub 平台活跃事件的庞大,接下来的分析工作,建立在每个平台的前 3 万个活跃仓库的基准之上。为了方便比较,我们选取了 GitHub 与 Gitee 中与开源参与相关性较大的 8 类事件进行统计分析,包括 CommitCommentEvent、ForkEvent、IssueCommentEvent、IssuesEvent、PullRequestEvent、PullRequestReviewCommentEvent、PushEvent 和 WatchEvent。
![GitHuB&Gitee_events_count](https://github.com/kaiyuanshe/2024-China-Open-Source-Report/blob/main/public/image/data/chapter_1/GitHuB%26Gitee_events_count.png?raw=true)
<center>图 1.2 GitHub 与 Gitee 活跃仓库事件数 </center>
<br>
可以看到两个平台的事件数量都呈现上升趋势,但是GitHub平台的事件数目波动相比于Gitee更大。而Gitee的上身则更加稳定。但是由于GitHub的先发优势,且为全球平台,其排名前3万的仓库的累积事件数量仍然远高于Gitee排名前3万的仓库。但是国内活跃开源项目的稳步增长态势。反映了国内开发者积极参与和贡献到开源社区的热情,为技术创新和知识共享注入了新的活力。
然而,需要强调的是,单纯依靠前 3 万个活跃项目的数据无法完全揭示全球 GitHub 平台的真实情况,因为长尾效应在全球范围内仍然非常明显。这一点将在后续的分析中更为清晰地体现出来,特别是 GitHub 平台作为全球领先的开源社区的广泛和多样性。在未来,随着技术的不断演进和开源文化的推动,可以期待中国开源社区在全球范围内继续蓬勃发展。
再进一步,分析基础事件的细分领域数据,结果如下图所示
![GitHub_events_type_distribute](https://github.com/kaiyuanshe/2024-China-Open-Source-Report/blob/main/public/image/data/chapter_1/Gitee_events_type_distribute.png?raw=true)
<center>图 1.3 GitHub细分事件类型占比 </center>
<br>
![Gitee_events_type_distribute](https://github.com/kaiyuanshe/2024-China-Open-Source-Report/blob/main/public/image/data/chapter_1/GitHub_events_type_distribute.png?raw=true)
<center>图 1.4 Gitee细分事件类型占比 </center>
<br>
从分析结果可以看到:
- 在 GitHub 平台上,最多的事件类型是 Watch事件,Watch事件在本文中表示的是star的含义,可以看到GitHub平台上star行为占据着相当高的比例,这可能得益于更成熟的社区文化,该平台的用户更愿意通过star对其感兴趣的仓库表示肯定。其他的事件比例则是由Pull Request 事件和 Issue Comment 事件分别居二三席。其中各个事件的发生次数占比基本上没有太大的变化,这体现出 GitHub 的开源生态模式在走向一个稳定的趋势。
- 在 Gitee 平台上,事件数据在 2018 年有极大的增长,最初以 Watch 事件为主。但在 2020 年后,Pull Request、 Review Comment 事件开始快速增长,在 2022 年成为最多的事件类型,并且在 2024 年也有持续的增长,占比变为最大。这是由于Gitee平台CI特性的限制,在pr自动审核的过程中,Gitee平台的自动审核机器人的结果将会以comment的形式返回,而GitHub平台则返回的是一个状态。因此造就了Gitee平台大量的Pull Request review comment事件。这说明Gitee平台的开发者们的工作流程在越来越规范化,也体现出国内开发者从关注者到贡献者角色的巨大转变,这和全球范围内的观察都是一致的。
### 1.2 活跃仓库
#### 1.2.1 GitHub 全域活跃仓库数目趋势
统计分析了全域 GitHub 活跃仓库的数量信息,如下图所示。
![1-5](https://github.com/kaiyuanshe/2024-China-Open-Source-Report/blob/main/public/image/data/chapter_1/1-5.png?raw=true)
<center>图 1.5 GitHub 年度活跃仓库数量趋势 </center>
<br>
活跃仓库数量总体上呈现增长趋势,但增长率在逐年下降。其中 2019 年到 2022 年是增长最快的时期,特别是2020年增长显著(增长约 1450 万个仓库),这与全球疫情期间远程工作和数字化转型加速有关。2022 年后增长速度明显放缓,这主要是因为随着主流开发者都已采用 GitHub,增长自然放缓;以及 Gitee、GitLab 等竞争平台的发展。
![1-6](https://github.com/kaiyuanshe/2024-China-Open-Source-Report/blob/main/public/image/data/chapter_1/1-6.png?raw=true)
<center>图 1.6 GitHub 仓库活跃度总览 </center>
<br>
从图中可以看出,GitHub 平台的仓库活跃度在 2018年 至 2024 年间总体呈现出增长趋势,但存在明显的波动。2018 年至 2020 年期间,活跃度快速上升,反映了这一阶段全球开源社区的快速发展和 GitHub 作为主流开源平台的吸引力。然而,从 2021 年开始,增长趋势放缓,2022 年出现一定程度的回落,活跃度在 2023 年逐渐回升,并在 2024 年接近历史最高水平。
![1-7](https://github.com/kaiyuanshe/2024-China-Open-Source-Report/blob/main/public/image/data/chapter_1/1-7.png?raw=true)
<center>图 1.7 GitHub 仓库活跃度组成 </center>
<br>
Issue 相关事件在活跃事件中占据较大比例,Issue 评论事件占比达到 29.1%,是活跃事件的主要部分。这表明用户在解决问题和讨论改进上表现出较高的活跃度。Pull Request(PR)相关事件也占据重要地位,其中PR创建事件占 24.1%,PR合并事件占 22.3%,两者合计接近总活跃事件的一半,反映了GitHub平台在代码协作和贡献方面的重要作用。
![1-8](https://github.com/kaiyuanshe/2024-China-Open-Source-Report/blob/main/public/image/data/chapter_1/1-8.png?raw=true)
<center>图 1.8 GitHub 仓库 OpenRank </center>
<br>
OpenRank 值从 2018 年至 2020 年为快速增长期,2020 年增长率达到峰值,表明这一阶段 GitHub 用户扩展和开源项目活跃度均处于高峰期。此后,增长率开始下降,2021 年至 2022 年进入平缓期。然而,从 2023 年开始,GitHub 的增长率有所恢复,2024 年虽有小幅回落,但整体仍保持稳定增长。
#### 1.2.2 Gitee 全域活跃仓库数目趋势
![1-9](https://github.com/kaiyuanshe/2024-China-Open-Source-Report/blob/main/public/image/data/chapter_1/1-9.png?raw=true)
<center>图 1.9 Gitee 仓库活跃度总览 </center>
<br>
与 GitHub 相比,Gitee 的仓库活跃度呈现出更加剧烈的变化趋势。从 2018 年到 2020 年,Gitee 的活跃度迅速飙升,尤其是 2020 年增长率达到顶峰。这一现象可能得益于国内开源政策的大力支持和本地化平台的推广,且同年 6 月开放原子开源基金会成功设立。然而,从 2021 年开始,Gitee 的增长率出现明显回落,活跃度逐渐趋于稳定,并在 2024 年达到新的峰值。
![1-10](https://github.com/kaiyuanshe/2024-China-Open-Source-Report/blob/main/public/image/data/chapter_1/1-10.png?raw=true)
<center>图 1.10 Gitee 仓库活跃度组成 </center>
<br>
在 Gitee 平台上,Review Comment 事件占据绝对主导地位,占总活跃事件的 75.6%,相比之下,Open Issue、Issue Comment、Merged Pull 等事件分别占 7%左右,Open Pull 事件占比仅为 5%,这一分布反映了 Gitee 平台用户更多关注于代码审查环节,而在代码提交和问题讨论的活跃度上略低于GitHub。
![1-11](https://github.com/kaiyuanshe/2024-China-Open-Source-Report/blob/main/public/image/data/chapter_1/1-11.png?raw=true)
<center>图 1.11 Gitee 仓库 OpenRank </center>
<br>
Gitee 的 OpenRank 值从 2018 年到 2024 年增长幅度极为显著。特别是在2019年至2020年间,OpenRank 值大幅提升,这可能得益于国内开源生态政策的推动以及开发者对本土化平台的支持。尽管 2021 年后增长率有所下降,但总体来看,Gitee 的综合活跃度依然保持稳步上升的趋势。这反映了 Gitee 在国内开源平台中的地位不断提升,同时也证明了其在活跃度和社区贡献上的持续增长。
### 1.3 活跃用户
#### 1.3.1 GitHub 总体活跃用户数量趋势
2024年的分析延续了以往的研究方法,但基于更丰富和精细化的数据来源。此次研究覆盖了 GitHub 上 1200 万活跃开发者的样本,其中 正确填写地理位置信息的开发者约为 255 万人,占 GitHub 全域注册用户总量(约 1.2 亿)的 2%。尽管数据仅为全体注册用户的一个子集,但这一样本量的增长以及开发者数据质量的提升,为分析全球开发者的地理分布及区域协作模式提供了更具代表性的视角。
统计分析 GitHub 总体活跃用户数量,如下图所示。
![1-12](https://github.com/kaiyuanshe/2024-China-Open-Source-Report/blob/main/public/image/data/chapter_1/1-12.png?raw=true)
<center>图 1.12 GitHub 年度活跃用户数量趋势 </center>
<br>
活跃开发者数量总体上呈增长趋势,从 2020 年的约 1,454 万增长到2024年的约 2,511 万。2019 至 2021 持续增长,这个阶段的快速增长可能受益于:疫情推动的远程工作转型以及全球数字化转型加速。而 2022 至 2023年的增长放缓原因可能包括:市场逐渐趋于成熟、基数效应等。2024 年增长率回升至 14.1%,增加约 311 万开发者,这可能与新技术浪潮(如AI、Web3等)带来的新增开发者有关。
与仓库增长相比,开发者增长更稳定,说明平台的用户基础在不断扩大。即使在增长放缓期,每年仍有大量新开发者加入,2024 年的反弹也显示GitHub 仍然保持着强大的吸引力。
#### 1.3.2 活跃用户地理分布与排名
**1、全球开发者地域分布**
首先统计分析全球开发者的地域分布,如下图表所示。
![1-13](https://github.com/kaiyuanshe/2024-China-Open-Source-Report/blob/main/public/image/data/chapter_1/1-13.png?raw=true)
<center> 图 1.13 全球开发者地域分布 </center>
<br>
<center> 表1.1 全球开发者国家/地区人数分布(Top 10) </center>
<br>
| 排名 | 国家 | 总人数 | 占比 | 开发者活跃度 |
|:----:|:--------------:|:--------:|:------:|:---------------------:|
| 1 | United States | 435202 | 17.11% |4301051.55|
| 2 | India | 252054 | 9.91% |1099659.73|
| 3 | China | 184085 | 7.23% |1097116.82|
| 4 | Brazil | 174811 | 6.87% |683186.08|
| 5 | Germany | 126397 | 4.96% |1492317.89|
| 6 | United Kingdom | 103061 | 4.05% |1140839.73|
| 7 | Canada | 82627 | 3.24% |821240.65|
| 8 | France | 78288 | 3.07% |833038.24|
| 9 | Russia | 60735 | 2.38% |310555.47|
| 10 | South Korea | 44006 | 1.73% |375550.82|
美国以 435,202 名开发者(17.11%)遥遥领先,印度(9.91%)和中国(7.23%)分别位列第二、三位。前十国家的开发者总和约占 60% 的份额,显示出较高的地域集中度。
在开发者活跃度方面:美国的活跃度(4,301,051.55)最高,与其开发者数量优势相符。德国表现突出,虽然开发者数量排名第五,但活跃度(1,492,317.89)位居第二。德国、英国的人均活跃度较高,说明这些国家的开发者参与度更深;而巴西、俄罗斯的人均活跃度相对较低。
中国的开发者数量虽不如美国庞大,但开发者活跃度几乎与印度持平,显示出中国开发者在开源项目中的贡献密度和深度正日益增强。中国开发者的活跃度不仅是数量上的体现,更重要的是反映了中国开源生态的快速成熟与国际化发展。
**2、中国开发者地域分布**
进一步分析,统计中国开发者的地域分布数,如下图表所示。其中,数据来源为“中国”的用户中,正确填写省份信息的开发者,样本数量近 15 万人。
![1-14](https://github.com/kaiyuanshe/2024-China-Open-Source-Report/blob/main/public/image/data/chapter_1/1-14.png?raw=true)
<center> 图 1.14 中国开发者地域分布 </center>
<br>
北上广深地区的开发者数量占据了中国开发者的主要份额。这些地区凭借其经济、科技、教育和创新资源的集中,吸引了大量的开发者。相比之下,中西部地区的开发者数量明显较少,占比远低于北上广深。尽管中西部一些省份(如四川、湖北、陕西等)近年来有所发展,但整体上,开发者的分布仍集中在经济发达的东部和沿海地区,中西部的开发者数量和集中度仍存在较大差距。
根据 GitHub 2024 年最新的报告数据,中国开发者总量达到了 9,404,966 人,依据比例可以估计各省实际开发者总量。
<center> 表1.2 中国开发者人数分布(Top 10) </center>
<br>
| 排名 | 省份 | 总人数 | 全国占比 | 实际总量 |
|:----:|:----:|:--------:|:--------:|:--------------:|
| 1 | 北京 | 38323 | 22.04% | 207.20 万 |
| 2 | 上海 | 28393 | 16.43% | 154.86 万 |
| 3 | 广东 | 24959 | 14.49% | 136.28 万 |
| 4 | 台湾 | 15894 | 9.53% | 89.62 万 |
| 5 | 浙江 | 15816 | 8.13% | 76.52 万 |
| 6 | 江苏 | 9369 | 4.90% | 46.10 万 |
| 7 | 四川 | 8186 | 4.69% | 44.03 万 |
| 8 | 香港 | 6625 | 3.13% | 29.44 万 |
| 9 | 湖北 | 5732 | 2.95% | 27.75 万 |
| 10 | 陕西 | 3669 | 1.88% | 17.68 万 |
根据上表中的数据,可以观察到中国开源开发者的地域分布与各地区经济发展水平之间的密切关系:
- 北京、上海、广东、台湾 四大地区的开源开发者人数远超其他省份,尤其是 北京,其开发者人数达到 38,323,占全国的 22.04%,凸显了首都在技术创新和人才集聚方面的显著优势。上海和广东分别位列第二和第三,开发者人数也分别达到 28,393 和 24,959,表明这些地区在开源生态和科技创新领域的领先地位。
- 台湾位居第四,尽管其面积较小,但其 15,894 名开发者仍占据了全国的 9.53%,反映出台港地区在开源开发中的重要地位,且其高科技产业和开放的政策环境促进了大量开发者的参与。
- 长三角地区(包括上海、浙江、江苏)和 珠三角地区(包括广东)开源开发者数量庞大,总人数超过 150,000,这反映了东部沿海经济发达地区的强大科技创新力和吸引力。
- 中西部地区,如四川、湖北和陕西,尽管在总量上不及东部地区,但其开发者数量相对较高,尤其是四川,以 8,186 名开发者位居第七,显示出其良好的宜居环境和快速发展的软件产业吸引了大量技术人才。这些地区逐步形成了较为活跃的技术创新生态,并且随着当地经济的不断发展,吸引力日益增强。
<!-- ### 1.4 开源许可证
#### 1.4.1 使用开源许可证的仓库数量
统计了 GitHub 的活跃仓库采用的开源许可证的数量,如下图所示。
![license_distribute](https://hackmd.io/_uploads/HJamkTmUJe.png)
<center>图 1.12 使用开源许可证的仓库数量占比 </center>
<br>
分析发现目前使用最多的开源许可证,包括 MIT 许可证、Apache 许可证 v2.0、GNU 通用公共许可证 v3.0、BSD 3-Clause 许可证。其中 MIT 许可证以接近 43% 的占比排名第一。MIT 许可证以麻省理工学院(Massachusetts Institute of Technology)为名,最早由该学院使用,因此得名。MIT 许可证的简洁和灵活性使其成为许多开发者选择的许可证之一,它提供了最小的法律限制,鼓励开发者自由地使用和传播软件。相比于2023年,MIT许可证的比例下降较多,Apache2.0许可证比例有所提高,从15.7%提高到19.4%。
#### 1.4.2 开源许可证种类变化趋势
统计分析了开源许可证种类变化趋势,如下图所示。
![license_type_count_trend](https://hackmd.io/_uploads/r1Gmkpm8Jg.png)
<center>图 1.13 开源许可证种类数量变化趋势 </center>
<br>
总体来看,开源许可证的种类在 2017 年以来不断增加。Eclipse 公共许可证 2.0 和欧盟公共许可证 1.2 以及其他许可证的推出造成了 2017-2018 年的增长。在此之后开源许可证种类的增长速度放缓,在 2021 年至 2022 年间,一批新的开源许可证如木兰系列许可证、CERN(欧洲核子研究组织)许可证v2 开始崭露头角,随后发展趋于稳定,目前 GitHub 上主流许可证的种类也持续两年稳定在 47 个。
#### 1.4.3 使用开源许可证仓库数量变化趋势
根据日志数据显示,2023 年有接近 770 万个活跃仓库使用了各种开源许可证(占全体活跃仓库的 8.76%),其中由于 MIT 许可证强大的影响力,我们将其数据单独展示。
1. 使用 MIT 许可证仓库数量变化趋势
统计分析了 MIT 许可证仓库数量变化趋势,如下图所示。
![MIT_repo_count_trend](https://hackmd.io/_uploads/B1Lf1T7I1x.png)
<center>图 1.14 使用 MIT 许可证的仓库数量变化趋势 </center>
<br>
可以看到:
- MIT 许可证是目前最流行的开源许可证,2023 年有 158 万个活跃仓库使用了该许可证;但2024年反而只有不到100万个仓库使用。同时由于Apache2.0许可证的占比提高,可以分析得出开源许可证的参与者们希望代码被修改后需要声明修改而不再仅仅是不需要任何声明。
- 使用 MIT 许可证的仓库在2024年有大幅的减少,更多的不同的许可证能够在开源领域有所应用。
2. 其余前五的开源许可证数量变化趋势
统计分析了其他前五开源许可证仓库数量变化趋势,如下图所示。
![Var_license_repo_count_trend](https://hackmd.io/_uploads/HJsbJ67I1l.png)
<center>图 1.15 使用其他许可证的仓库数量变化趋势 </center>
<br>
可以看到:
- 各类开源许可证的数量在2024年都有下降,但是开源许可证种类的头牌依旧还是以 MIT、Apache、GNU 等为主;
- 小众开源许可证和热门开源许可证的差异仍然存在;
- 热门许可证的下降比例大于小众许可证。
#### 1.4.4 使用木兰系列许可证仓库数量变化趋势
统计分析使用木兰系列许可证仓库数量的变化趋势,如下图所示,该图表示的是每个月增加的使用木兰许可证的仓库数量。
![Mulan_repo_count_trend](https://hackmd.io/_uploads/BJieypQIyl.png)
<center>图 1.16 使用木兰系列许可证的活跃仓库数量累加图 </center>
<br>
木兰系列许可证(包含 “木兰宽松许可证” 和“木兰公共许可证”等),均由北京大学作为牵头单位,依托全国信标委云计算标准工作组和中国开源云联盟,联合开源生态圈(如开源社)及产学研团队和个体、尤其是开源法务和律师,起草、修订并发布。其中 Mulan PSL 是国内首个被 OSI 认定的 “开源软件协议”。
我们观测了 GitHub 中使用木兰许可证的活跃仓库(其中,活跃仓库是指仓库里有 issue 和 PR 或者有被用户标星等活动)的趋势,从 2022 年 9 月开始,使用木兰许可证的仓库开始增长。在2024年1月后,每个月的增长数已经能够稳定在50以上 ,木兰开源许可证的影响力在逐渐展现。
-->
### 1.4 编程语言
#### 1.4.1 2024 年开发者使用编程语言榜单
编程语言的受欢迎程度也是开发者所喜闻乐见的,分析了 2024 年度最受开发者欢迎的编程语言,如下表所示。
<center>表1.3 开发者使用编程语言排行榜(Top 15) </center>
<br>
| 排名 | 编程语言 | 使用该语言开发者数 | 使用该语言仓库数 |
|:---:|:-----------------:|:-------:|:-------:|
| 1 | JavaScript | 591223 | 654037 |
| 2 | Python | 540751 | 499644 |
| 3 | TypeScript | 439954 | 462496 |
| 4 | HTML | 424901 | 401084 |
| 5 | Java | 281403 | 328123 |
| 6 | C++ | 143135 | 106444 |
| 7 | CSS | 137566 | 114166 |
| 8 | C# | 131549 | 163796 |
| 9 | Go | 125521 | 121209 |
| 10 | Jupyter Notebook | 119874 | 79415 |
| 11 | PHP | 100984 | 108019 |
| 12 | Shell | 93726 | 76276 |
| 13 | C | 84253 | 60389 |
| 14 | Rust | 68199 | 62969 |
| 15 | Kotlin | 53503 | 48013 |
从上表中可以看出:开发者使用人数前五名的开发语言分别为 JavaScript、Python、TypeScript、HTML、Java,是开发者使用的主要编程语言,而从第 6 名的 C++ 开始,使用人数相较于第 5 名的 Java 降低了接近一半。这与往年的结果保持一致,在近年来,主流编程语言的适用领域基本确定,很难发生较大的变化,因此使用人数排名一般也不会有明显的改变。
#### 1.4.2 2019-2024年开发者使用编程语言趋势
统计分析了开发者使用编程语言的趋势,如下图所示。
![var_lang_until_2023](https://github.com/kaiyuanshe/2024-China-Open-Source-Report/blob/main/public/image/data/chapter_1/var_lang_until_2023.png?raw=true)
<center>图 1.15 2019 - 2023 年开发者使用编程语言趋势 </center>
![var_lang_until_2024](https://github.com/kaiyuanshe/2024-China-Open-Source-Report/blob/main/public/image/data/chapter_1/var_lang_until_2024.png?raw=true)
<center>图 1.16 2019 - 2024 年开发者使用编程语言趋势 </center>
<br>
需要声明的是,在仓库编程语言这一字段的采集上,数据源已经不再提供仓库的元信息,所以本次数据采集缺少2024年,10,11,12月的数据。同时2024年的总量看上去比2023年有所下降。但是其相对位置的变化没有问题。
从上面两张图中可以看出:
- JavaScript、Python、TypeScript、HTML、Java五种编程语言是开发者使用的主要编程语言;
- Python、TypeScript相对于其他的三个主要语言增长迅速,并且近5年内一直保持着快速增长的趋势;
- 其中TypeScript近5年来使用人数飞速增长,在2021年与排在其后的编程语言拉开了显著差距,成为了开发者使用的主要编程语言之一,2024年其开发者使用数将超过在2023年排名第3的HTML编程语言,成为开发者喜爱使用的编程语言新的第三名。
## 二. OpenRank 排行榜
在开源领域,排行榜不仅是衡量项目影响力和活跃度的重要工具,也是反映全球开源生态动态的视图窗口。2024年的中国开源年报通过OpenRank排行榜,提供了一个独特的视角,集中展现开源社区的关键参与者,包括项目、地区、企业、基金会以及新势力项目的活跃度和影响力。报告不仅包括了国内的数据,还整合了GitHub和Gitee平台上的全球数据,提供了全球性视角的贡献与分析。通过排行榜,我们期望能够进一步推动开源文化的普及和开源技术的应用,同时鼓励更多的企业和个人参与到开源项目中来。
![全球项目排行榜](https://hackmd.io/_uploads/ByaqLwYLkl.png)
<center>图 2.1 2024年全球项目OpenRank排行榜Top 30 </center>
<br>
根据2024年全球项目OpenRank排行榜Top 30,中国开源项目OpenHarmony以67538.71的OpenRank值位居榜首,显示出其在开源社区中的极高活跃度和影响力。Azure和.Net分别位列第二和第三。OpenHarmony和LLVM在OpenRank分数上有显著增长,反应了它们在特定领域或技术栈中具有巨大的增长潜力与社区影响力。排行榜覆盖了操作系统、云计算、编程语言、物联网、大数据、人工智能、游戏引擎、应用工具、可视化等多个技术领域,显示了开源项目的广泛性和多样性。
![中国项目排行榜](https://hackmd.io/_uploads/r18iUPKIJg.png)
<center>图 2.2 2024年中国项目OpenRank排行榜Top 30 </center>
<br>
2024年中国项目OpenRank排行榜中包括了操作系统(如OpenHarmony)、人工智能(如MindSpore)、数据库(如openGauss、TiDB)、大数据处理(如Apache Flink)等多个领域的项目,显示了中国开源项目的多样性。华为在排行榜中占据了多个位置,包括OpenHarmony和openEuler,这显示了华为在中国开源社区中的显著影响力和对开源项目的贡献。中国项目排行榜反应了中国人工智能的快速发展,如MindSpore和PaddlePaddle两个人工智能项目分别位于第三和第四位。操作系统和数据库的占比也比较大。另外,值得注意的是隐私计算的兴起,SecretFlow项目的出现表明隐私计算作为一个新兴领域,正在获得社区广泛关注。
![企业排行榜](https://hackmd.io/_uploads/r1Y8M6XL1e.png)
<center>图 2.3 2024年全球企业OpenRank排行榜Top 30 </center>
<br>
2024年全球企业OpenRank排行榜中的企业来自多个不同的国际,展示了开源项目的国际化与全球化的特点,其中美国企业占据了绝大多数的位置,科技巨头的高排名显示出美国在全球开源项目中的领导地位。特别是微软(Microsoft)、谷歌(Google)、亚马逊(Amazon)等公司在OpenRank分数上遥遥领先。同时也可以看到中国企业的快速发展,华为(Huawei)和阿里巴巴(Alibaba)分别位列第二和第八位,反应了中国企业在全球开源领域的影响力正在增强。另外一些相对较新的企业,如HashiCorp、Hugging Face、Vercel和LangChain,也在排行榜中占据了一席之地,这表明新兴企业在开源领域的影响力正在增长。
![04 中国企业排行榜](https://hackmd.io/_uploads/Hycfmp7I1g.png)
<center>图 2.4 2024年中国企业OpenRank排行榜Top 30 </center>
<br>
2024年中国企业OpenRank排行榜中多为大型公司的贡献,如华为(Huawei)、阿里巴巴(Alibaba)、蚂蚁(Ant group)、百度(Baidu)等,这表明中国的大型企业在推动开源项目方面扮演着重要角色。虽然排行榜主要关注中国企业,但其中一些企业如Tencent、Baidu、Alibaba等在全球开源项目中也具有显著影响力。
![05 基金会排行榜](https://hackmd.io/_uploads/B1X4XTXIkx.png)
<center>图 2.5 2024年开源基金会OpenRank排行榜Top 30 </center>
<br>
2024年开源基金会OpenRank排行榜中,开放原子基金会(OpenAtom Foundation)位列第一,这表明中国在开源领域的影响力正在增强,尤其是在推动大型开源项目方面。此外,美国拥有多个高排名的开源基金会,如Cloud Native Computing Foundation、Apache Software Foundation和Linux Foundation。Stichting NixOS Foundation和Godot Foundation分别位于第四和第七位,显示了荷兰在开源项目中的参与和贡献。
![行政区](https://hackmd.io/_uploads/SJpEDvKUJx.jpg)
<center>图 2.6 2024年全球行政区划开发者OpenRank排行榜Top 30 </center>
<br>
2024年全球行政区划开发者OpenRank排行榜中主要包括美国、中国、德国、法国、加拿大、日本等多个科技水平较高,经济发达的行政区划城市。科技产业中心所在行政区的OpenRank较高,如美国的加利福尼亚州(硅谷)、华盛顿州(微软、亚马逊)、纽约等等。经济发达的行政区的开发活跃程度也较高,如中国的北京、上海等城市。
![中国行政区](https://hackmd.io/_uploads/SJwBPvFUJl.jpg)
<center>图 2.7 2024年中国行政区划开发者OpenRank排行榜Top 34 </center>
<br>
2024年中国行政区划开发者OpenRank排行榜中北京和上海占据中国开源发展的领导地位,此外,沿海岸城市与西部地区都有较高的开发者数量和发展潜力。
![新势力项目](https://hackmd.io/_uploads/SJnHXaXI1x.png)
<center>图 2.8 2024年全球新势力项目OpenRank排行榜Top 30 </center>
<br>
2024年全球项目新势力OpenRank排行榜以项目级标签统计排名,反应了高度活跃的核心项目与开发团队,代表了未来的技术趋势或者创新方向。新势力项目大部分集中在美国的开源项目,UV项目以显著的分数领先,尽管它的活跃仓库数不多,但活跃开发者的数量却相当高。值得注意的是,中国的KWDB排名第十,展现了中国开源的快速发展。另外,排名第四的Valkey是一个开源、内存式的高性能键值数据存储项目,它作为Redis的替代品而开发。Valkey项目由Linux基金会管理,并且得到了包括AWS、Google Cloud、Oracle等在内的行业巨头的支持。排名第九的Redot Engine是一个新兴的、社区驱动的游戏开发引擎,是Godot引擎的一个分支,并且在非常宽松的MIT许可证下发布。这意味着用户的游戏完全属于他们自己,包括引擎代码的每一行。Redot的发展完全独立,真正由社区驱动,赋予用户帮助塑造引擎以满足他们期望的能力.
## 三. 企业洞察
企业在开源生态中的角色与表现正日益成为评估其技术创新能力与行业影响力的重要维度。从全球化的技术竞争到本地化的行业应用,开源已经成为企业数字化转型和技术突破的重要驱动力。随着开源生态的不断扩展,企业的开源活跃度、贡献度以及影响力逐步形成了衡量其综合实力的重要指标。本节内容将通过分析全球和中国企业近十年的OpenRank演变趋势,结合2024年度的活跃度与OpenRank排名情况,深入探讨企业在开源领域的表现及其对行业生态的贡献。特别是针对今年中国企业中的黑马DaoCloud,将通过数据可视化、核心项目生态协作网络与社区协作网络的分析,展现其在云原生技术领域的快速崛起与战略布局。
### 3.1 近 10 年全球企业 OpenRank 演变图
![image](https://hackmd.io/_uploads/r131OHq81g.png)
<center>图 3.1 近 10 年全球企业 OpenRank 演变图 </center>
<br>
全球企业开源影响力的观察如下:
* 微软从十多年前(2008 年)开始布局开源,在 2016 年站到了全球开源影响力的巅峰,直到今天无人撼动;
* 2019 年,华为正式被美国制裁开始,将开源作为重要战略方向,一路飙升,并于2023年完成了对 Google 和 Amazon 的超越;
* 阿里巴巴在 2021 年前,一直是国内开源的领先者,并至今稳居世界第八的排名;
* 蚂蚁集团在近三年的表现也是非常抢眼,并于 2023 年正式进入世界前15,目前排名全球13;
* 国内开源的第四大巨头百度,由于国内快速的开源态势变化,目前排名全球 12;
* 全球年度黑马为Nabu Casa Inc(首次进入全球Top15,目前全球排名11),这是世界上最大的开源家庭自动化平台;
* 今年还有首次进入Top15的有Intel(排名15),预示着Intel逐渐在开源领域布局;以及DataDog(排名14),是一家提供分析数据、监控服务器、工具、数据库和各项服务的云应用公司
### 3.2 近 10 年中国企业 OpenRank 演变图
![image](https://hackmd.io/_uploads/HJLHFrcI1x.png)
<center>图 3.2 近 10 年中国企业 OpenRank 演变图 </center>
<br>
本图能够很好表现国内公司的开源战略及其变化趋势:
* 华为 2018 年开始发力,仅用2年的时间就做到了国内第一,到2023年达到了全球第二的位置;
* 阿里和蚂蚁作为国内老牌开源引领的企业,表现稳定;
* 百度则由于前面三家的竞争,滑落第四;
* 字节跳动则是近几年肉眼可见的进步神速;
* Espressif(乐鑫科技)是国内开源界相对低调的半导体开源王者;
* Fit2Cloud 则是作为另一家低调但非常务实的开源企业,旗下多款开源软件深受开发者喜爱;
* 近年来,排名靠前的新兴企业包括 Fit2Cloud、PingCAP 和 StarRocks,这些公司主要活跃于 云计算、大数据、AI 和基础设施 领域,反映了开源生态的技术趋势逐渐向云原生和大数据方向倾斜。
### 3.3 2024年度全球企业 Openrank 变化
![image](https://hackmd.io/_uploads/SkXZeLq8Jx.png)
<center>图 3.3 2024年度全球企业 Openrank 变化值及总值 </center>
<br>
* 全球企业Top5只有华为和Meta在2024年出现了增长,而华为的增长幅度是巨大的(31226.88),Meta则为(174.75)
* 微软、谷歌和Amazon均出现了OpenRank值降低的情况,其中Amazon的降幅最大(为8974.76)
* 华为于2023年完成了对 Google 和 Amazon 的超越后,今年的增幅同样巨大,可以预期华为未来可能撼动微软的全球第一的地位;也表明中国企业正在加快在全球开源社区中的布局,逐渐提升影响力
### 3.4 2024年度全球企业的活跃度前10
![image](https://hackmd.io/_uploads/rklKk5XIye.png)
<center>图 3.4 2024年度全球企业的活跃度前10 </center>
<br>
微软 (Microsoft) 稳居第一,以绝对优势(活跃度 706,985.92)在各项指标上表现最为出色,证明其持续在开源生态中的领导地位。华为 (Huawei) 超越谷歌,上升两位至第二名,展现了其在开源社区中的强劲增长(活跃度增长 147,619.52)。谷歌 (Google) 下滑一位至第三名,活跃度仍维持在较高水平(290,417.81)。亚马逊 (Amazon) 和 Red Hat 分列第四和第五,前者活跃度略有下降。Mozilla 上升一位至第六名,表明其在开源领域的贡献有提升。
其他企业如 Meta、IBM、阿里巴巴 (Alibaba) 和 Elastic 也保持了在前十名中的竞争力。
* 华为的快速崛起:活跃度和贡献指标均显著增长,反映出其对开源生态的持续投入,特别是在 PR 审查和 Issue 评论上的活跃表现。
* RedHat 和 Mozilla 的稳定贡献:作为传统开源社区的领导者,这两家公司继续在开源项目贡献中扮演重要角色,展现了持续的影响力。
* 中国企业的表现:除华为外,阿里巴巴也榜上有名,排名第九。这表明中国企业在全球开源领域的影响力正在逐步上升。
* Microsoft 是开源生态中无可争议的领导者,各项指标均表现优异。
* 华为 和 Google 在开源贡献上的竞争日益激烈。
* 其他老牌开源企业如 RedHat 和 Mozilla 依然保持了在社区中的活跃度和贡献力。
* 从整体上看,这份 OpenRank 榜单反映了全球开源生态中的多样化和竞争格局,以及企业对开源的日益重视。
### 3.5 2024年度全球企业的OpenRank前10
![image](https://hackmd.io/_uploads/S1pc7aQLkx.png)
<center>图 3.5 2024年度全球企业的OpenRank前10 </center>
<br>
* 北美企业的强势地位:前十中,北美企业占据七席,微软、谷歌和亚马逊继续主导开源生态。这些企业在基础设施、AI、云计算等领域贡献巨大,是全球开源的核心推动力。
* 中国企业的崛起:华为的高速增长显示其在开源技术和全球化方面的显著进步。
* 阿里巴巴的排名下降则反映了开源生态中新的挑战。
* 老牌企业的复苏:Red Hat、IBM等传统企业重新发力,显示出老牌技术公司依然具有强大的技术积累和生态价值。
未来趋势:
* 全球企业的开源竞争将更加激烈,各大公司需要在技术贡献、社区互动和生态扩展方面进一步投入。
### 3.6 2024年度中国企业的活跃度前10
![image](https://hackmd.io/_uploads/rkA0CtQU1g.png)
<center>图 3.6 2024年度中国企业的活跃度前10 </center>
<br>
* 华为 (Huawei) 稳居第一,其活跃度(422,865.51)远高于其他企业,展示了在开源领域的绝对领先地位。
* 阿里巴巴 (Alibaba) 和 蚂蚁集团 (Ant Group) 分列第二和第三,显示了阿里系在开源领域的持续深耕。
* 百度 (Baidu) 保持第四,活跃度为 53,851.9。
* DaoCloud 是本次榜单的黑马,上升 10 位至第五名,活跃度大幅增长。
* 其他企业如 字节跳动 (ByteDance)、PingCAP、ESPRESSIF、腾讯 (Tencent) 和 Fit2Cloud 则分列第六至第十名。
* 华为的绝对优势:在所有指标上均位列榜首,充分展现了其在开源社区的主导地位。
* DaoCloud 的强势崛起:活跃度大幅提升,并在创建 Issue 和 Pull Request 上表现出色,成为本年度榜单的一大亮点。
* 阿里系的整体实力:阿里巴巴 和 蚂蚁集团 双双跻身前三,显示出阿里系企业对开源生态的持续投入。
* 中小型企业的竞争力:企业如 ESPRESSIF 和 Fit2Cloud 尽管体量较小,但也展示了显著的开源贡献。
这份榜单体现了中国企业在全球开源领域的强劲表现:
* 头部企业(如华为、阿里巴巴)持续扩大领先优势。
* 新兴企业(如 DaoCloud)快速崛起,带来了更多活力。
* 数据表明,中国企业在开源领域不仅注重贡献代码,还积极参与社区互动和治理,推动了全球开源生态的发展。
### 3.7 2024年度中国企业的OpenRank前10
![image](https://hackmd.io/_uploads/BkFQG6XI1l.png)
<center>图 3.72024年度中国企业的OpenRank前10 </center>
<br>
* 华为凭借高额得分和显著增长继续稳居榜首。
* 阿里巴巴和百度依旧占据前列,但受到其他新兴企业的挑战。
* DaoCloud的跃升和Fit2Cloud的新进入,说明中小型企业在开源领域的活跃度逐渐增强。
* 整体来看,榜单中的企业在多样化领域(如云计算、IoT、数据库等)都展现了开源的深度参与。
### 3.8 2024年度中国企业黑马DaoCloud的解读
在2024年度的中国企业OpenRank和活跃度两个榜单中,DaoCloud以令人瞩目的表现跻身前十,OpenRank从去年的排名中上升了整整9位(来到全国第6);同时活跃度上升了10位(来到全国第5),成为了本年度当之无愧的“黑马”。**值得关注的是2024年6月各高校Docker镜像网站被封,大量开发者转向DaoCloud,带来了DaoCloud的快速崛起**。DaoCloud得益于其在开源领域的持续投入和创新,不仅通过技术创新推动了容器云和微服务架构的普及,还积极参与了多个国内外主流开源项目的研发与贡献,例如Kubernetes生态、容器编排工具和云原生开发框架等。这种崛起也反映了中国科技企业在开源技术发展和社区参与中的多样化探索与成功实践。DaoCloud的表现不仅提升了自身的行业影响力,也为其他中小型企业提供了开源发展的参考路径。
#### 3.8.1 DaoCloud企业洞察大屏
<img width="1159" alt="image" src="https://github.com/user-attachments/assets/25d53bf8-31ed-4c9d-9b1b-993d5f9a872d" />
<center>图 3.8 DaoCloud企业洞察大屏 </center>
<br>
这张图是 DaoCloud 洞察大屏,展示了 DaoCloud 的总体贡献情况、活跃项目排行、贡献者分布以及一些重要的开源活动指标(如 Issue、Commit 和 PR 的变化趋势)。
DaoCloud活动趋势分析
* Issue 月度变化:2024 年 5 月,Issue 数量出现高峰(超过 60,000),可能是因为新版本发布或重大事件推动了社区讨论。
* 后续的关闭和处理趋势表明社区对问题的响应效率较高。
* Commit 月度分布:历史上社区的 Commit 活动有明显波动:
* 2020 年和 2023 年分别出现两次较大峰值,可能对应社区的重要版本发布或功能更新。
* 最近一次(2024 年底)Commit 数量也显著上升,显示出社区活跃度的增长。
PR 月度变化:PR 的打开、合并和关闭数量在 2024 年度整体保持稳定,显示出社区开发活动的高效和有序。
总结与观察
* 核心项目表现突出:public-image-mirror 和 DaoCloud-docs 是社区的核心项目,贡献了主要的活跃度和影响力。
* 社区协作紧密:从 PR 和 Issue 的处理效率可以看出,社区对开发者的反馈及时且高效,增强了社区凝聚力。
* 持续增长的活跃度:贡献者数量、Commit 活动和 PR 活跃度均表明社区仍在快速发展,具备持续吸引新开发者的能力。
* 整体健康的社区生态:多样化的贡献者结构、活跃的项目管理和稳定的开发活动使 DaoCloud 社区在开源生态中占据了重要位置。
public-image-mirror(公开镜像服务)和 DaoCloud-docs(相关文档协作)是DaoCloud的两大核心项目,下面对这两个仓库进行解读
#### 3.8.2 DaoCloud核心项目DaoCloud-docs的生态协作网络
![image](https://hackmd.io/_uploads/BkK8p678yx.png)
<center>图 3.9 DaoCloud-docs的生态协作网络 </center>
<br>
这个图是 DaoCloud 社区中 DaoCloud-docs 项目 的生态网络,旨在展示项目与其他项目、组织之间的相互联系,以及它们的开发活动和合作关系。
主要发现:
* 与 Kubernetes 的强联系:DaoCloud-docs 与多个 Kubernetes 相关项目(如 kubernetes/kubernetes、kubernetes/website)有较强的联系,这表明它在 Kubernetes 生态中扮演了重要角色。这种联系可能来自于 DaoCloud 对 Kubernetes 的深度使用、扩展或贡献。
* 与 Istio 的合作:DaoCloud-docs 与 Istio 项目也有显著的关联(如 istio/istio、istio/istio.io),说明其在服务网格技术上的协同作用。
* 其他合作伙伴:除了 Kubernetes 和 Istio,DaoCloud-docs 还与 GoogleCloudPlatform、Kubean-io 等多个项目有联系,显示了其在多云和容器技术中的活跃度。
#### 3.8.3 DaoCloud核心项目DaoCloud-docs的社区协作网络
![image](https://hackmd.io/_uploads/rJtT2i7Iyx.png)
<center>图 3.10 DaoCloud-docs的社区协作网络 </center>
<br>
这个图展示了 DaoCloud-docs 项目的社区网络(Project Community Network),通过开发活动和组织关联分析了项目社区的分布和组成。
主要发现
* 社区的核心力量:中国开发者和组织 是该项目社区的核心力量,主要的贡献者和关联组织均来自中国。开发者 windsonsea 和 samzong是贡献最多的个人,其提交的 PR 数量表明其在项目中的主导作用。windsonsea 今年还拿到了 CNCF 社区的年度“最佳技术文档奖” Top Documentarian(https://mp.weixin.qq.com/s/tdO2QhvE800TKy5RY7FCWw )。
* 国际化影响力:尽管社区的核心集中在中国,但该项目也得到了其他国家和地区开发者的关注,如美国和韩国,这表明 DaoCloud-docs 项目具有一定的国际化影响力。
* 组织协作:不同组织如 EMC 和 @DaoCloud 的参与显示了跨组织协作的特点,有助于提升项目的多样性和影响力。
DaoCloud-docs 项目社区展现出了显著的本地化特性,以中国的开发者和组织为主要贡献力量,同时也具有国际化的潜力。
#### 3.8.4 DaoCloud核心项目public-image-mirror的生态协作网络
![image](https://hackmd.io/_uploads/ByUmKTQIyg.png)
<center>图 3.11 public-image-mirror的生态协作网络 </center>
<br>
强连接的项目:
* kubesre/docker-registry-mirrors(连接强度:161)和 DigitalPlatDev/FreeDomain(连接强度:176)是与 public-image-mirror 项目联系最紧密的两个项目,可能是共同开发、资源共享或技术集成的结果。
* kubernetes/kubernetes(71)和 alibaba/nacos(52)也与其有显著关联,表明它们可能使用或依赖于该镜像项目。
* 与多个工具和镜像服务的协作:项目与 imdingtalk/image-mirror 和 langenius/dify 等镜像工具有较多互动,这表明 public-image-mirror 项目可能为这些工具提供了基础设施支持。
* 与其他核心项目的合作:DaoCloud/DaoCloud-docs 是与其关系密切的同属 DaoCloud 的另一个核心项目,可能协作于文档和配置相关的开发。
#### 3.8.5 DaoCloud核心项目public-image-mirror的社区协作网络
![image](https://hackmd.io/_uploads/rkpkTT7LJl.png)
<center>图 3.12 public-image-mirror的社区协作网络 </center>
<br>
主要贡献者:
* wzshiming 提交了大量 PR(279),是该项目的核心贡献者。
* 其他贡献者如 JaredTan95、yank1 和 cuisongliu 也通过 PR 和 Star 等形式为项目做出了显著贡献。
主要贡献来源:
* 中国(China) 是社区协作的主要来源,显示出该项目的本地化特性。
* 美国(United States) 和 台湾(Taiwan) 也参与了协作,表明项目具有一定的国际影响力。
## 四. 基金会洞察
作为非营利性开源组织,基金会在推动开源项目和社区的组织、发展以及协同创新中发挥了不可或缺的作用。它不仅为开源软件的孵化提供技术支持、运营管理和法律保障等全方位服务,还为社区建设和运营提供了科学指导,成为孵化器和加速器的结合体,为开源生态注入了持续发展的动力。基金会作为开源生态的重要组织者,其规范化的运作模式和资源整合能力,使其在连接开发者、企业与社区间发挥桥梁作用。本部分从基金会这一维度,对开源生态的发展进行分析,旨在通过数据洞察揭示基金会在开源生态中的核心地位和实际贡献。
### 4.1 全球基金会 OpenRank 趋势分析
![image](https://hackmd.io/_uploads/rkeUGpvUkg.png)
<center>图4.1 全球基金会 OpenRank 趋势</center>
<br>
* OpenAtom Foundation 的表现尤为突出,其影响力继续快速攀升,成为2024年的最大亮点。体现了其强大的生态扩展能力和项目影响力。
* 相比之下,CNCF(Cloud Native Computing Foundation) 和 Apache Software Foundation 的增长势头明显放缓,虽然仍保持较高影响力,但2024年 OpenRank 出现小幅下降,这可能反映了云原生技术进入成熟期,竞争加剧。
* 与此同时,Linux Foundation 继续保持稳健发展,展现出较强的稳定性。而 OpenJS Foundation、Hyperledger Foundation 等基金会波动不大。
2024年整体趋势表明,快速增长的基金会正在凭借创新技术和强大的社区生态获得市场认可,而成熟基金会则需要在保持现有优势的同时,寻找新的突破点来应对日益激烈的竞争。
### 4.2 全球基金会项目 OpenRank 趋势分析
![1736166415846](https://hackmd.io/_uploads/Hk3XnHYLkg.png)
<center>图4.2 全球基金会旗下项目 OpenRank 趋势</center>
* OpenHarmony/docs 项目影响力快速上升,OpenRank在2024年达到历史新高,可能得益于生态系统的扩展和社区活动的推动。
* 相比之下,Kubernetes/kubernetes 的OpenRank自2020年以来持续下降,2024年,其影响力进一步削弱,这可能与社区活跃度的降低或竞争对手的崛起密切相关。
* Apache/doris 是另一个值得关注的项目,其OpenRank在2024年继续保持稳步增长。这表明该项目在数据处理领域的表现持续受到用户和社区的认可.
* 同时,一些成熟的项目,如 Cilium/cilium 和 Envoyproxy/envoy,在2024年的表现相对平稳,OpenRank的波动较小。这说明这些项目已进入稳定发展阶段,影响力保持在一定水平。
### 4.3 基金会旗下中国项目 OpenRank 趋势分析
![a18348be5cb98244fce9cea2176de7b](https://hackmd.io/_uploads/rkUZXnP81l.png)
<center>4.3 基金会旗下中国项目 OpenRank 趋势</center>
<br>
2024 年基金会旗下中国项目中,头部项目快速增长,其他项目稳定发展。中国开源项目在不同技术领域展现了强劲的影响力和发展潜力。
* openharmony/docs 排名第一, OpenHarmony 的其他核心模块(如 graphic_graphic_2d、interface_sdk-js 和 xts_acts)也位列前茅,体现了 OpenHarmony 社区在推动生态建设方面的高度重视。这说明其在操作系统领域已构建出较为成熟和活跃的社区生态,核心组件获得了开发者的广泛关注和参与。
* 中国项目在数据库领域有展现了较高影响力。在分布式数据处理和存储领域,apache/doris 作为高性能分析型数据库项目,排名第二,显示出其在大数据和分析场景中的重要地位。此外,milvus-io/milvus 专注于向量数据库的开发、apache/flink 和 apache/shardingsphere 代表了国内开发者在实时计算和分布式数据库技术方向的创新能力。
* 此外,openeuler/kernel 作为 openEuler 的核心模块,是国内操作系统领域的代表性项目,反映了基础软件技术的持续进步和社区协作的成果。而 openharmony-sig/arkcompiler_runtime_core 则表明国内操作系统生态不仅关注内核开发,也注重编译器和运行时等关键技术的突破。
#### Linux 基金会旗下中国项目 OpenRank 趋势分析
![ed3fa71197713dc1e83a26286d75566](https://hackmd.io/_uploads/SJUYyTP8yl.png)
<center>图4.4 Linux 基金会旗下中国项目 OpenRank 趋势</center>
Linux 基金会作为全球开源社区的重要组织,中国项目的参与和发展可以反映中国在全球开源生态中的影响力。
* milvus-io/milvus 的项目的OpenRank 快速增长。Milvus 是由 Zilliz 公司发起并贡献给 Linux 基金会 AI & 数据子基金会(LF AI & Data Foundation) 的开源向量数据库项目,专注于处理非结构化数据(如图像、视频、音频和文本)的高效存储与检索,尤其适用于机器学习和人工智能相关场景。 milvus-io/milvus 2024 年在 Linux 基金会 OpenRank 排名中位列第六,展现了中国在大数据和人工智能领域的强劲影响力。
* 总体来看,大多数项目的 OpenRank 较低且变化不大,这种差异也为其他中国项目提供了启示:通过技术创新、市场适配和社区运营,增强项目的竞争力和生命力,才能在开源生态中保持长久的影响力。
### 4.4 开放原子基金会旗下项目 OpenRank 趋势分析
![image](https://hackmd.io/_uploads/ryBvZTwIkl.png)
<center>图4.5 开放原子基金会旗下项目 OpenRank 趋势
</center>
<br>
* OpenHarmony 继续稳居首位,其OpenRank指标较2023年增长显著,增幅接近70%,显示出其作为核心项目的强大吸引力。这种增长可能得益于其在智能设备和操作系统领域的广泛应用,以及社区对其的持续投入和支持。
* openEuler 紧随其后,2024年继续保持增长势头,OpenRank稳定增长。这表明其在开源操作系统领域的影响力持续扩大,并在云计算和企业应用中得到了进一步推广。
* Anolis OS 和 openKylin 在2024年的表现则相对平稳。尽管增长幅度不如前两者显著,但它们在特定领域仍具有竞争力。Anolis OS 主攻企业级Linux市场,而openKylin聚焦国产操作系统,均在其目标用户群中保持了一定的认可度。
* 其他项目如 Taro、UBML 和 PikwiDB 的openrank值较低,反映了这些项目的生态规模有限,或应用场景尚未广泛推广。
## 五. 技术领域洞察
技术领域的发展在开源技术中起着风向标的作用,众多技术子领域展现出快速的进步和变革:操作系统领域不断适配新架构,在开源社区中持续演化;云原生技术推动企业实现数字化转型,其开源项目生态活跃且增长迅速;数据库作为数据创新的核心基础设施,开源技术的广泛应用促进了多样化场景的突破;大数据领域依托开源工具,正为智能决策提供强大支撑;人工智能借助开源框架加速各行业的自动化进程;前端技术则通过开源项目推动交互体验与视觉设计的不断提升。这些领域以其开放性和创新性吸引了众多开发者与投资者的关注,本节将基于影响力和活跃度两大指标对其进行数据洞察分析。
### 5.1 各子领域近5年变化趋势
![image](https://hackmd.io/_uploads/H1tQ2s78yx.png)
<center>图5.1 OpenRank of Technology Category 2020-2024 </center>
<br>
![image](https://hackmd.io/_uploads/B1h7tT78Jl.png)
<center>图5.2 Activity of Technology Category 2020-2024 </center>
<br>
从各子领域近 5 年的变化趋势来看,云原生优势明显,该领域下仓库数量相对其他领域较多;AI 在近几年的快速发展中增速显著;数据库作为关键的基础软件,以其活跃性稳居前列;大数据热度在 2024 年略有下降;操作系统领域虽仓库数量较少,但其影响力逐年上升,展现出基础软件高价值的特性;前端领域的影响力则呈现逐年降低的趋势。
### 5.2 各领域 OpenRank Top 10项目近五年变化趋势
#### 大数据
![image](https://hackmd.io/_uploads/SJ3AnoXLJx.png)
<center>图5.3 OpenRank of Big data 2020-2024 </center>
<br>
![image](https://hackmd.io/_uploads/rJB76i7Iye.png)
<center>图5.4 Activity of Big data 2020-2024 </center>
<br>
大数据领域的双指标整体呈现上升趋势,其中 Kibana 和 Grafana 在影响力和活跃度上始终位居前二。值得注意的是,2023 年两者之间的差距逐渐缩小,而到了 2024 年,这一差距又开始扩大。此外,Clickhouse 和 Doris 在大数据领域的竞争也日益激烈。
Kibana 是一款开源的数据可视化与探索工具,与 ElasticSearch 无缝集成,支持对 ElasticSearch 数据的查询、分析和可视化。
Grafana 则是一款功能强大的开源数据可视化工具,广泛应用于监控与报告场景。它支持多种数据源,包括 Prometheus、InfluxDB 和 Graphite 等,能够生成多种类型的图表和仪表板,为用户提供灵活的数据展示与分析能力。
#### 数据库
![image](https://hackmd.io/_uploads/S1CT6jQI1l.png)
<center>图5.5 OpenRank of Database 2020-2024 </center>
<br>
![image](https://hackmd.io/_uploads/SJpRTsmLyg.png)
<center>图5.6 Activity of Database 2020-2024 </center>
<br>
ClickHouse 数据库双指标持续稳定增长,ElasticSearch 重回榜单前三,Doris 的增速虽有所放缓,但活跃度指标已接近第一,预计其双指标未来有望超越 ClickHouse。此外,YDB 增速显著,在 2024 年成功进入榜单前十。
ClickHouse 是由俄罗斯 Yandex 公司开源的一款基于 MPP 架构的高性能分析引擎,其向量化执行引擎使其号称比传统事务型数据库快 100-1000 倍,同时具备丰富的功能和极高的可靠性。
Apache Doris 是百度贡献的开源 MPP 分析型数据库产品,具有简洁的分布式架构,便于运维,广泛应用于高效的实时分析场景。
YDB 作为开源项目于 2020 年发布,旨在提供支持 ACID 事务的高效分布式数据库解决方案,尤其适合高并发和分布式应用场景。YDB 的设计和开发旨在解决 Yandex 自身的技术挑战,随着开源后,它吸引了越来越多的开发者和企业的关注,并成为了现代分布式数据库领域的一部分。
#### 操作系统
![image](https://hackmd.io/_uploads/BJkUCjQ8Jl.png)
<center>图5.7 OpenRank Operating System 2020-2024 </center>
<br>
![image](https://hackmd.io/_uploads/HkX_Rj78Jx.png)
<center>图5.8 Activity of Operating System 2020-2024 </center>
<br>
可以看到,OpenHarmony 项目下的多个仓库位居榜单前十。本次洞察结合了 Gitee 平台的数据,更直观地展现了国产操作系统的多方面优势。此外,OpenEuler Kernel 项目也表现不俗。
#### 云原生
![image](https://hackmd.io/_uploads/r170Ro78yl.png)
<center>图5.9 OpenRank of Cloud Native 2020-2024 </center>
<br>
![image](https://hackmd.io/_uploads/H1zJ1hXL1x.png)
<center>图5.10 Activity of Cloud Native 2020-2024 </center>
<br>
LLVM-Project 增速显著,双指标位居第一;Grafana 增速放缓,排名第二;Kubernetes 双指标下降明显,其余项目竞争激烈。
LLVM 是一个模块化、可重用的编译器框架和工具链技术的集合,近 3 年来活跃度增长迅速,深受广大开发者喜爱。
#### 前端
![image](https://hackmd.io/_uploads/HJQq12X8Jx.png)
<center>图5.11 OpenRank of Frontend 2020-2024 </center>
<br>
![image](https://hackmd.io/_uploads/Bktj1nmLJe.png)
<center>图5.12 Activity of Frontend 2020-2024 </center>
<br>
Flutter 虽然双指标逐年下降,但相较于 Next.js 仍具明显优势。Next.js 自 2023 年起表现亮眼,增速显著,但在 2024 年有所回落;排名 3-10 的项目竞争激烈,差距较小。
Flutter 是由 Google 开发的框架,前端和全栈开发人员可使用它通过单一代码库为多个平台构建用户界面。
Next.js 是由 Vercel 创建的开源框架,基于 Node.js 和 Babel 构建,设计与 React 单页应用框架配合使用,同时提供预览模式、快速开发编译和静态导出等实用功能。
#### 人工智能
![image](https://hackmd.io/_uploads/SJFzg2Q81g.png)
<center>图5.13 OpenRank of AI 2020-2024 </center>
<br>
![image](https://hackmd.io/_uploads/BJdXxhQLye.png)
<center>图5.14 Activity of AI 2020-2024 </center>
<br>
自 2020 年起,TensorFlow 的双指标持续下滑,至 2024 年已跌出 OpenRank 榜单前十。相比之下,PyTorch 稳步增长,与其他项目的差距逐步拉大。值得一提的是,LangChain 自 2022 年开源后双指标一直稳居前三,尽管 2024 年热度略有回落,但其影响力依然显著。同时,vllm 增速显著,超越 LangChain 位居第二,而 Huggingface/Transformers 项目则保持双指标的稳定增长。
LangChain 是 Harrison Chase 于 2022 年 10 月推出的开源项目,已成为 LLM 开发中备受欢迎的框架之一。
vllm-project/vllm 是一个高效、可扩展的分布式推理框架,专为大规模语言模型(LLM)的高效推理优化而设计。近 3 年活跃度显著增长,深受开发者喜爱。
### 5.3 各领域OpenRank Top 10 榜单
下面再给出 2024 年各领域的项目 OpenRank 排行榜。
![image](https://hackmd.io/_uploads/SJq6827Ikx.png)
<center>图5.15 大数据领域OpenRank TOP 10 榜单 </center>
<br>
![image](https://hackmd.io/_uploads/H1Kj_nmIkg.png)
<center>图5.16 数据库领域OpenRank TOP 10 榜单 </center>
<br>
![image](https://hackmd.io/_uploads/rkQCO37Lyg.png)
<center>图5.17 操作系统领域OpenRank TOP 10 榜单 </center>
<br>
![image](https://hackmd.io/_uploads/By-sPh7Ikx.png)
<center>图5.18 云原生领域OpenRank TOP 10 榜单 </center>
<br>
![image](https://hackmd.io/_uploads/Skj6t2mI1x.png)
<center>图5.19 前端领域OpenRank TOP 10 榜单 </center>
<br>
![image](https://hackmd.io/_uploads/H1My93Q8kl.png)
<center>图5.20 人工智能领域OpenRank TOP 10 榜单 </center>
<br>
## 六. 开源项目洞察
2024年,开源项目在经历了AI大模型、生成式AI的快速发展后逐渐呈现平稳演进的态势,以及在数据库领域的稳步发展后,呈现出新的活力。本章节从开源项目的视角出发,深入分析了项目的多维度数据,以获得更全面的洞察。通过对开源项目的Topic进行统计分析,揭示了全球开源社区在2024年的共同兴趣点。
### 6.1 项目类型
本小节选取了 GitHub 活跃度排名前 10,000 的仓库数据进行统计分析。
#### 6.1.1 不同项目类型数量比例
![App-Proportion](https://hackmd.io/_uploads/BkTufhQUJx.png)
<center>
图 6.1 不同项目类型数量比例
</center>
<br>
- Application Software(应用软件):用蓝色表示,占据了饼图的24.3%,这表明应用软件在所分析的数据集中占有相当的比例,反映出应用软件在软件生态中的重要性。
- Libraries and Frameworks(库和框架):用橙色表示,占比最大,达到31.4%。这显示了库和框架在软件开发中的广泛应用,它们为开发者提供了构建应用的基础设施和工具。
- Non Software(非软件):绿色部分,占23.2%。这一类别可能包括与软件直接开发不相关的项目,如文档、设计资源或其他非代码资产。
- Software Tools(软件工具):红色部分,占18.9%。这类工具可能包括编译器、调试器、版本控制系统等,它们是软件开发过程中不可或缺的辅助工具。
- System Software(系统软件):紫色部分,占比最小,仅为2.3%。这可能包括操作系统、驱动程序等,它们是计算机系统运行的基础,但在这个数据集中所占比例较小。
#### 6.1.2 不同项目类型 OpenRank 加总比例
![APP-Openrank-Propotion](https://hackmd.io/_uploads/HkpKM2QL1e.png)
<center>
图 6.2 不同项目类型2024年 OpenRank 加总比例
</center>
<br>
结合2024年的 OpenRank 影响力视角再看这几个类别:
- 最大的变化,就是内容资源类型(Non Software)项目虽然在活跃项目的数量上占比较多,但其2024年的影响力相对较低;
- 而系统软件类型(System Software)虽然活跃项目数量上占比很少,但其2024年的影响力占比相对更多;软件工具类型(Software Tools)项目也有类似的现象;
- 组件框架类型和应用软件类型则没有太多变化,都是属于占比较多的类型。
#### 6.1.3 不同项目类型近 5 年 OpenRank 变化趋势
<!-- ![App-Openrank](https://hackmd.io/_uploads/HyxsfnmIJx.png) -->
![App-Openrank](https://hackmd.io/_uploads/BkQMgA7U1e.png)
<center>
图 6.3 不同项目类型近 5 年 OpenRank 变化趋势
</center>
<br>
从上面的五年 OpenRank 演化图上可以看得出来,系统软件类型(System Software)的影响力逐年升高,软件工具(Software Tools)影响力在今年略有下降,库和框架(Libraries and Frameworks)、应用软件(Application Software)整体呈下降趋势,而内容资源类型(Non Software)项目的影响力比例是在逐年下降。
### 6.2 项目 Topic 分析
本节同样选取 GitHub OpenRank排名前 10,000 的仓库数据进行分析,并获取仓库下的 Topic 标签进行深入洞察。
#### 6.2.1 热门 topic
![projectTopic-plot](https://hackmd.io/_uploads/SJijGnQIJg.png)
<center>
图 6.4 出现次数前十的 Topic
</center>
<br>
前十的主题涵盖了多个领域,反映了开源社区的广泛兴趣。其中,hacktoberfest是GitHub上的一个开源活动,鼓励开发者贡献代码,以1132次的出现次数遥遥领先,显示诸多项目对开发者的欢迎。Python、JavaScript、TypeScript、Java和Rust等Topic数量表现了这些语言受到了开源软件开发的青睐。此外,kubernets和machine-learning等是在开源中具有较高关注度的Topic。
#### 6.2.2 热门 Topic 的仓库总 OpenRank 趋势
![topicOpenrank-plot](https://hackmd.io/_uploads/SJUnzhQI1e.png)
<center>
图 6.5 出现次数前十的 Topic 下仓库的 OpenRank 变化 (2019 - 2023)
</center>
<br>
- 从2020至2024年,Hacktoberfest的OpenRank显著增长,表现突出。Hacktoberfest的目标是鼓励更多人参与开源项目,它反映了人们对于开源项目、社区参与和贡献的热情。
- Python和React稳步上升,反映其流行度。JavaScript和TypeScript增长稳定,显示前端以及应用开发的持续需求。
- Kubernetes和Machine Learning增长,体现云和AI领域的发展。
- 其他如Java、Rust、Android增长平缓,显示成熟技术市场的稳定。
### 6.3 数据库领域项目分析
本小节依据 [Database of Databases](https://dbdb.io/) 及 [DB-Engines Ranking](https://db-engines.com/en/ranking) 中公开的开源数据库信息,将该领域按数据库的存储结构及用途划分为 Relational、Key-value、Document、Wide Column、Search Engine、Time Series、Vector、Graph、Object Oriented、Hierarchical、RDF、Array、Event、Spatial、Columnar、 Native XML、Content 18 个子类,收集并分析其在 GitHub 上的相应数据库开源项目的协作日志数据。
#### 6.3.1 数据库各子领域近五年增长趋势
![3-1](https://hackmd.io/_uploads/r1epGh7Ikx.png)
<center>
图 6.6 数据库各子领域 2020 - 2024 年 OpenRank 变化趋势
</center>
<br>
![3-2](https://hackmd.io/_uploads/SJDTz3mL1x.png)
<center>
图 6.7 数据库各子领域 2020 - 2024 年 活跃度变化趋势
</center>
<br>
+ 数据库各子领域的发展相对平稳,在过去的五年中,关系型数据库独占鳌头。在2024年虽然发展相对放缓,但依然展现了足够的统治力
+ 键值类型数据库在2024年的影响力与活跃度有所降低,并且在一定程度上被文档型数据库追平甚至有所超越。
+ 文档行数据库在过去的发展中保持了稳定的上升。前三名的数据库子领域的两项指标累计均占数据库领域两项指标的 70% 以上。
+ 数据库作为一个从计算机诞生时起就一直存在的领域,在近五年的发展中保持的平稳的态势。可以预见的是,在未来的相当长一段时间中,数据库的发展依然会是以关系型数据库为主,其他各类非关系型数据库为重要分支的发展趋势。
<!-- #### 6.3.2 开源数据库项目 OpenRank 和活跃度 Top 10 变化趋势
与5.2重复
![3.3](https://hackmd.io/_uploads/SyWjhh7Ikg.png)
<center>图 6.20 开源数据库 领域 活跃度 Top 10 项目近 5 年变化趋势</center>
![3.4](https://hackmd.io/_uploads/Byzsnn7I1e.png)
<center>图 6.20 开源数据库 领域 OpenRank Top 10 项目近 5 年变化趋势</center>
+ ClickHouse以其优秀的大数据处理能力稳居2024年活跃度以及影响力榜首。
+ Apache基金会相关两个项目进入Top10,显示了其项目的卓越影响力以及Apache基金会在世界开源领域的重要地位。
+ ydb在2023年以来其各项指标有了明显的提升,期待其在2025的进一步发展。 -->
#### 6.3.2 数据库子领域 OpenRank 榜单和活跃度榜单及占比
<center>
表 6.1 数据库子领域 OpenRank 排行
</center>
<br>
| 排名 | 子领域名称 | OpenRank |
| :--: | :-------------: | :------: |
| 1 | Relational | 55635.51 |
| 2 | Document | 18384.45 |
| 3 | Key-value | 18376.55 |
| 4 | Wide Column | 11294.02 |
| 5 | Search Engine | 7589.15 |
| 6 | Time Series | 7120.22 |
| 7 | Vector | 5208.63 |
| 8 | Graph | 4281.4 |
| 9 | Object Oriented | 3557.65 |
| 10 | Hierarchical | 1036.42 |
| 11 | RDF | 433.08 |
| 12 | Array | 344.02 |
| 13 | Event | 281.65 |
| 14 | Spatial | 239.08 |
| 15 | Columnar | 228.52 |
| 16 | Native XML | 132.76 |
| 17 | Content | 25.65 |
![newplot](https://hackmd.io/_uploads/rkJOlSqIkg.png)
<center>图 6.8 数据库领域各子领域 OpenRank 加总比例</center><br />
<center>
表 6.2 数据库子领域 活跃度排行
</center>
<br>
| 排名 | 子领域名称 | activity |
| :--: | :-------------: | :-------: |
| 1 | Relational | 165677.16 |
| 2 | Document | 57491.37 |
| 3 | Key-value | 56071.49 |
| 4 | Wide Column | 32835.39 |
| 5 | Search Engine | 24881.79 |
| 6 | Time Series | 22610.51 |
| 7 | Vector | 17463.42 |
| 8 | Graph | 13128 |
| 9 | Object Oriented | 10190.06 |
| 10 | Hierarchical | 3021.28 |
| 11 | RDF | 1405.37 |
| 12 | Array | 1009.34 |
| 13 | Spatial | 812.11 |
| 14 | Event | 735.62 |
| 15 | Columnar | 568.63 |
| 16 | Native XML | 549.4 |
| 17 | Content | 77.83 |
![newplot (1)](https://hackmd.io/_uploads/HyVTxSqUJe.png)
<center>图 6.9 数据库领域各子领域 Activity 加总比例</center>
从数据库领域各子领域 2024 年的 OpenRank 和活跃度排行可以看出:
- Relational、Key-value、Document 在以上两项指标中都稳据前三,前三名的数据库子领域的两项指标累计均占数据库领域两项指标的 70% 以上;
- Relational 的各项指标超过了第二至第五名的总和,其两项指标均占数据库领域两项指标的 40% 以上,是一个超大子类。
- Columnar作为新加入榜单的数据库项目发展势头迅猛
- 向量数据库在2024年也有了显著的提升。
#### 6.3.3 数据库领域各子领域下项目的开源象限图
开源象限图共涉及三个度量指标:Activity、Openrank、CommunityVolume。 其中 CommunityVolume 与 open-digger 中的 Attention 指标计算公式相同,即对一定时间内目标项目的 star 数和 fork 数的加权求和:`sum(1*star+2*fork)`。
象限图绘制方法:
1. 把每个数据库子类按 activity 选取 Top 10 的项目;
2. 做出 `log(openrank)-log(communityvolume)` 的 `log(x)-log(y)` 散点图, log 的底数均为 2,分别表示空间影响力 openrank 与时间影响力 communityvolume 衰减到 1 所需的半衰次数;
3. 以图上所有点的横坐标均值所对应的纵向线作为纵轴,以图上所有点的纵坐标均值所对应的横向线作为横轴划分为四个象限。
数据库领域子类标签共计18个,选取2023年活跃度占比超过1%的类别:Relational、Key-value、Document、Wide Column、Search Engine、Time Series、Vector、Graph、Object Oriented,统计分析并绘制开源象限图如下:
![image](https://hackmd.io/_uploads/Hko7VHcLkx.png)
<center>图 6.10 数据库各子领域 Activity Top 10象限图</center><br />
![image](https://hackmd.io/_uploads/Hy59VBcIJl.png)
<center>图 6.11 Relational数据库 Activity Top 10象限图</center><br />
![image](https://hackmd.io/_uploads/S1oA4SqU1e.png)
<center>图 6.12 Key-value数据库 Activity Top 10象限图</center><br />
![image](https://hackmd.io/_uploads/SJMGSHcIyg.png)
<center>图 6.13 Document数据库 Activity Top 10象限图</center><br />
![image](https://hackmd.io/_uploads/HyjSSHcUJx.png)
<center>图 6.14 Wide Column数据库 Activity Top 10象限图</center><br />
![image](https://hackmd.io/_uploads/r1wcBr9Ikx.png)
<center>图 6.15 Search Engine数据库 Activity Top 10象限图</center><br />
![image](https://hackmd.io/_uploads/rJAprSqLkg.png)
<center>图 6.16 Time Series数据库 Activity Top 10象限图</center><br />
![image](https://hackmd.io/_uploads/r1ixIHq8kg.png)
<center>图 6.17 Vector数据库 Activity Top 10象限图</center><br />
![image](https://hackmd.io/_uploads/ryOVIH9LJe.png)
<center>图 6.18 Graph数据库 Activity Top 10象限图</center><br />
![image](https://hackmd.io/_uploads/Hy1rLHq8yx.png)
<center>图 6.19 Object Oriented数据库 Activity Top 10象限图</center><br />
搜索引擎类两极分化严重,既有像 ElasticSearch 这样 OpenRank 和 CommmunityVolume 都很高的项目,又有像 lucene-solr 和 Xapian 这样 OpenRank 和 CommmunityVolume 都相对很低的项目。
从第一象限看出:relational、document、searchengine、vector、wide_column 都是 openrank 影响力较强且 CommmunityVolume 关注度也较强的数据库类型,而 object_oriented、graph 则在两方面相对较弱。
从活跃度 Top 9 子类数据库的开源象限图中的纵向分布可以看出:key_value、search_engine 两个子类的valkey、meilisearch等项目的 CommmunityVolume 相较于 OpenRank 更高,有较高的社区声量,相比于其他的子类有较快的发展期望。vector子类的Top10项目CommmunityVolume与 OpenRank 的log-log值线性相关性较好,社区声量与协作影响力比较均衡。
#### 6.3.4 开源数据库项目工作活跃时间分析
此处将根据开源数据库项目 OpenRank Top 30 在 2024 全年中的事件按事件分布情况的打孔数据,观察项目的工作时间分布情况。
![box-plot](https://hackmd.io/_uploads/SkMCz2mIyg.png)
<center>
图 6.20 数据库开源项目工作时间箱型图
</center>
<br />
![violin-plot](https://hackmd.io/_uploads/Hka0M3mUkx.png)
<center>
图 6.21 数据库开源项目工作时间小提琴图
</center>
<br />
+ 上述图例反应了OpenRank Top30的数据库开源项目的工作时间信息,通过这些信息,我们可以更加直观的洞察数据库领域项目的工作时间分布规律。
+ 根据箱型图的时间分布数据可以看出,绝大多数的数据库项目的中位数工作时间都集中在2-5的时间段。活跃时间有同一性
+ 根据小提琴图图进行更细致的时间分析可以发现,在2时间段左右的时间中,数据库项目普遍最活跃。并且大部分项目都存在两个峰值工作时间,一个主峰一个次峰。可能与大部分数据库类型的项目都存在公司背景有关系。
![image](https://hackmd.io/_uploads/rk4OdB5I1g.png)
<center>
图 6.22 数据库开源项目工作时间打点图
</center>
<br />
可以看出数据库开源项目的工作时间主要集中在周一 ~ 周五的UTC时间2时 ~ 10时。
### 6.4 生成式 AI 领域项目分析
在经历了新的一年的行业发展,生成式AI展现了新的发展样态。总的来说,在2024年AIGC领域全域发展都进入了放缓时期。这可能是因为生成式AI尤其是大模型领域的发展需要海量的资金与算力资源投入。在2022-2023年的增量竞争之后,2024年,AI的发展进入了存量市场的竞争。并且由于各家AI产品的基本构建已经完成,因此其发展趋势也逐渐进入了产品形态的变化而不是扩张时期。并且随着各种头部项目的落地以及应用,我们认为2025年的生成式AI发展也会进入新的平衡时期。
#### 6.4.1 生成式AI各子领域近五年增长趋势
![3](https://hackmd.io/_uploads/SJJzQhQ81e.png)
<center>图 6.23 生成式 AI 各子领域 2020 - 2024 年 OpenRank 变化趋势</center>
<br>
![4](https://hackmd.io/_uploads/B1vfX3X81g.png)
<center>图 6.24 生成式 AI 各子领域 2020 - 2024 年 活跃度 变化趋势</center>
<br>
+ 对于不同种类别的划分的分类分析,各类生成式AI项目的活跃度与影响力都出现了一定程度的回落。
+ 工具类AIGC开源项目的影响力与活跃度均显著高于模型类和应用类
+ 模型类项目影响力自 2022 年开始增长迅速,在 2023 年超过基础类,整体呈现上升趋势,代表着 2023 年是 AIGC 创新应用开发的大爆发之年,而2024年发展放缓,这可能体现了在过去一段时间中,生成式AI的发展相对趋于稳定。
#### 6.4.2 生成式 AI 领域项目 OpenRank 和活跃度 Top 10 变化趋势
![1](https://hackmd.io/_uploads/B1fX7hm8kg.png)
<center>图 6.25 生成式 AI 领域 OpenRank Top 10 项目近 5 年变化趋势</center>
<br>
![2](https://hackmd.io/_uploads/B1wXm3mUye.png)
<center>图 6.26 生成式 AI 领域 活跃度 Top 10 项目近 5 年变化趋势</center>
<br>
- vllm 影响力和活跃度双排名第一,备受开发者的关注;
- langchain 的影响力以及活跃度排名在新的一年有所回落,但是依然保持了相当高的排名。
- transformers 作为从问世以来的新时代AI的基石,在最新一年中依然保持了极高的关注度,面对新的诸如mamba等最新架构的挑战,transformer依然是当下大模型AI的核心。
- stable-diffusion-webui在2023年展现了非常强大的发展势头,曾被认为是transformer的有力挑战者,但其在2024年的各种指标的发展都有所降低,依然没有动摇transformer的地位。
- Langchain-Chatchat作为一个本地部署的知识库,在2024年依然保持了稳定上升的发展态势。
#### 6.4.3 2024 年生成式 AI 领域项目 OpenRank 和活跃度 Top 10 榜单
<center>
表 6.3 生成式 AI 领域 OpenRank 度排行
</center>
<br>
| 排名 | 项目名称 | OpenRank |
| ---- | --------------------------------- | -------- |
| 1 | vllm-project/vllm | 4611 |
| 2 | huggingface/transformers | 4212.26 |
| 3 | langchain-ai/langchain | 4292.13 |
| 4 | ggerganov/llama.cpp | 3110.07 |
| 5 | run-llama/llama_index | 2665.89 |
| 6 | milvus-io/milvus | 1955.52 |
| 7 | facebookincubator/velox | 1641.14 |
| 8 | chatchat-space/Langchain-Chatchat | 1097.79 |
| 9 | microsoft/DeepSpeed | 983.42 |
| 10 | invoke-ai/InvokeAI | 971.2 |
<center>
表 6.4 生成式 AI 领域 活跃度排行
</center>
<br>
| 排名 | 项目名称 | OpenRank |
| ---- | ------------------------------------ | -------- |
| 1 | vllm-project/vllm | 17556.02 |
| 2 | langchain-ai/langchain | 16413.39 |
| 3 | huggingface/transformers | 14454.74 |
| 4 | ggerganov/llama.cpp | 10599.61 |
| 5 | run-llama/llama_index | 10272.5 |
| 6 | milvus-io/milvus | 6978.76 |
| 7 | facebookincubator/velox | 4832.71 |
| 8 | chatchat-space/Langchain-Chatchat | 4315.73 |
| 9 | AUTOMATIC1111/stable-diffusion-webui | 3782.55 |
| 10 | getcursor/cursor | 3579.97 |
## 七. 开发者洞察
开发者是开源生态持续发展的核心驱动力,他们不仅是创新的生产者和推动者,也是开源社区协作机制的基石。开发者的整体数量规模、贡献活跃度及协作方式,对开源项目的繁荣和发展产生了深远影响。本节将通过全球视角,基于个体开发者的数据展开深入洞察,同时提供国家和地区层面的分析,以呈现全球开源开发者的分布格局和趋势变化。
### 7.1 开发者的地区分布
2024年的分析延续了以往的研究方法,但基于更丰富和精细化的数据来源。此次研究覆盖了 GitHub 上 1200 万活跃开发者的样本,其中 正确填写地理位置信息的开发者约为 255 万人,占 GitHub 全域注册用户总量(约 1.2 亿)的 2%。尽管数据仅为全体注册用户的一个子集,但这一样本量的增长以及开发者数据质量的提升,为分析全球开发者的地理分布及区域协作模式提供了更具代表性的视角。
#### 7.1.1 GitHub 活跃开发者地理分布
首先将 GitHub 上活跃开发者数量在地图上进行可视化分析,如下图所示。
<img width="1195" alt="image" src="https://github.com/user-attachments/assets/668c90c4-f668-4430-bc1b-a7474eebd99d" />
<center>图 7.1 2024 全球开发者分布图</center>
从地图中可以清晰地感受到 GitHub 开发者的地理位置分布呈现出显著的区域特点。在人口密集且互联网基础设施发展较为完善的地区,例如中国的沿海城市群、欧洲各主要经济体、美国的东西海岸科技聚集区、印度的高科技产业集中区域,以及巴西东南部的大城市带,开发者的分布尤为集中。这些地区通常既拥有大规模的技术人才储备,又有成熟的科技产业生态,为开源开发活动提供了良好的环境支持。
相比之下,在居住人口较为稀少或互联网发展水平相对滞后的区域,例如广袤的沙漠、山地和极地地区,开发者的分布显得较为零散甚至罕见。这种分布规律不仅反映了技术人才与资源的全球分布现状,也从一定程度上揭示了数字经济发展的不平衡性。
值得注意的是,一些新兴经济体中的特定区域,例如东南亚、非洲的部分国家,也开始涌现出越来越多的活跃开发者。这表明,随着全球互联网普及率的提高和科技教育的普及,开源开发活动正在逐渐从传统的核心技术区域向更多新兴市场扩展,为全球开源生态注入了新的活力与多样性。
<br>
<img width="1189" alt="image" src="https://github.com/user-attachments/assets/f28d26f5-07f0-47a6-a571-b18b6252d241" />
<center>图 7.2 2024 中国开发者分布图</center>
<br>
#### 7.1.2 GitHub 活跃开发者国家 / 地区分布
<img width="795" alt="image" src="https://github.com/user-attachments/assets/bb313a67-eaf5-4fb4-a6ab-580267f0d2a8" />
<center>图 7.3 2024 全球 GitHub 活跃开发者国家 / 地区分布图</center>
<br>
<center>表 7.1 2024 全球活跃开发者数量国家 / 地区排名</center>
<br>
| 排名 | 国家 | 2024年数量 | 2023年数量 | 增长数量 | 增长率 (%) |
|------|----------------|-------------|-------------|----------|----------|
| 1 | United States | 435,202 | 236,899 | 198,303 | 83.71 |
| 2 | India | 252,054 | 107,067 | 144,987 | 135.42 |
| 3 | China | 184,085 | 113,893 | 70,192 | 61.63 |
| 4 | Brazil | 174,811 | 83,932 | 90,879 | 108.28 |
| 5 | Germany | 126,397 | 64,836 | 61,561 | 94.95 |
| 6 | United Kingdom | 103,061 | 55,175 | 47,886 | 86.80 |
| 7 | Canada | 82,627 | 42,238 | 40,389 | 95.62 |
| 8 | France | 78,288 | 40,341 | 37,947 | 94.08 |
| 9 | Russia | 60,735 | 31,534 | 29,201 | 92.60 |
| 10 | South Korea | 44,006 | 21,811 | 22,195 | 101.77 |
从表格数据中可以看出,2024年全球主要国家的 GitHub 开发者数量较2023年均有显著增长。所有列入统计的国家均在2024年实现了开发者数量的明显增长,这表明全球开源生态的活跃度进一步提升。增长的驱动因素可能包括互联网普及率的提高、技术教育的普及、以及更多企业和个人参与开源项目的意愿增强。
- 印度 的增长率高达 135.42%,成为增长最快的国家,2024年的开发者数量比2023年增加了近 145,000 人。这一增长表明印度正在逐步成为全球开源社区的重要力量,其快速发展的科技产业可能是主要推动力。
- 巴西 紧随其后,增长率为 108.28%,新增开发者人数接近 91,000 人。这种高速增长可能反映了拉丁美洲地区互联网和技术教育的普及加速。
- 韩国 虽然总量排名靠后,但其增长率达到了 101.77%,显示出这一地区开发者群体的快速扩张。
- 美国 仍然是全球最大的开源开发者来源地,2024年的开发者数量达到了 435,202 人,相比2023年增加了近 200,000 人,增长率为 83.71%。美国的持续增长巩固了其在全球开源领域的主导地位。
- 中国 以 184,085 人 的数量排名第三,增长率为 61.63%,新增开发者超过 70,000 人。虽然增长率略低于一些新兴国家,但仍保持了稳健增长。
<img width="743" alt="image" src="https://github.com/user-attachments/assets/dc407c46-92ad-4209-b64d-851f66869b0e" />
<center>图 7.4 2024 中国 GitHub 活跃开发者地区分布图</center>
<br>
<center>表 7.2 2024 中国活跃开发者数量地区排名</center>
<br>
| 排名 | 地区 | 2024数量 | 2023数量 | 增长数量 | 增长率 (%) |
|------|------|---------|---------|---------|----------|
| 1 | 北京 | 38,323 | 24,151 | 14,172 | 58.69 |
| 2 | 上海 | 28,393 | 18,215 | 10,178 | 55.86 |
| 3 | 广东 | 24,959 | 16,153 | 8,806 | 54.51 |
| 4 | 台湾 | 15,894 | 8,823 | 7,071 | 80.15 |
| 5 | 浙江 | 15,816 | 10,927 | 4,889 | 44.74 |
| 6 | 江苏 | 9,369 | 5,437 | 3,932 | 72.34 |
| 7 | 四川 | 8,186 | 5,311 | 2,875 | 54.14 |
| 8 | 香港 | 6,625 | 3,344 | 3,281 | 98.10 |
| 9 | 湖北 | 5,732 | 3,273 | 2,459 | 75.13 |
| 10 | 陕西 | 3,669 | 1,993 | 1,676 | 84.11 |
这张表格展示了中国各地区 GitHub 开发者数量在2023年至2024年间的变化情况,包括开发者总量、增长数量和增长率。
- 北京、上海和广东稳居前三位,分别拥有 38,323、28,393 和 24,959 名开发者。这三个地区作为中国的核心科技和经济中心,吸引了大量技术人才,也成为开源生态的主要贡献者。台湾 和 浙江 分列第四和第五,分别拥有 15,894 和 15,816 名开发者,展现了在两岸科技发展中的重要地位。
- 北京 以新增 14,172 名 开发者的绝对增长量位居榜首,其增长率为 58.69%,说明作为中国科技创新中心,北京仍然在快速扩充其技术人才队伍。香港 的增长率达到了惊人的 98.10%,接近翻倍,新增 3,281 名 开发者。这表明香港的开源开发生态正在迅速崛起,可能与该地区在科技和国际化方面的战略布局有关。
- 华北、华东和华南 地区的开发者总量占据明显优势,例如北京、上海、广东和浙江。作为中国经济最发达的区域,这些地方的互联网产业发展水平较高,为开源贡献提供了有力支持。中西部地区 的开发者数量相对较少,但增长率较快。例如,陕西 和 湖北 分别新增 1,676 和 2,459 名开发者,增长率均超过 75%,显示出中西部地区技术力量的快速崛起。
### 7.2 开发者工作时间分析
本小节对 GitHub 及 Gitee 开发者工作时间进行分析。本节时间默认使用 UTC 区时,相比东八区滞后 8 小时。数据默认使用 min-max 方法放缩到 [1-10] 区间,时区图中圆点面积越大代表数值越高。
#### 7.2.1 全域开发者工作时间分布
**GitHub 全域开发者工作时间分布**
<img width="1003" alt="image" src="https://github.com/user-attachments/assets/a87be22b-c8f0-444b-ad13-1f92e20761e8" />
<center>图 7.5 GitHub 全域开发者工作时间分布</center>
<br>
通过统计 GitHub 全域开发者的工作时间分布,可以发现开发者的活跃时段主要集中在 6点至21点之间,而 12点达到一个显著高峰,这可能与定时任务的触发有关。此外,周六和周日的活跃度相对较低,显示出开发者在周末的工作频率有所下降。
**Gitee 全域开发者工作时间分布**
<img width="1003" alt="image" src="https://github.com/user-attachments/assets/6bcd76ea-6205-4582-b54a-e76943080666" />
<center>图 7.6 Gitee 全域开发者工作时间分布</center>
<br>
从数据中可以明显看出,Gitee 平台的开发者活跃时间更加符合东八区的作息规律。这种特征与 Gitee 作为中国本土代码托管平台的用户群体分布息息相关。由于 Gitee 的主要用户集中在中国及东亚地区,其开发者的活跃时间分布反映了该地区普遍的工作和生活节奏。
具体来看,开发者的工作时间高峰通常出现在 早晨9点至晚上8点之间,与东八区的标准工作时间基本重合。同时,在中午和晚餐时间段活跃度略有下降,这进一步说明开发者的工作习惯与东亚地区的日常作息保持一致。此外,与全球化平台(如 GitHub)相比,Gitee 数据中周末的开发者活跃度下降更为显著,这可能反映了中国开发者在周末更倾向于休息或从事非工作相关活动的文化特征。
**除去机器人的全域开发者时间分布**
<img width="1001" alt="image" src="https://github.com/user-attachments/assets/e371f8d0-a841-46d6-84f0-9c11dfb4daaa" />
<center>图 7.7 除去机器人的全域开发者时间分布</center>
<br>
在剔除机器人数据后,开发者的工作时间分布呈现出更加真实和自然的规律。数据显示,开发者的活跃时段主要集中在 6点至21点之间,这个时间区间内的活动量显著增加,并且分布更加均匀。这表明,在排除自动化行为的干扰后,开发者的工作习惯和实际活动轨迹更加清晰地反映出来。
这种分布特征与人类开发者的日常作息高度吻合,通常对应于早晨到晚间的工作时间段。这一规律说明,绝大多数开发者倾向于在一天的主要工作时段进行代码编写、协作以及开源项目的贡献,而在深夜和凌晨时间段的活跃度则明显下降。此外,工作时间的均匀分布可能表明,开发者的任务处理节奏更为平稳,避免了过度集中在某些特定时间点的爆发式行为。
#### 7.2.2 项目工作时间分布
##### 全球 GitHub 仓库 OpenRank 前四名工作时间分布
1. [NixOS/nixpkgs](https://github.com/NixOS/nixpkgs)
<img width="1004" alt="image" src="https://github.com/user-attachments/assets/0d99a62a-c89c-49f5-98bc-73cd1d35c872" />
<center>图 7.8 NixOS/nixpkgs 2024 年工作时间打点图</center>
<br>
2. [llvm/llvm-project](https://github.com/llvm/llvm-project)
<img width="1005" alt="image" src="https://github.com/user-attachments/assets/c303f4b5-6841-4e0e-b22f-cc96859da22e" />
<center>图 7.9 llvm/llvm-project 2024 年工作时间打点图</center>
<br>
3. [home-assistant/core](https://github.com/home-assistant/core)
<img width="1003" alt="image" src="https://github.com/user-attachments/assets/6eb34367-dffe-4e65-8692-4a68acd8a792" />
<center>图 7.10 home-assistant/core 2024 年工作时间打点图</center>
<br>
4. [pytorch/pytorch](https://github.com/pytorch/pytorch)
<img width="1004" alt="image" src="https://github.com/user-attachments/assets/27d72c73-6256-4b93-a0b2-fcc1c3cb233f" />
<center>图 7.11 pytorch/pytorch 2024 年工作时间打点图</center>
<br>
##### 中国仓库 OpenRank 前四名工作时间分布
1. openharmony
<img width="1003" alt="image" src="https://github.com/user-attachments/assets/a52ef9e3-6fbb-4a8e-a19c-402c9e0f00e9" />
<center>图 7.12 openharmony 2024 年工作时间打点图</center>
<br>
2. DaoCloud
<img width="1002" alt="image" src="https://github.com/user-attachments/assets/e98237a7-5e42-4f46-8217-8db6fcde95b4" />
<center>图 7.13 DaoCloud 2024 年工作时间打点图</center>
<br>
3. PaddlePaddle
<img width="1004" alt="image" src="https://github.com/user-attachments/assets/ddc2dab7-afba-4ead-b785-951beafe7105" />
<center>图 7.14 PaddlePaddle 2024 年工作时间打点图</center>
<br>
4. doris
<img width="1004" alt="image" src="https://github.com/user-attachments/assets/1c333de4-198a-4411-bed1-458c72763852" />
<center>图 7.15 doris 2024 年工作时间打点图</center>
<br>
### 7.3 开发者角色分析
本部分基于 GitHub 用户在开源仓库中所触发的事件将 GitHub 用户分为**探索者**、**参与者**、**贡献者**、**提交者**(Committer)四个角色,四种角色定义如下表所示。
<center> 表 7.3 四种开发者角色
</center>
<br>
| 角色 | 定义 | 含义 |
|-----|-------------------------------|----------------------|
| 探索者 | 对某一项目进行 star 的用户 | 表示用户对该项目有一定的兴趣 |
| 参与者 | 对某项目有过 Issue 或者 Comment 行为的用户 | 表示用户参与该项目 |
| 贡献者(Contributer) | 对某项目中有 Pull Request (PR) 的用户 | 表示用户对项目 CodeBase 有贡献 |
| 提交者(Committer) | 参与 PR-review 或 merge 的用户 | 表示用户对项目有深度贡献 |
一般情况下,四种关系层层递进,结构如下图所示。基于所定义的角色体系,我们从角色数量、时间变化、开发者角色演化三个视角对 GitHub 全域项目中 OpenRank 排名前十的项目进行量化,即第二部分中的项目排名榜单。
![7-16.png](https://raw.githubusercontent.com/kaiyuanshe/2023-China-Open-Source-Report/main/public/image/data/chapter_7/7-16.png)
<center>图 7.16 开发者类型关系</center>
<br>
#### 7.3.1 2024 年各角色数量分布
<center>表 7.4 OpenRank 排名前 10 项目各开发者角色数量分布</center>
<br>
| 仓库名 | 探索者 | 参与者 | 贡献者 | 提交者 |
|-------------------------------------|-------|---------|------|------|
| NixOS/nixpkgs | 4897 | 3606 | 4339 | 3484 |
| llvm/llvm-project | 6789 | 3241 | 2365 | 2092 |
| home-assistant/core | 10596 | 7472 | 1300 | 989 |
| pytorch/pytorch | 12513 | 2599 | 1424 | 823 |
| digitalinnovationone/dio-lab-open-source | 3813 | 4462 | 21276| 224 |
| odoo/odoo | 7659 | 650 | 1035 | 661 |
| microsoft/vscode | 14701 | 12522 | 579 | 388 |
| DigitalPlatDev/FreeDomain | 32967 | 35332 | 3 | 0 |
| zephyrproject-rtos/zephyr | 2314 | 1054 | 1276 | 1120 |
| godotengine/godot | 15208 | 3314 | 1072 | 678 |
<img width="725" alt="image" src="https://github.com/user-attachments/assets/690532aa-401f-4ac5-abf9-1d910b5e09bd" />
<center>图 7.17 开发者角色分布图</center>
<br>
结果表明:
- DigitalPlatDev/FreeDomain:探索者和参与者 的人数异常高,分别为 32967 和 35332,而 贡献者 和 提交者 的数量几乎为零(分别为3人和0人)。这种分布表明该项目的开发贡献高度集中,可能由少量核心团队完成,而大部分用户仅停留在浏览或轻量参与的阶段。
- microsoft/vscode:拥有最庞大的 探索者(14701人)和 参与者(12522人)群体,但 贡献者(579人)和 提交者(388人)的数量较少。这表明该项目有极高的关注度和参与度,但核心贡献仍由少部分开发者完成,说明其开发门槛较高或管理较为集中。
- home-assistant/core 和 godotengine/godot:这两个项目的探索者人数(10596 和 15208)较多,参与者也有一定规模,但 贡献者 和 提交者 的比例更低(贡献者分别为1300和1072,提交者分别为989和678)。这种分布表明,它们有一定的社区参与度,但实际开发工作仍由少数人承担。
#### 7.3.2 2024 年各角色新增情况
角色新增的统计口径为:某用户在 2024 年之前不是 X 角色(例如贡献者或提交者角色),在 2024 年成为 此角色,则为 X 角色有效新增数。
例如:A 2021 年给 B 项目提交了 PR,但是从未参与 Code Review 工作。2023 年 A review 了 B 项目中的 PR,则称 A 为新增提交者。
详细角色新增情况如下图和下表所示。
<center>表 7.5 OpenRank 排名前 10 项目新增开发者角色数量分布</center>
<br>
| 仓库名 | 新增探索者 | 新增参与者 | 新增贡献者 | 新增提交者 |
|---------------------------------------|---------|--------|-------|-------|
| NixOS/nixpkgs | 4836 | 2392 | 2187 | 1605 |
| llvm/llvm-project | 6689 | 2191 | 1517 | 1223 |
| home-assistant/core | 10483 | 5502 | 819 | 565 |
| pytorch/pytorch | 12321 | 1938 | 946 | 496 |
| digitalinnovationone/dio-lab-open-source | 3809 | 4455 | 21254 | 224 |
| odoo/odoo | 7559 | 445 | 467 | 239 |
| microsoft/vscode | 14416 | 10614 | 450 | 312 |
| DigitalPlatDev/FreeDomain | 32967 | 35332 | 3 | 0 |
| zephyrproject-rtos/zephyr | 2278 | 687 | 690 | 554 |
| godotengine/godot | 14774 | 2216 | 738 | 445 |
<img width="1252" alt="image" src="https://github.com/user-attachments/assets/4ba2b6c2-608b-4a9d-8546-a0c7f15e3992" />
<center>图 7.18 2024 年开源社区角色新增图</center>
<br>
**最高新增探索者**
- DigitalPlatDev/FreeDomain 拥有 32,967 名新增探索者,继续保持其极高的关注度,远远领先其他项目。其中最重要的原因是它也是一个新的项目,并且主要提供的是域名的服务。其内容或概念能够吸引大量用户的兴趣和浏览。
- microsoft/vscode 紧随其后,新增探索者数量达 14,416。这反映了其作为全球最流行的代码编辑器之一的持续吸引力。
**最高新增参与者**
- DigitalPlatDev/FreeDomain 再次遥遥领先,新增 35,332 名参与者,显示出该项目社区极高的活跃度。尽管其贡献者和提交者极少,但大量用户的轻量级参与使其在社区活跃度指标上名列前茅。
- microsoft/vscode 的新增参与者数量达 10,614,排名第二,表明其在开源社区的参与度和受欢迎程度继续保持强劲。
**最高新增贡献者**
- digitalinnovationone/dio-lab-open-source 新增贡献者人数高达 21,254,远远领先其他项目。这说明该项目对开发者的吸引力在贡献层面上非常突出,可能得益于其对初学者友好的参与门槛和大量教学资源的支持。
- NixOS/nixpkgs 以 2,187 名新增贡献者排名第二,表明其社区活跃度和开放性依然较高。
**最高新增提交者**
- NixOS/nixpkgs 是 2024 年最高新增提交者的项目,达到 1,605 名,表明其核心维护团队进一步扩大。这表明其社区不但吸引了大量贡献者,还能转化为高效的提交行为。
- llvm/llvm-project 以 1,223 名新增提交者位居第二,体现了其强大的核心开发能力和社区活跃性。
#### 7.3.3 开发者演化视角
开发者演化过程定义为:一个开源社区中有多少角色转向其他角色。本报告中我们只度量某一角色转向更深层次角色的开发者。例如某用户 2023 年以前是参与者 ,到了 2023 年该用户提出了自己第一个 PR ,因此由参与者转变为贡献者。
<center>表 7.6 OpenRank 排名前 10 项目角色转化数量分布</center>
<br>
| 仓库名 | 贡献者 -> 提交者 | 参与者 -> 贡献者 | 探索者 -> 参与者 |
|---------------------------------------|-------|------|-------|
| NixOS/nixpkgs | 287 | 188 | 204 |
| llvm/llvm-project | 134 | 289 | 185 |
| home-assistant/core | 66 | 103 | 155 |
| pytorch/pytorch | 82 | 78 | 168 |
| digitalinnovationone/dio-lab-open-source | 0 | 21 | 3 |
| odoo/odoo | 48 | 33 | 28 |
| microsoft/vscode | 23 | 50 | 272 |
| DigitalPlatDev/FreeDomain | 0 | 0 | 0 |
| zephyrproject-rtos/zephyr | 62 | 45 | 46 |
| godotengine/godot | 67 | 115 | 242 |
<img width="1430" alt="image" src="https://github.com/user-attachments/assets/6c544916-a765-4b69-89a8-44c1db18f68a" />
<center>图 7.19 开发者角色演化图</center>
<br>
- 通过表格和图表中的数据,我们可以观察到 2024 年各社区中的开发者角色演化趋势,并继续体现了典型的漏斗模型,即开发者从探索者转化为参与者、从参与者转化为贡献者、再到核心的提交者的路径。这种趋势符合开源社区成员从初步探索到深度参与的演化规律。
- 在各社区中,我们依然可以观察到典型的漏斗模型,从探索者到参与者,再到贡献者和提交者的演化路径。以 godotengine/godot 为例,2024 年有 242 名探索者 成功转化为参与者,115 名参与者转化为贡献者,67 名贡献者演化为提交者。这一趋势在其他社区中也有所体现,展现了成员从初步参与到深度贡献的自然发展过程。
- 在 NixOS/nixpkgs 社区中,我们观察到 贡献者向提交者 的转化数量较高,达到 287 名,进一步表明其对核心贡献的开放性和较高的代码审查需求,有助于提升代码质量与项目稳定性。
- 此外,像 microsoft/vscode 和 godotengine/godot 这样的项目,探索者向参与者的转化较为显著,分别有 272 名和 242 名探索者完成角色转变。这表明这些社区对新开发者的吸引力较强,且提供了较为低门槛的参与路径。
- 相比之下,digitalinnovationone/dio-lab-open-source 和 DigitalPlatDev/FreeDomain 的角色转化仍然较少,尤其是后者在 2024 年依然没有角色演化数据,表明社区尚处于早期发展阶段。
### 7.4 机器人账号视角
机器人账号是经过人工标签和社区贡献的账号,目前共有1449个机器人账号,较去年新增了200个。我们分析了这些机器人参与过的仓库中的所有事件数,以此来研究机器人事件的变化。通过将机器人账号产生的事件与全部事件进行比较,可以看出机器人账号的重要性。通过不同事件类型的对比图和变化率,我们可以了解2024年机器人账号事件数量变化的原因。最后,通过机器人账号7x24小时活跃热力图,我们可以了解机器人账号的工作时间。
#### 7.4.1 机器人账号事件变化
![Comparison statistics of annual bot events and overall events (2016-2024)](https://github.com/user-attachments/assets/cd667d20-ca92-4097-9b29-c4ebfe0bf579)
<center>图 7-8 每年机器人参与的仓库机器人账号事件与全部事件数量对比图</center>
<br>
从图 7-8 可以看出,机器人账号事件的数量在过去几年中显著增长。尤其是从2020年开始,机器人事件的数量呈现出快速上升的趋势。相比之下,开发者参与的事件数量虽然也在增长,但增长幅度相对较小,变化趋势较为平稳。
具体来看,2016年至2024年间,机器人账号事件数量从接近零增长到超过4亿次,而全部事件数量从约1亿次增长到超过7亿次。机器人事件的增长速度明显快于总体事件的增长速度,这表明机器人账号在社区中的作用和影响力正在不断增强。
这种增长可能是由于机器人在自动化任务、代码审查、持续集成等方面的应用越来越广泛,从而减轻了开发者的负担,提高了工作效率。尽管开发者的参与数量变化不大,但机器人账号的快速增长弥补了这一点,确保了整体事件数量的持续上升。
![Proportion of Bot Events to All Events](https://github.com/user-attachments/assets/d951698c-1e12-4d08-8eec-6cc6aa049c65)
<center>图 7-9 每2024年机器人账号事件数与所有事件数对比图</center>
<br>
从图 7-9 可以看出,2024年机器人账号事件数占全部事件数的43%,而开发者参与的事件数占57%。这一比例进一步强调了机器人账号在社区中的重要性。机器人账号不仅在数量上显著增长,而且在整体事件中的占比也越来越大,这表明机器人在社区中的角色越来越重要。
#### 7.4.2 机器人账号事件变化原因分析
![GitHub Bot Event Counts by Year (2016-2024)](https://github.com/user-attachments/assets/db9fe2e5-d78f-484a-80c6-6d7e9a764aa1)
<center>图 7-10 每年机器人账号不同事件类型对比图(2016-2024)</center>
<br>
从图 7-10 可以看出,不同类型的事件在各个年份中的分布情况。以下是一些关键观察点:
- PushEvent 和 PullRequestEvent 是最主要的事件类型,数量远超其他事件类型。
- PushEvent 在2024年达到了一个新的高峰,数量接近3亿次。
- PullRequestCommentEvent 的数量在持续上升。
- 但是PullRequestEvent在逐步减少。
![op and Bottom Growth Rates in GitHub Event Counts (2023 vs 2024)](https://github.com/user-attachments/assets/ae482c5b-7260-48d1-8ba0-9d0e5e2eebd2)
<center>图 7-11 2024年与2023年各个事件变化率</center>
<br>
图 7-11 显示了2024年与2023年各个事件类型的变化率:
IssuesEvent 的增长率最高,达到了783.5%,增加了19333491次。这表明机器人在处理问题(Issues)方面的活动显著增加。
PullRequestReviewCommentEvent 和 PushEvent 的增长率分别为60.1% 和 56.1%,增加了1786717次和105177443次。
GollumEvent 和 DeleteEvent 也显示出增长,分别为49.0% 和 24.3%。
CommitCommentEvent 和 ForkEvent 显示出显著的下降,分别减少了90.2% 和 72.3%。
这些变化率表明,机器人账号在某些特定类型的事件中变得更加活跃,尤其是在处理问题(IssuesEvent)和代码提交(PushEvent)方面。同时,某些事件类型(如 CommitCommentEvent 和 ForkEvent)的减少可能表明这些任务更多地由开发者手动处理,或者这些任务的自动化需求较低。
#### 7.4.3机器人账号7X24小时活跃热力图
![7×24 Hour Heatmap of Bot Account Activities (2024)](https://github.com/user-attachments/assets/205e848e-6c87-44e3-9c3d-a714ca8afaba)
从24小时活跃热力图中可以看出,机器人账号的活动在一天中的不同时间段有明显的分布特点。以下是一些关键观察点:
- 高峰时段:机器人账号的活动在每天的12点(中午)达到高峰。这一现象表明多数机器人事件都是定时任务,通常安排在中午进行。这与我们对自动化任务的直觉相符,因为定时任务通常会在固定的时间点触发,以确保任务的定期执行。
- 全天活动:尽管12点是活动的高峰时段,但机器人账号在24小时内都有一定的活动量。这表明机器人在全天候运行,处理各种自动化任务。
- 工作日与周末:从热力图中可以看出,工作日(周一至周五)的活动量略高于周末(周六和周日)。这可能是因为工作日的开发活动更多,从而触发更多的机器人事件。
这种活动模式表明,机器人账号在自动化任务中扮演着重要角色,尤其是在定时任务和持续集成等方面。通过在固定时间点执行任务,机器人可以有效地减轻开发者的负担,提高工作效率。
## 八. 商业开源洞察
### 8.1 商业开源的定义
商业开源是指企业在开源软件的基础上,通过提供增值服务、技术支持、定制化解决方案等方式实现商业化盈利的一种模式。商业开源是通过更多人的参与,减少软件的缺陷,丰富软件的功能,同时也避免了少数人在软件里留一些不正当的后门。企业通过开源的商业模式可以直接获得经济利润,开源软件最终还会反哺商业,让商业公司为用户提供更好的产品。它与传统开源的核心区别是传统开源主要是为了促进软件的自由使用、修改和分发,往往由社区驱动来推动技术进步。但商业开源虽然也遵循开源的原则,但主要目的还是为了盈利。
### 8.2 商业开源公司分析
![1029941736398777_.pic](https://hackmd.io/_uploads/HJ3gOR2Lye.png)
<center>图 8-1 商业开源公司 OpenRank Top20榜单</center>
<br>
Grafana Labs的OpenRank排名第一,这主要得益于其核心产品Grafana的广泛应用和社区活跃度,在2024年,Grafana Labs完成了一轮融资,估值达到60亿美元。HashiCorp在开源领域具有重要地位,但其融资金额为349.2百万美元,相对较低。这可能是因为HashiCorp的商业模式和盈利方式与其他公司有所不同。它主要通过提供开源工具的企业级支持、服务和商业版本来实现商业化。
### 8.3 商业开源项目分析
![1030031736400369_.pic](https://hackmd.io/_uploads/HkqV0038kx.png)
<center>图 8-2 商业开源项目 OpenRank Top20榜单</center>
<br>
Odoo作为全球排名第一的免费开源PLM管理系统,其 OpenRank 最高,融资金额也较高,这可能是因为Odoo拥有强大的社区支持和活跃度,以及广泛的企业应用模块,使其在开源项目中具有很高的影响力和市场认可度。然而,尽管Bun在技术上受到认可,但其融资金额相对较低,这可能是因为项目仍处于早期阶段,商业模式尚未完全成熟或者市场对其商业潜力的评估还在观望中。随着以后项目的成熟和市场认可度的提升,预计Oven的融资金额将会增加,同时其在开源社区的影响力也可能会进一步扩大。
### 8.4 商业开源项目近五年 OpenRank 变化趋势
![231735976966_.pic](https://hackmd.io/_uploads/HJLDjvLI1g.jpg)
<center>图 8-3 商业开源项目近五年 OpenRank 变化趋势</center>
<br>
近五年商业开源项目的 OpenRank 总体呈增长趋势,2020 至 2023 年快速上升,这得益于开源生态的繁荣与企业支持;2023 至 2024 年略有下降,可能因市场逐渐饱和、项目成熟度提高及竞争加剧所致。
### 8.5 商业开源公司近五年 OpenRank 变化趋势
![241735979503_.pic](https://hackmd.io/_uploads/S1dF9OL8kl.jpg)
<center>图 8-4 OpenRank Top5商业开源公司近五年变化趋势</center>
<br>
HashiCorp 的 OpenRank 2020 年至 2023 年间保持稳步增长,达到峰值后在 2024 年出现小幅回落。
Grafana Labs增长显著,从 2020 年的较低排名逐步上升,2024 年基本追平 HashiCorp。
Vercel 增长明显,从 2020 年的中游排名逐步提升,2023 年达到峰值后略有回落。
GitHub 保持稳定增长,体现其作为开源生态核心平台的重要性。
Armory 表现波动较大,2020 年至 2021 年略有下降,但在 2022 年迅速反弹,2023 年达到高峰后快速下降。
![331736059988_.pic](https://hackmd.io/_uploads/rJLB7rc81x.jpg)
总体来看,每次融资都伴随着OpenRank的显著增长,这表明Grafana Labs能够有效地利用融资来推动公司的发展和市场地位的提升。同时,OpenRank的增长也反映了公司在开源社区中的影响力和认可度的提高。
### 8.6 案例分析
## 九. 高校开源洞察
2024 [开源之夏 OSPP ](https://summer-ospp.ac.cn/)作为高校与开源社区深度互动的重要平台,在本年度取得了显著成果,有效促进了开源技术的发展与高校人才培养。而从首届 OSPP 开始,X-lab 开放实验室便深度参与其中,本年度便针对 OSPP 2024 年的相关数据进行如下数据分析。
### **9.1 OSPP 宏观分析**
- **OSPP 2024 基本情况**:本次 OSPP 汇聚了来自多个领域的 168 个开源社区,包括但不限于操作系统、编程语言、人工智能等各个领域。如图 9.1 所示,来自全球不同高校的 2537 名学生上线了共 561 个开源项目,并最终顺利结项了 455 个优秀项目。
![总览](https://hackmd.io/_uploads/BkmJbeFLkx.png)
<center>图 9.1 活动参与情况总览</center>
- **社区数量**:从首届 OSPP 起,每年参与活动的社区数量呈现出令人瞩目的增长态势。至 2024 年,社区数量飙升至 168 个,较 2023 年实现了大幅增长。这种增长趋势主要归因于多个因素。一方面,越来越多的开发者和项目团队意识到开源协作的强大力量,进而吸引了更多社区参与到 OSPP 活动中。另一方面,高校对于开源教育的重视程度与日俱增,纷纷加强与开源社区的合作,为学生提供实践平台。
- **学生与高校数量**:从 2020 年至 2023 年期间,学生参与数量处于平稳上升的通道,这得益于开源文化在高校的逐步渗透以及 OSPP 活动影响力的持续扩散。然而,在 2024 年,学生参与数量出现了略微降低的情况,降至 2537 人。这可能是由于本年度项目难度和要求的适度调整,以及同期其他类似开源活动竞争导致部分潜在参与者分流的影响。而关于高校参与数量的变化,自活动开展以来,其与学生数量的变化情况基本相同。即从 2020 年至 2023 年期间平稳上升,而在2024年略有下降,其原因与学生数量的变化原因大致相同。
- **项目数量**:在 2024 年的 OSPP 活动中,参与OSPP的总人数略有下降,但项目数量仍达到了 561 个。而在结项方面,455 个项目成功结项,结项率从去年的 70% 跃升至 81%,这一出色的结项率归因于多方面因素。首先,活动组织方在项目管理流程上进行了优化,在项目启动初期,为学生和导师提供了更为详细且具有针对性的指导手册与培训课程,涵盖从项目规划到技术难点攻克等各个环节。其次,社区导师在本年度发挥了更为积极关键的作用,他们不仅在技术上给予学生专业的指导,还在时间管理、团队协作等方面提供了宝贵的经验分享。再者,学生自身对于开源项目的重视程度和投入度持续增加,能够高效地完成项目开发工作,从而使得结项率实现了显著的提升。
### 9.2 OSPP 年度学生高校相关分布情况分析
- **高校地理分布**:本届开源之夏活动中全球参与高校的地理分布情况如图 9.2 所示,与 2023 年的分布情况对比如表 9.1 所示。2023 年,参与的高校总数为 592 所,其中国内高校 489 所,国外高校 103 所,国外高校占比 17.4%。而到了 2024 年,高校总数降至 498 所,国内高校数量相应减少至 399 所,国外高校数量为 99 所,但国外高校占比略有上升,达到 19.9%。这一变化表明,尽管高校参与的总体规模有所收缩,但国际交流在其中的相对比重有所增加。随着 OSPP 国际影响力的提升,吸引了更多国外高校的关注,虽然绝对数量有所波动,但在相对占比上体现出国际合作的深化趋势,这对于促进全球范围内的开源技术交流与人才培养的国际化融合具有重要意义,也预示着 OSPP 在未来的发展中,国际合作将成为一个重要的增长方向和特色亮点。
![高校](https://hackmd.io/_uploads/HJleWgKLJl.png)
<center>图 9.2 OSPP 2024 参与高校分布情况</center>
<center>表 9.1 OSPP 2023 至 2024 国内外高校分布变化情况</center>
| OSPP 年份 | 高校总数 | 国内高校总数 | 国外高校总数 | 国外高校占比 |
| --------- | -------- | ------------ | ------------ | ------------ |
| 2024 | 498 | 399 | 99 | 19.9% |
| 2023 | 592 | 489 | 103 | 17.4% |
- **学生学历分布**:OSPP 2024 参与学生的学历分布情况如图 9.3 所示,与 2023 年的对比情况如表 9.2 所示。可以看到除了来自中国的大量优秀学生,还有来自全球各个国家的众多学生参与其中。而所有学生中参与的主力为本科生与硕士生,少部分为博士生。具体分析而言,对比 2023 年与 2024 年 OSPP 学生学历分布情况可知,整体格局虽保持相对稳定。学历分布的变化体现了 OSPP 项目在不同学历层次学生间的动态发展态势处于一个稳定的状态中,其面向的主要群体仍是本科或硕士阶段的学生。
![学生分布](https://hackmd.io/_uploads/H1wbWgKLJg.png)
<center>图 9.3 OSPP 2024 参与学生学历分布情况</center>
<center>表 9.2 OSPP 2023 至 2024 参与学生学历分布变化情况</center>
| OSPP 年份 | 学生总数 | 本科/专科在读占比 | 硕士在读占比 | 博士在读占比 |
| --------- | -------- | ----------------- | ------------ | ------------ |
| 2024 | 2537 | 56% | 42% | 2% |
| 2023 | 3475 | 57% | 41% | 2% |
### 9.3 OSPP 年度贡献度情况分析
在上述统计数据的基础上,我们结合 OSPP 近两年全年的贡献度数据和社区 OpenRank 算法对各参与高校以及参与到各社区学生的贡献度进行了详细的分析。
#### 9.3.1 高校贡献度
通过 OpenRank 算法计算得出的高校贡献度年度排行榜如图 9.4 和图 9.5 所示,其中图 9.4 展示了 OSPP 2024 中贡献最为突出的二十所高校,而图 9.5 则展示了 OSPP 2023 所对应的高校排行榜。
在 2024 年的排行榜中,西安邮电大学以 OpenRank 值 85.13 跃居第一,参与学生数目为 15 人,人均 OpenRank 为 5.68,不仅 OpenRank 值大幅提升,且参与学生数目也较为可观,其人均 OpenRank 也较高,说明该校在 OSPP 中的综合贡献度有显著提升。陇东学院以 OpenRank 值 61.37 位列第二,不过其参与学生数目仅为 1 人,人均 OpenRank 高达 61.37。这种情况是由于该校该名学生在特定项目中具备独特的技术优势或创新能力,能够独立完成具有高价值的项目任务。类似地,上海大学以 OpenRank 值 42.21 位列第三,其同样也只有两名学生参与活动。
而在 2023 年的排行榜中,前三名分别为华中科技大学、浙江大学和北京邮电大学。可以看出,这些高校在 OSPP 中的整体贡献度较高,而其中华中科技大学虽然参与学生数目不是最多,但人均 OpenRank 表现出色,使其拥有了最高的总 OpenRank 值。另一方面,复旦大学、陇东学院、武汉大学、成都信息工程大学等高校虽然在学生数量上并不占优,但因为个别学生的贡献度较高而使得最终的排名较高。
- **OSPP 2024 年度高校贡献度排行榜**:
![2024高校](https://hackmd.io/_uploads/SkvGWet8kg.png)
<center>图 9.4 OSPP 2024 年度高校贡献度排行榜</center>
- **OSPP 2023 年度高校贡献度排行榜**:
![2023高校](https://hackmd.io/_uploads/B1Z7bet8kl.png)
<center>图 9.5 OSPP 2023 年度高校贡献度排行榜</center>
对比 2023 年和 2024 年的高校贡献度排行榜,我们从排名与贡献度等多个角度对榜单的变化情况进行了进一步分析。
首先在排名变化方面,显著上升的高校有西安邮电大学和陇东学院。前者从 2023 年的第六名上升到 2024 年的第一名,实现了巨大的跨越。这种排名的提升反映了该校在开源项目实践方面的快速发展和积极进取;而后者从 2023 年的第十二名上升到 2024 年的第二名,其排名上升幅度同样令人瞩目。该校在 2024 年虽然只有一名学生参与项目,但该学生取得了极高的贡献度。
#### 9.3.2 学生贡献度
本节将对 OSPP 2023 和 2024 的学生贡献度排行榜数据及其变化情况展开详细分析。从参与的社区来看,学生参与的开源社区十分多样化。涵盖了诸如 Apache Hadoop、MatrixOne、Spring Cloud Alibaba 等不同类型的社区。这反映出 OSPP 项目覆盖了广泛的技术领域,为学生提供了在不同方向上进行开源实践的机会。具体的排行榜如图 9.6 与图 9.7 所示。
- **OSPP 2024 年度学生贡献度排行榜**:
![2024学生](https://hackmd.io/_uploads/rkoNWxtU1x.png)
<center>图 9.6 OSPP 2024 年度学生贡献度排行榜</center>
- **OSPP 2023 年度学生贡献度排行榜**:
![2023学生](https://hackmd.io/_uploads/HkmrbxKL1g.png)
<center>图 9.7 OSPP 2023 年度学生贡献度排行榜</center>
对比 2024 和 2023 年的学生贡献度排行榜,可以发现在2024 年的排行榜上,陇东学院、上海大学、西安财经大学等学校的学生进入了前列。这显示出在开源项目中,并非只有传统的优势高校学生能够取得高贡献度,一些相对不那么知名的高校学生如果有足够的能力和投入,也能在排行榜上崭露头角。在参与社区方面,今年 OSPP 的情况与 2023 年类似,学生参与的社区依旧多样。不过,在一些特定社区中,如 Spring Cloud Alibaba、MindSpore 等,学生的贡献度有显著提升,这可能与这些社区在 2024 年的项目需求、发展方向以及学生对相关技术的兴趣增长有关。另一方面,今年 OSPP 的贡献度集中程度有所变化,虽然仍有部分学生的 OpenRank 值远高于平均线,但整体的差距相较于 2023 年有缩小的趋势。这可能是由于随着 OSPP 项目的推广和发展,更多学生掌握了有效的开源项目参与方法,提高了自身的贡献度,使得高贡献度学生之间的竞争更加激烈。