蚂蚁数据智能团队为大家整理汇总了12个硬核项目,覆盖大模型、大数据、数据库等前沿领域,(Apache Fury、Apache HoraeDB、DB-GPT、DLRover、VSAG)五大开源产品的研发项目等你参与!专属导师1对1指导,从基础项目到进阶项目,快来pick你感兴趣的项目~🎉
⏳6月9日截止,立即申请 → https://summer-ospp.ac.cn/org/orglist
开源之夏介绍
开源之夏是由中国科学院软件研究所 “开源软件供应链点亮计划” 发起并长期支持的一项暑期开源活动,旨在鼓励在校学生积极参与开源软件的开发维护,培养和发掘更多优秀的开发者,促进优秀开源软件社区的蓬勃发展,助力开源软件供应链建设。
开源之夏联合国内外开源社区,针对重要开源软件的开发与维护提供项目任务,面向全球高校学生开放报名。中选学生们能够利用暑期时间在项目资深开发者(项目导师)的指导下参与到开源项目的建设,零距离体验顶级开源项目,提高个人技术能力、了解开源、结识开源前辈。此外,对于成功入选并完成结项的同学,还有价值丰厚的现金奖励与荣誉证书!
一、DB-GPT发布项目
项目成果仓库:
https://github.com/eosphoros-ai/DB-GPT
项目一 :扩展GPT-VIs协议,支持Agent工作任务视窗,实时展示Agent执行的代码、文档等信息
◎ 项目简述:
(1)背景: 随着MCP作为Agent的工具协议出现,Agent的能力边界得到了很大的拓展,但是当Agent使用不同工具的时候如何将信息实时向用户进行可视化展示,对齐Agent和人的信息差异是基于AI落地和构建产品,获取用户信任的关键环节。
(2)预期目标: 所以希望在DB-GPT的Agent下完成任务视窗模式类似Manus的工作窗口,使用GPTVIs组件的方式构建动态任务视窗。 项目分两部分:
1.后端,使用python构建Agent工作过程的数据流,并将不同任务结果转换成VIS协议数据,通过流式接口推向前端
2.前端,使用NextJS开放各种任务视窗可视化控件,展示Agent工作过程的任务展示,比如文件、图表、网页、表格、视频流等等
项目二:基于Agent实现数据分析报告场景应用
◎ 项目简述:
(1)背景: AI Agent已成为企业数据分析领域的重要提效智能化手段,随着大模型技术从"生成式对话"向"任务自动化"加速演进,以及MCP、Manus等技术的发展,数据分析领域的分析工具目前的主流趋势还是人+Copilot的方式,大模型主要还是作为辅助工具。因此,如何借助MCP、Agent等实现数据分析Manus,优化分析范式是数据分析领域重要的研究课题。需要在DB-GPT中开发新的数据分析应用,为AI Agent在数据分析领域提供可复用的技术范式
(2)预期目标:
1.全流程自动化分析Agent使数据分析更高效:基于自然语言自动化编排Agent+MCP实现趋势分析、多维洞察等智能数据分析能力
2.端到端分析模式使数据分析更深入:全流程追溯中间分析过程和结果,并结合分析结果生成分析图表/归因结果/决策建议等分析报告
3.基于大模型及RAG等技术知识增强:私有业务知识检索增强,提升数据分析口径准确性
项目备注:本课题需要学生具备优秀的科研和编程基础,适合对AI应用开发和数据分析领域有浓厚兴趣的同学
项目三:基于MCP + Agent实现表格对话、多表格场景应用
◎ 项目简述:
(1)背景: 在企业数据分析和日常办公场景中,表格(如Excel、CSV等)是核心的数据载体,但用户与表格的交互仍依赖手动操作或简单的Copilot辅助。随着MCP和Agent技术的发展,如何通过自然语言实现表格的自动化查询、跨表关联分析及动态对话交互,成为提升数据生产力的关键需求。
(2)预期目标:
1.智能表格对话:基于MCP协议构建表格专属Agent,支持用户通过自然语言对话完成数据查询、筛选、计算、可视化等操作,无需手动编写公式或代码。
2.多表格协同分析:支持跨表格的关联查询、数据融合及一致性校验,解决企业多数据源场景下的分析难题。
3.智能数据获取与动态增强:支持自动化采集外部数据(如API、爬虫)、动态补充关联字段,并通过MCP协议协调多Agent任务流,实现从数据获取到分析的全流程自动化。
项目四:基于Agent实现独立环境、代码执行等能力
◎ 项目简述:
(1)背景:AI Agent 逐步成为使用 AI 解决真实环境中各类问题的有力工具,然而真实环境的任务隔离性和安全性是企业落地中必然要考虑的问题。 DB-GPT Agent 目前不支持统一、可扩展的安全沙箱环境。
(2)预期目标: 为 DB-GPT Agent 实现一个安全的沙箱执行环境(支持 Agent、工具的运行和多语言代码的执行)。 分三个部分:
1.基于 DB-GPT Agent + Docker 容器实现安全的代码执行环境,支持 Python、Shell、Node.js 等代码的执行,改造 DB-GPT 现有的代码执行智能体。
2. 支持有状态的沙箱环境,多次代码执行可以在相同的环境中,并且上次环境的变更能影响下次的执行(例如第一次执行安装 pypi 依赖,第二次执行安装后的依赖能正常使用)
3.插件化的安全沙箱环境实现,设计统一的沙箱环境接口,支持 Docker、Podman、本地进程(基Cgroup/Namespace/WebAssembly等)等沙箱环境的实现。
二、Apache Fury发布项目
项目成果仓库:
https://github.com/apache/fury
项目一 :为Fury Rust实现基于元数据共享的类型前后兼容模式序列化
◎ 项目简述:
(1)背景:Fury是一个高性能的序列化库,支持跨语言的二进制协议。目前基于Rust语言的应用逐渐增加。Rust语言以其内存安全和并发性能而被广泛使用,同时也面临着需要与不同版本和类型结构兼容的序列化挑战。针对Rust语言的序列化,保证类型的前后兼容性对于长期项目演化和多版本支持至关重要。
现有的Fury Rust序列化机制尚未充分支持结构类型的前后兼容性。在类型更新时,缺乏适配机制来处理新增字段或移除字段,以保证序列化数据的稳定性和一致性。同时,元数据的高效共享机制还未形成最佳实践。
(2)最终项目实现的目标: 最终目标是为Fury Rust实现一个能够支持类型前后兼容的序列化框架。该框架将利用Fury二进制序列化协议的元数据共享机制,实现上可以参考Fury Java/NodeJS等语言的实现,最终自动适应类型结构的变化,确保不同版本之间的数据能够被正确序列化和反序列化,提升Fury在Rust生态中的应用广度和深度。
Github Issue:https://github.com/apache/fury/issues/2145
项目二 :为Fury GO实现编译时代码生成功能
◎ 项目简述:
当前Fury Go使用反射来实现结构体的序列化和反序列化功能,反射在性能上存在不足。在Java等语言,Fury会通过运行时动态生成代码来加速执行性能。但是Golang里面运行时生成代码,需要生成汇编代码,开发维护复杂性过高,而业界也主要以编译时提前生成代码为主,通过go generate 在编译时生成代码,比如 ffjson 等json库。
本项目需要为Fury的二进制序列化协议实现类似的代码生成能力,通过在编译时提前解析结构体,面向Fury跨语言二进制协议,生成对应的序列化和反序列化代码,来加速整个序列化的执行效率。
Github Issue:https://github.com/apache/fury/issues/2227
项目三 :Fury Golang序列化类型前后兼容支持
◎ 项目简述:
(1)背景:Fury是一个高性能的序列化库,支持跨语言的二进制协议。目前基于Go语言的应用逐渐增加。Go语言以其高性能和并发特性而被广泛使用,同时也面临着需要与不同版本和类型结构兼容的序列化挑战。针对Go语言的序列化,保证类型的前后兼容性对于长期项目演化和多版本支持至关重要。
现有的Fury Go序列化机制尚未充分支持结构类型的前后兼容性。在类型更新时,缺乏适配机制来处理新增字段或移除字段,以保证序列化数据的稳定性和一致性。同时,元数据的高效共享机制还未形成最佳实践。
(2)最终项目实现的目标:最终目标是为Fury Go实现一个能够支持类型前后兼容的序列化框架。该框架将利用Fury二进制序列化协议的元数据共享机制,实现上可以参考Fury Java/NodeJS等语言的实现,最终自动适应类型结构的变化,确保不同版本之间的数据能够被正确序列化和反序列化,提升Fury在Go生态中的应用广度和深度。
Github Issue:https://github.com/apache/fury/issues/2192
三、Apache HoraeDB 发布项目
项目成果仓库:
https://github.com/apache/horaedb
项目一 :Prometheus remote write 请求零分配解析
◎ 项目简述:
Prometheus作为一款广泛使用的开源监控和告警系统,在大规模分布式环境中扮演着核心角色。其远程写入(Remote Write)机制是连接监控数据采集和存储后端的关键组件。远程写入技术允许Prometheus将监控指标数据高效地推送到不同的时间序列数据库中,如 Apache HoraeDB、InfluxDB 等。然而,在高并发和大规模数据场景下,传统的远程写入实现往往面临性能瓶颈和资源消耗问题。
零分配(Zero Allocation)解析成为优化这一过程的重要技术路径。零分配解析的核心思想是在数据传输和处理过程中最大限度地减少内存分配和垃圾回收开销。通过精细的内存管理和高效的数据结构设计,可以显著提升Prometheus远程写入请求的处理性能,降低系统延迟,减少资源消耗。这种技术优化对于构建高性能、低延迟的监控系统具有重要意义,特别是在需要实时处理海量指标数据的云原生环境中。
四、DLRover发布项目
项目成果仓库:
https://github.com/intelligent-machine-learning/atorch
项目一:为MOE实现Overlapped_forward_backward func
◎ 项目简述
基于DualPipe 的 MOE model 高效流水并行优化
DualPipe 是 DeepSeek 开源的一个流水并行算法。这个流水并行算法可以用于MOE大模型的分布式训练,将前向和后向计算与通信阶段的重叠,从而提升训练效率。现在还没有一个开源的MOE模型 DualPipe训练实现。
实现 MOE 模型 DualPipe优化 的关键:
1.是要针对MOE模型,定义一个包含 overlapped_forward_backward func 的 PipelineStage;
2.一个优化的 overlapped_forward_backward 实现,让计算和通信尽量的重叠,可以参考 DeepSeek 的 profiling: https://github.com/deepseek-ai/profile-data/blob/main/assets/train.jpg
目标是可以跑通一个使用 DualPipe 的MOE 模型,并且能达到较高的通信和计算重叠率。
五、VSAG 发布项目
项目成果仓库:
https://github.com/antgroup/vsag
项目一:为 HGraph 索引实现 INT8 类型支持
◎ 项目简述:
在非结构化数据检索场景中,最常见的向量是 float32 类型。其实 float32 类型外,还有一些 embedding 模型输出的向量是 int8 类型。和 float32 的向量相比,int8 向量计算距离时所用的距离函数、指令集和支持的量化方法会有不同。
HGraph 是 VSAG 算法库新增加的图类型索引,目前只适配了 float32 类型的向量。希望你为 HGraph 增加 int8 类型的适配,使得 HGraph 能在 int8 类型的向量上构建索引和检索。
项目二:为 VSAG 增加 ARM 指令集支持
◎ 项目简述
随着大模型的发展和向量检索的的广泛应用,出现了许多国产化 CPU 和端上设备的向量检索需求。当前 VSAG 库对于 ARM 平台只做了最基础的适配,而向量检索是一个计算密集型的任务,为了提升效率,一般需要使用 CPU 的 SIMD 指令集来加速。
当前 VSAG 已经实现了在 x86 平台的指令集计算代码(SSE/AVX/AVX2/AVX512),并支持根据运行平台的指令情况运行时切换。
希望你为 VSAG 索引库增加 ARM 平台的指令集计算代码(SVE/NEON),并且实现和 x86 平台一样的运行时检测和切换功能。
项目三:为 VSAG 增加 PC 端(Windows/macOS)开发和运行支持
◎ 项目简述
当下大模型和RAG的爆火带来了许多新的向量检索需求,有许多场景发生在 PC 端上,例如为了隐私考虑,希望图片搜索功能发生在本地而不是云上。
windows/macOS 系统作为桌面端,和linux系统有许多不同,包括开发工具、第三方库等等,VSAG 目前还不支持在 windows/macOS 平台上开发和运行。增加 windows/macOS 平台的适配,有助于将 VSAG 中的高效向量检索算法应用到更多场景中。
希望你将 VSAG 索引库与 windows/macOS 系统进行适配,使 VSAG 能够在 windows/macOS 平台上开发和高效运行,为终端应用上的向量检索提供更好的向量检索算法。
活动流程
即日起 - 6月9日,符合条件的同学可以通过开源之夏官网(https://summer-ospp.ac.cn/)注册、与导师沟通项目并提交项目申请。
期待优秀的你加入社区项目,在这个暑假深入领略开源技术的魅力,一起探索代码的无限可能,我们在开源之夏等你~