今日 AI 开源｜共 10 项｜复合 AI 模型，融合多个开源 AI 模型组合解决复杂推理问题

2024-11-20 13

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，5000CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 今日 AI 简报涵盖多项技术革新，包括多模态检索增强生成框架、高保真虚拟试穿、视频生成、生成式软件开发、上下文感知记忆管理等，展示了 AI 在多个领域的广泛应用和显著进步。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

Fireworks f1：复合 AI 模型，多个开源 AI 模型组合解决复杂推理问题

Fireworks f1

Fireworks f1 是 Fireworks 公司推出的复合 AI 模型，针对复杂推理任务设计。基于在推理层融合多个开放模型，实现超越单一模型的性能和可靠性。Fireworks f1 模型支持开发者用提示的方式轻松访问复合 AI 的能力，简化构建复杂 AI 应用的过程。

资源

项目官网：https://fireworks.ai/blog/fireworks-compound-ai-system-f1
预览版地址：
- https://fireworks.ai/models/fireworks/f1-preview/playground（f1）
- https://fireworks.ai/models/fireworks/f1-mini-preview/playground（f1-mini）

Perplexica：开源 AI 搜索引擎，支持多种搜索模式、实时信息更新

Perplexica

Perplexica 是开源的 AI 驱动搜索引擎，基于机器学习算法和自然语言处理技术理解用户查询，提供精确答案。Perplexica 支持多种搜索模式，包括全网搜索、写作助手、学术搜索、YouTube 搜索、Wolfram Alpha 搜索和 Reddit 搜索。Perplexica 支持本地大型语言模型，用 API 将搜索功能集成到其他应用中，集成 SearxNG 搜索技术确保获得最新的信息。

资源

GitHub 仓库：https://github.com/ItzCrazyKns/Perplexica

OmniSearch：阿里通义推出的多模态检索增强生成框架

OmniSearch

OmniSearch 是阿里巴巴通义实验室推出的多模态检索增强生成框架，具备自适应规划能力。OmniSearch 能动态拆解复杂问题，根据检索结果和问题情境调整检索策略，模拟人类解决复杂问题的行为，提升检索效率和准确性。

资源

GitHub 仓库：https://github.com/Alibaba-NLP/OmniSearch
arXiv 技术论文：https://arxiv.org/pdf/2411.02937
在线体验 Demo：https://modelscope.cn/studios/iic/OmniSearch/summary

Documind：开源 AI 文档处理工具，将 PDF 转换为图像提取结构化数据

Documind

Documind 是开源的 AI 文档处理工具，能从 PDF 文档中提取结构化数据。Documind 具备将 PDF 转换为图像、用 OpenAI API 进行信息提取，根据用户定义的模式格式化输出结果的功能。Documind 支持在本地或云端灵活部署，适用于多种文档格式的数据处理。

资源

GitHub 仓库：https://github.com/DocumindHQ/documind

Memoripy：支持 AI 应用上下文感知的记忆管理 Python 库

Memoripy

Memoripy 是一个 Python 库，为 AI 应用提供上下文感知的记忆管理。Memoripy 支持短期和长期记忆存储，兼容 OpenAI 和 Ollama API。核心功能包括记忆检索、概念提取、图基关联、层次聚类及记忆衰减和强化。基于这些功能，Memoripy 帮助 AI 系统更好地理解和响应用户交互，提升对话的连贯性和个性化体验。

资源

GitHub 仓库：https://github.com/caspianmoon/memoripy

AgileGen：AI 生成式软件开发框架，自动生成软件代码和原型

AgileGen

AgileGen 是生成式软件开发框架，基于人与 AI 协作增强软件的创建过程。AgileGen 包含两个核心部分：终端用户决策制定和 AgileGen 智能体。框架用 Gherkin 语言设计和确认用户故事和验收标准，确保软件代码与用户需求保持一致。AgileGen 基于交互式系统收集用户决策，自动生成软件原型，支持用户反馈进行迭代改进，最终提供满足用户需求的软件产品。

资源

GitHub 仓库：https://github.com/UGAIForge/AgileGen
arXiv 技术论文：https://arxiv.org/pdf/2407.15568
在线体验 Demo：https://huggingface.co/spaces/HarrisClover/AgileGen

FitDiT：腾讯联合复旦推出的高保真虚拟试穿技术

FitDiT

FitDiT 是高保真虚拟试穿技术，是腾讯和复旦大学联合推出的。基于 Diffusion Transformers（DiT）关注高分辨率特征，提升服装细节的呈现。FitDiT 用服装纹理提取器和服装先验演化技术，增强对服装纹理如条纹、图案和文字的捕捉能力。用扩张-松弛掩码策略，优化服装尺寸适配问题。FitDiT 在定性和定量评估中表现优异，能快速生成具有真实感和复杂细节的试穿图像，推理速度快，为虚拟试穿领域带来突破。

资源

GitHub 仓库：https://github.com/BoyuanJiang/FitDiT
arXiv 技术论文：https://arxiv.org/pdf/2411.10499

Verifier Engineering：中科院、阿里、小红书联合推出的新型后训练范式

Verifier Engineering

Verifier Engineering（验证器工程）是中国科学院、阿里巴巴和小红书联合推出的新型后训练范式，为基础模型设计，解决提供有效监督信号的挑战。Verifier Engineering 基于自动化验证器执行验证任务并向基础模型提供反馈，分为搜索、验证和反馈三个阶段，优化模型性能。基于闭环反馈机制，强化模型的泛化能力，是实现人工通用智能的重要步骤。

资源

GitHub 仓库：https://github.com/icip-cas/Verifier-Engineering
arXiv 技术论文：https://arxiv.org/pdf/2411.11504

RAG-Diffusion：南京大学推出的区域感知文本到图像生成方法

RAG-Diffusion

RAG-Diffusion 是南京大学团队推出的区域感知文本到图像生成方法。基于区域硬绑定和区域软细化两个阶段，实现对图像中各个区域的精确控制和细节优化。RAG-Diffusion 支持图像重绘功能，用户在保持其他区域不变的情况下修改特定区域，无需额外的内绘模型。RAG-Diffusion 在属性绑定和对象关系方面展现出优于其他免微调方法的性能。

资源

GitHub 仓库：https://github.com/NJU-PCALab/RAG-Diffusion
arXiv 技术论文：https://arxiv.org/pdf/2411.06558

AnimateAnything：浙江大学联合北航推出的统一可控视频生成技术

AnimateAnything

AnimateAnything 是浙江大学和北京航空航天大学研究者推出的统一可控视频生成技术。AnimateAnything 能精确操作视频，包括控制相机轨迹、文本提示和用户动作注释。基于多尺度控制特征融合网络，该技术将控制信息转化为逐帧光流，指导视频生成。为减少大范围运动导致的闪烁，AnimateAnything 提出基于频率的稳定模块。

资源

GitHub 仓库：https://github.com/yu-shaonian/AnimateAnything
arXiv 技术论文：https://arxiv.org/pdf/2411.10836

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

今日 AI 开源｜共 10 项｜复合 AI 模型，融合多个开源 AI 模型组合解决复杂推理问题

Fireworks f1：复合 AI 模型，多个开源 AI 模型组合解决复杂推理问题

资源

Perplexica：开源 AI 搜索引擎，支持多种搜索模式、实时信息更新

资源

OmniSearch：阿里通义推出的多模态检索增强生成框架

资源

Documind：开源 AI 文档处理工具，将 PDF 转换为图像提取结构化数据

资源

Memoripy：支持 AI 应用上下文感知的记忆管理 Python 库

资源

AgileGen：AI 生成式软件开发框架，自动生成软件代码和原型

资源

FitDiT：腾讯联合复旦推出的高保真虚拟试穿技术

资源

Verifier Engineering：中科院、阿里、小红书联合推出的新型后训练范式

资源

RAG-Diffusion：南京大学推出的区域感知文本到图像生成方法

资源

AnimateAnything：浙江大学联合北航推出的统一可控视频生成技术

资源

ModelScope模型即服务

热门文章

最新文章

相关电子书

今日 AI 开源｜共 10 项｜ 复合 AI 模型，融合多个开源 AI 模型组合解决复杂推理问题

Fireworks f1：复合 AI 模型，多个开源 AI 模型组合解决复杂推理问题

资源

Perplexica：开源 AI 搜索引擎，支持多种搜索模式、实时信息更新

资源

OmniSearch：阿里通义推出的多模态检索增强生成框架

资源

Documind：开源 AI 文档处理工具，将 PDF 转换为图像提取结构化数据

资源

Memoripy：支持 AI 应用上下文感知的记忆管理 Python 库

资源

AgileGen：AI 生成式软件开发框架，自动生成软件代码和原型

资源

FitDiT：腾讯联合复旦推出的高保真虚拟试穿技术

资源

Verifier Engineering：中科院、阿里、小红书联合推出的新型后训练范式

资源

RAG-Diffusion：南京大学推出的区域感知文本到图像生成方法

资源

AnimateAnything：浙江大学联合北航推出的统一可控视频生成技术

资源

ModelScope模型即服务

热门文章

最新文章

相关电子书

今日 AI 开源｜共 10 项｜复合 AI 模型，融合多个开源 AI 模型组合解决复杂推理问题