今日 AI 开源|共 10 项| 复合 AI 模型,融合多个开源 AI 模型组合解决复杂推理问题

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 今日 AI 简报涵盖多项技术革新,包括多模态检索增强生成框架、高保真虚拟试穿、视频生成、生成式软件开发、上下文感知记忆管理等,展示了 AI 在多个领域的广泛应用和显著进步。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


Fireworks f1:复合 AI 模型,多个开源 AI 模型组合解决复杂推理问题

Fireworks f1

Fireworks f1 是 Fireworks 公司推出的复合 AI 模型,针对复杂推理任务设计。基于在推理层融合多个开放模型,实现超越单一模型的性能和可靠性。Fireworks f1 模型支持开发者用提示的方式轻松访问复合 AI 的能力,简化构建复杂 AI 应用的过程。

资源


Perplexica:开源 AI 搜索引擎,支持多种搜索模式、实时信息更新

Perplexica

Perplexica 是开源的 AI 驱动搜索引擎,基于机器学习算法和自然语言处理技术理解用户查询,提供精确答案。Perplexica 支持多种搜索模式,包括全网搜索、写作助手、学术搜索、YouTube 搜索、Wolfram Alpha 搜索和 Reddit 搜索。Perplexica 支持本地大型语言模型,用 API 将搜索功能集成到其他应用中,集成 SearxNG 搜索技术确保获得最新的信息。

资源


OmniSearch:阿里通义推出的多模态检索增强生成框架

OmniSearch

OmniSearch 是阿里巴巴通义实验室推出的多模态检索增强生成框架,具备自适应规划能力。OmniSearch 能动态拆解复杂问题,根据检索结果和问题情境调整检索策略,模拟人类解决复杂问题的行为,提升检索效率和准确性。

资源


Documind:开源 AI 文档处理工具,将 PDF 转换为图像提取结构化数据

Documind

Documind 是开源的 AI 文档处理工具,能从 PDF 文档中提取结构化数据。Documind 具备将 PDF 转换为图像、用 OpenAI API 进行信息提取,根据用户定义的模式格式化输出结果的功能。Documind 支持在本地或云端灵活部署,适用于多种文档格式的数据处理。

资源


Memoripy:支持 AI 应用上下文感知的记忆管理 Python 库

Memoripy

Memoripy 是一个 Python 库,为 AI 应用提供上下文感知的记忆管理。Memoripy 支持短期和长期记忆存储,兼容 OpenAI 和 Ollama API。核心功能包括记忆检索、概念提取、图基关联、层次聚类及记忆衰减和强化。基于这些功能,Memoripy 帮助 AI 系统更好地理解和响应用户交互,提升对话的连贯性和个性化体验。

资源


AgileGen:AI 生成式软件开发框架,自动生成软件代码和原型

AgileGen

AgileGen 是生成式软件开发框架,基于人与 AI 协作增强软件的创建过程。AgileGen 包含两个核心部分:终端用户决策制定和 AgileGen 智能体。框架用 Gherkin 语言设计和确认用户故事和验收标准,确保软件代码与用户需求保持一致。AgileGen 基于交互式系统收集用户决策,自动生成软件原型,支持用户反馈进行迭代改进,最终提供满足用户需求的软件产品。

资源


FitDiT:腾讯联合复旦推出的高保真虚拟试穿技术

FitDiT

FitDiT 是高保真虚拟试穿技术,是腾讯和复旦大学联合推出的。基于 Diffusion Transformers(DiT)关注高分辨率特征,提升服装细节的呈现。FitDiT 用服装纹理提取器和服装先验演化技术,增强对服装纹理如条纹、图案和文字的捕捉能力。用扩张-松弛掩码策略,优化服装尺寸适配问题。FitDiT 在定性和定量评估中表现优异,能快速生成具有真实感和复杂细节的试穿图像,推理速度快,为虚拟试穿领域带来突破。

资源


Verifier Engineering:中科院、阿里、小红书联合推出的新型后训练范式

Verifier Engineering

Verifier Engineering(验证器工程)是中国科学院、阿里巴巴和小红书联合推出的新型后训练范式,为基础模型设计,解决提供有效监督信号的挑战。Verifier Engineering 基于自动化验证器执行验证任务并向基础模型提供反馈,分为搜索、验证和反馈三个阶段,优化模型性能。基于闭环反馈机制,强化模型的泛化能力,是实现人工通用智能的重要步骤。

资源


RAG-Diffusion:南京大学推出的区域感知文本到图像生成方法

RAG-Diffusion

RAG-Diffusion 是南京大学团队推出的区域感知文本到图像生成方法。基于区域硬绑定和区域软细化两个阶段,实现对图像中各个区域的精确控制和细节优化。RAG-Diffusion 支持图像重绘功能,用户在保持其他区域不变的情况下修改特定区域,无需额外的内绘模型。RAG-Diffusion 在属性绑定和对象关系方面展现出优于其他免微调方法的性能。

资源


AnimateAnything:浙江大学联合北航推出的统一可控视频生成技术

AnimateAnything

AnimateAnything 是浙江大学和北京航空航天大学研究者推出的统一可控视频生成技术。AnimateAnything 能精确操作视频,包括控制相机轨迹、文本提示和用户动作注释。基于多尺度控制特征融合网络,该技术将控制信息转化为逐帧光流,指导视频生成。为减少大范围运动导致的闪烁,AnimateAnything 提出基于频率的稳定模块。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
20天前
|
人工智能 运维 安全
基于合合信息开源智能终端工具—Chaterm的实战指南【当运维遇上AI,一场效率革命正在发生】
在云计算和多平台运维日益复杂的今天,传统命令行工具正面临前所未有的挑战。工程师不仅要记忆成百上千条操作命令,还需在不同平台之间切换终端、脚本、权限和语法,操作效率与安全性常常难以兼顾。尤其在多云环境、远程办公、跨部门协作频繁的背景下,这些“低效、碎片化、易出错”的传统运维方式,已经严重阻碍了 IT 团队的创新能力和响应速度。 而就在这时,一款由合合信息推出的新型智能终端工具——Chaterm,正在悄然颠覆这一现状。它不仅是一款跨平台终端工具,更是业内率先引入 AI Agent 能力 的“会思考”的云资源管理助手。
84 6
|
24天前
|
机器学习/深度学习 人工智能 搜索推荐
AI与电商API的融合:开启智能推荐与精准营销新时代
人工智能(AI)与电商API的深度融合,正推动电商行业迈入智能推荐与精准营销的新时代。通过智能推荐系统、个性化服务、业务流程自动化等应用,AI助力电商平台提升运营效率、优化用户体验,并驱动商业模式创新。然而,数据安全、模型偏差和技术迭代等挑战亟待解决。未来,随着算法优化、自动化深化及跨平台支持加强,AI与电商API将为行业带来更多智能化、个性化的解决方案,开启电商发展的新篇章。
|
1月前
|
机器学习/深度学习 传感器 人工智能
AI与智能驾驶的关系和原理:技术融合与未来展望-优雅草卓伊凡
AI与智能驾驶的关系和原理:技术融合与未来展望-优雅草卓伊凡
72 3
AI与智能驾驶的关系和原理:技术融合与未来展望-优雅草卓伊凡
|
2月前
|
机器学习/深度学习 人工智能 Kubernetes
开源AI驱动的商业综合体保洁管理——智能视频分析系统的技术解析
智能保洁管理系统通过计算机视觉与深度学习技术,解决传统保洁模式中监管难、效率低的问题。系统涵盖垃圾滞留监测、地面清洁度评估、设施表面检测等功能,实现高精度(96%以上)、实时响应(<200毫秒)。基于开源TensorFlow与Kubernetes架构,支持灵活部署与定制开发,适用于商场、机场等场景,提升管理效率40%以上。未来可扩展至气味监测等领域,推动保洁管理智能化升级。
137 26
|
23天前
|
数据采集 人工智能 编解码
2025年颠覆闭源大模型?MonkeyOCR:这款开源AI文档解析模型,精度更高,速度更快!
还在依赖昂贵且慢的闭源OCR工具?华中科技大学开源的MonkeyOCR文档解析模型,以其超越GPT4o的精度和更快的推理速度,在单机单卡(3090)上即可部署,正颠覆业界认知。本文将深入解析其设计哲学、核心突破——大规模自建数据集,并分享实测体验与避坑指南。
357 0
|
2月前
|
人工智能 数据安全/隐私保护 Docker
短短时间,疯狂斩获1.9k star,开源AI神器AingDesk:一键部署上百模型,本地运行还能联网搜索!
AingDesk 是一款开源的本地 AI 模型管理工具,已获 1.9k Star。它支持一键部署上百款大模型(如 DeepSeek、Llama),适配 CPU/GPU,可本地运行并联网搜索。五大核心功能包括零门槛模型部署、实时联网搜证、私人知识库搭建、跨平台共享和智能体工厂,满足学术、办公及团队协作需求。相比 Ollama 和 Cherry Studio,AingDesk 更简单易用,适合技术小白、团队管理者和隐私敏感者。项目地址:https://github.com/aingdesk/AingDesk。
281 3
|
1月前
|
人工智能 自然语言处理 前端开发
上线几天,轻松斩获10k,开源通用AI智能体Suna:一句话自动处理Excel/爬数据/写报告,程序员私人助理诞生!
Suna是由Kortix推出的全球首个开源通用型AI Agent,可通过自然语言对话自动完成浏览器操作、数据分析、系统管理等复杂任务。它具有“执行力”,能像人类员工一样理解指令并操作数字工具,支持自托管保障数据安全,适用于市场分析、学术研究、企业办公等场景。Suna的核心优势在于实现“语言→行动”的转化,适合需要实际操作的任务,如爬虫、报表生成和网站部署。项目地址为:https://github.com/kortix-ai/suna。
146 0
|
2月前
|
数据采集 人工智能 算法
面向AI应用开发的开源能源管理系统
人工智能在能源管理中发挥关键作用,通过优化资源分配、智能消费管理、精准监测预测以及改善客户体验等多方面推动行业转型。MyEMS作为重要工具,基于Python语言集成AI技术,实现数据采集处理、负荷预测、能源优化控制、故障诊断预警及可视化展示等功能,提供全面智能化解决方案,助力可持续发展与能源效率提升。
67 0
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
当无人机遇上Agentic AI:新的应用场景及挑战
本文简介了Agentic AI与AI Agents的不同、Agentic无人机的概念、应用场景、以及所面临的挑战
112 5
当无人机遇上Agentic AI:新的应用场景及挑战
|
2月前
|
开发框架 人工智能 Java
破茧成蝶:阿里云应用服务器让传统 J2EE 应用无缝升级 AI 原生时代
本文详细介绍了阿里云应用服务器如何助力传统J2EE应用实现智能化升级。文章分为三部分:第一部分阐述了传统J2EE应用在智能化转型中的痛点,如协议鸿沟、资源冲突和观测失明;第二部分展示了阿里云应用服务器的解决方案,包括兼容传统EJB容器与微服务架构、支持大模型即插即用及全景可观测性;第三部分则通过具体步骤说明如何基于EDAS开启J2EE应用的智能化进程,确保十年代码无需重写,轻松实现智能化跃迁。
297 40

热门文章

最新文章