OmniSearch:阿里巴巴通义推出的多模态检索增强生成框架

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: 本文介绍了阿里巴巴通义实验室推出的多模态检索增强生成框架 OmniSearch,该框架具备自适应规划能力,能够动态拆解复杂问题,根据检索结果和问题情境调整检索策略,从而提升检索效率和准确性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

功能:OmniSearch 能够动态拆解复杂问题,根据检索结果和问题情境调整检索策略。
技术:引入动态检索规划框架,基于递归检索与推理流程逐步接近问题解答。
资源:提供了 GitHub 仓库和在线体验 Demo,方便用户深入了解和使用。

正文(附运行示例)

OmniSearch 是什么

OmniSearch.png

OmniSearch 是阿里巴巴通义实验室推出的一款多模态检索增强生成框架,具备自适应规划能力。OmniSearch 能够动态拆解复杂问题,根据检索结果和问题情境调整检索策略,模拟人类在解决复杂问题时的行为方式,从而提升检索效率和准确性。OmniSearch 通过引入动态检索规划框架,基于递归检索与推理流程,逐步接近问题解答,显著提高了多模态检索的灵活性和效果。

OmniSearch 的核心创新在于其自适应检索规划能力。它能够根据问题解决的阶段和当前检索内容实时规划每个检索动作,模拟人类在解决复杂问题时的行为方式。这种动态的检索规划不仅提升了检索的效率和准确性,还使得 OmniSearch 在处理多模态信息时更加灵活和高效。

如何运行 OmniSearch

安装依赖

首先,安装所需的依赖项:

pip install -r requirements.txt

配置 API 密钥

在运行 OmniSearch 之前,请替换main.py中的 OPENAI API 密钥和search_api.py中的 Google Search API 密钥:

# main.py
GPT_API_KEY = "your_actual_key_here"
headers = {
   
    "Authorization": f"Bearer {GPT_API_KEY}"
}

# search_api.py
API_KEY = "your api-key"

运行主程序

运行main.py文件:

python main.py --test_dataset 'path/to/dataset.jsonl' --dataset_name NAME --meta_save_path 'path/to/results'

输出结果将保存到指定路径。

评估

使用以下命令评估输出答案的 token F1-Recall:

python evaluate.py --evaluate_file_path [path to output jsonl file] --lang [language of the QA dataset: en/zh]

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
347 121
|
1月前
|
数据采集 人工智能 搜索推荐
智能新纪元:多模态大模型如何重塑人机交互
智能新纪元:多模态大模型如何重塑人机交互
212 113
|
1月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
267 114
|
1月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
245 117
|
3月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
512 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
4月前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
410 1
|
4月前
|
人工智能 运维 算法
通义灵码软件工程大模型获顶会最高奖!
近日,软件领域国际顶会ISSTA 2025(International Symposium on Software Testing and Analysis)公布最高奖项-杰出论文奖——「通义灵码软件工程大模型SWE-GPT」成为唯一获得该奖项的企业论文
|
5月前
|
编解码 自然语言处理 安全
📣通义大模型新成员Qwen-VLo,重磅上线,它实现了从“看懂”世界到“描绘”世界
通义千问团队推出全新多模态统一理解与生成模型Qwen VLo,具备强大的图像理解与生成能力。它不仅能“看懂”图像内容,还能基于理解进行高质量再创造,实现从感知到生成的跨越。支持开放指令编辑、多语言交互及复杂任务处理,适用于图像生成、风格迁移、检测标注等多种场景。
1065 1

热门文章

最新文章