OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集,旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本,涵盖自然图像和信息图表,结合开放式问答对,支持知识问答、推理任务和创造性任务。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎉 “多模态模型的新里程碑!OmniAlign-V 数据集助力 AI 更懂人类偏好”

大家好,我是蚝油菜花。你是否也遇到过——

  • 👉 多模态模型生成的回答与人类期望不符,缺乏深度和创造性?
  • 👉 复杂的图像和图表难以被模型准确理解和解释?
  • 👉 模型在跨学科知识和开放式问答任务中表现不佳?

今天介绍的 OmniAlign-V,正是为了解决这些问题而生!这个由上海交通大学、上海AI Lab等顶尖机构联合推出的高质量数据集,包含约20万个多模态训练样本,涵盖自然图像和信息图表,结合开放式、知识丰富的问答对,旨在提升多模态大语言模型与人类偏好的对齐能力。无论是知识问答、推理任务,还是创造性任务,OmniAlign-V 都能为模型提供强大的支持。接下来,让我们一起深入了解这个数据集的核心功能和技术原理!

🚀 快速阅读

OmniAlign-V 是一个专为提升多模态大语言模型与人类偏好对齐能力而设计的高质量数据集。

  1. 核心功能:提供高质量的多模态训练数据,增强模型的开放式问答能力,提升推理和创造性能力。
  2. 技术原理:基于图像筛选与分类、任务设计与数据生成、后处理优化等技术,确保数据的多样性和高质量。

OmniAlign-V 是什么

OmniAlign-V

OmniAlign-V 是由上海交通大学、上海AI Lab、南京大学、复旦大学和浙江大学联合推出的高质量多模态数据集。该数据集旨在提升多模态大语言模型(MLLMs)与人类偏好的对齐能力,包含约20万个多模态训练样本,涵盖自然图像和信息图表,结合开放式、知识丰富的问答对。

OmniAlign-V 的设计注重任务的多样性,包括知识问答、推理任务和创造性任务。通过复杂问题和多样化回答格式,数据集能够有效提升模型的对齐能力。此外,OmniAlign-V 引入了图像筛选策略,确保语义丰富且复杂的图像被用于数据生成,从而进一步提升模型的表现。

OmniAlign-V 的主要功能

  • 提供高质量的多模态训练数据:包含约20万个多模态训练样本,涵盖自然图像和信息图表(如海报、图表等),结合复杂问题和多样化回答格式,帮助模型更好地理解人类的偏好和需求。
  • 增强模型的开放式问答能力:数据集设计注重开放式问题、跨学科知识和综合回答,让模型生成更符合人类偏好的回答。
  • 提升模型的推理和创造性能力:训练模型进行更复杂的思考和创作,从而提升其在多模态交互中的表现。
  • 优化多模态指令调优:基于高质量的指令调优数据,帮助模型更好地遵循人类指令,保持基础能力(如目标识别、OCR等)。
  • 支持多模态模型的持续优化:OmniAlign-V 用于监督微调(SFT),结合直接偏好优化(DPO)进一步提升模型的对齐能力。

OmniAlign-V 的技术原理

  • 图像筛选与分类:基于图像复杂度(IC)评分和对象类别(OC)过滤,筛选出语义丰富且复杂的图像。图像被分类为自然图像和信息图表,针对不同类型的图像设计不同的任务。
  • 任务设计与数据生成:自然图像任务包括知识问答、推理任务和创造性任务,提升模型对真实场景的理解和生成能力。信息图表任务针对图表、海报等设计特定任务,要求模型具备对复杂信息的理解和解释能力。用 GPT-4o 等先进模型生成高质量的问答对,基于后处理优化数据质量。
  • 后处理优化:对生成的问答对进行后处理,包括指令增强、推理增强和信息图表答案的精细化处理,确保数据的多样性和高质量。
  • 多模态训练与优化:基于监督微调(SFT)和直接偏好优化(DPO)提升模型的对齐能力。数据集设计注重多样性和复杂性,让模型在多模态交互中更好地理解人类偏好。
  • 基准测试与评估:引入 MM-AlignBench 基准测试,评估 MLLMs 在人类偏好对齐方面的表现,确保模型在真实场景中的适用性。

如何运行 OmniAlign-V

1. 安装

建议使用 conda 创建一个 Python-3.10 的虚拟环境:

conda create --name omnialign-env python=3.10 -y
conda activate omnialign-env

从源码安装 OmniAlign-V:

git clone https://github.com/PhoenixZ810/OmniAlign-V.git
cd OmniAlign-V
pip install -e '.[all]'

2. 数据准备

  • 预训练数据:使用 ALLaVA-pretrain 和 LLaVA-pretrain-558k 作为预训练数据。
  • SFT 数据:在 SFT 阶段使用 LLaVA-Next-SFT-778K 和 OmniAlign-V-SFT 数据集。
  • DPO 数据:在 DPO 阶段仅使用 OmniAlign-V-DPO 数据集。

3. 模型权重

我们的模型权重可在 HuggingFace 的 ModelZoo 中找到。

4. 训练与评估

预训练阶段

使用以下命令进行预训练:

bash scripts/pretrain.sh

SFT 阶段

SFT 训练和评估可以通过以下命令启动:

bash scripts/llavanext_anyres/sft_AR4_llavanext.sh

DPO 阶段

DPO 训练和评估可以通过以下命令启动:

bash scripts/dpo/dpo_anyres.sh

仅评估

如果只想评估模型,可以使用以下命令:

torchrun --nproc_per_node 8\
    eval_run.py \
    --data MMAlignBench \
    --model YOUR_MODEL_NAME \
    --path PATH_TO_CHECKPOINT \
    --reuse \

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
1月前
|
人工智能 监控 安全
人体姿态[站着、摔倒、坐、深蹲、跑]检测数据集(6000张图片已划分、已标注)| AI训练适用于目标检测
本数据集包含6000张已标注人体姿态图片,覆盖站着、摔倒、坐、深蹲、跑五类动作,按5:1划分训练集与验证集,标注格式兼容YOLO等主流框架,适用于跌倒检测、健身分析、安防监控等AI目标检测任务,开箱即用,助力模型快速训练与部署。
|
1月前
|
人工智能 监控 算法
人群计数、行人检测数据集(9000张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含9000张已标注、已划分的行人图像,适用于人群计数与目标检测任务。支持YOLO等主流框架,涵盖街道、商场等多种场景,标注精准,结构清晰,助力AI开发者快速训练高精度模型,应用于智慧安防、人流统计等场景。
人群计数、行人检测数据集(9000张图片已划分、已标注) | AI训练适用于目标检测任务
|
1月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
347 121
|
1月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
267 114
|
1月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
257 120
|
1月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
243 117
|
1月前
|
人工智能 机器人 人机交互
当AI学会“看、听、懂”:多模态技术的现在与未来
当AI学会“看、听、懂”:多模态技术的现在与未来
267 117

热门文章

最新文章

下一篇
oss云网关配置