商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型

简介: 商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。

近日,商汤科技、清华大学、复旦大学等机构联合开源了一个名为OmniCorpus的多模态数据集,其规模达到了惊人的百亿级。这一数据集的发布,有望为训练类似GPT-4级别的大型多模态模型提供有力支持。

OmniCorpus数据集由多个图像和文本组成,以自然文档的形式排列,这种图像-文本交错的数据形式与互联网数据的呈现方式相一致,也更接近人类的阅读习惯。近年来的研究已经证明,这种数据形式有助于多模态的上下文学习,并且在多模态微调过程中能够保持大型语言模型的能力。

然而,目前可用的图像-文本交错数据在规模和多样性上都存在一定的局限性,这限制了多模态大型语言模型的发展。为了解决这一问题,研究团队引入了OmniCorpus数据集,其规模达到了100亿级。通过使用高效的数据引擎,他们过滤和提取了大量高质量的文档,其中包含86亿张图像和1696亿个文本标记。

与现有的类似数据集(如MMC4、OBELICS)相比,OmniCorpus具有以下几个优势:首先,它的规模要大15倍,同时保持了良好的数据质量;其次,它涵盖了更广泛的来源,包括英语和非英语网站,以及以视频为中心的网站;最后,它具有更大的灵活性,可以从图像-文本交错的格式轻松降级为纯文本语料库或图像-文本对。

研究团队通过全面的分析和实验,验证了所提出的数据集的质量、可用性和有效性。他们希望这个数据集能够为未来的多模态模型研究提供坚实的基础。代码和数据已经在相关链接上发布。

OmniCorpus数据集的发布对于推动多模态模型的发展具有重要意义。首先,它为研究人员提供了一个规模庞大、质量可靠的数据集,使得他们能够更好地探索多模态模型的潜力。其次,它的多样性和灵活性使得研究人员可以根据不同的需求和应用场景进行定制化的研究。最后,它的开源性质也促进了学术界和工业界的合作与共享,加速了多模态模型的发展和应用。

然而,OmniCorpus数据集也存在一些潜在的问题和挑战。首先,由于数据集的规模庞大,如何有效地存储、管理和检索数据成为一个重要的问题。其次,数据集的多样性虽然是一个优势,但也可能导致数据的不平衡和偏见,影响模型的泛化能力和公平性。最后,如何在保护用户隐私和数据安全的前提下使用和共享数据也是一个需要考虑的问题。

论文地址:https://arxiv.org/abs/2406.08418

目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
123_自监督任务变体:Causal LM详解 - GPT-style下一词预测机制与训练优化
2025年,自监督学习已成为大型语言模型(LLM)训练的核心范式,其中因果语言建模(Causal Language Modeling, CLM)作为GPT系列模型的基础训练目标,展现出了卓越的生成能力和下游任务迁移性能。与掩码语言建模(Masked Language Modeling, MLM)不同,因果语言建模专注于预测序列中的下一个词元,这种训练方式自然地适应了自回归生成的需求,为文本生成、对话系统等任务奠定了坚实基础。
|
5月前
|
人工智能 自然语言处理 API
快速集成GPT-4o:下一代多模态AI实战指南
快速集成GPT-4o:下一代多模态AI实战指南
491 101
|
5月前
|
数据采集 人工智能 文字识别
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
本文深入解析多模态RAG技术,涵盖其基本原理、核心组件与实践路径。通过整合文本、图像、音频等多源信息,实现跨模态检索与生成,拓展AI应用边界。内容详实,建议收藏学习。
781 50
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
|
9月前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
392 17
|
5月前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。
|
7月前
|
人工智能 数据挖掘 API
Kimi K2开源炸场,1万亿参数碾压GPT-4.1,成本仅Claude 4的1/5!
月之暗面开源的万亿参数大模型Kimi K2引发行业震动,48小时内即登顶OpenRouter API调用榜,GitHub项目激增200%。该模型在代码生成、Agent任务及中文创作上超越Claude 4,标志着中国大模型首次在三大核心能力上达到全球顶尖水平。
|
9月前
|
人工智能 API 开发者
狂揽7.5k星!这款开源API网关彻底解放开发者:一键聚合GPT-4、Suno、Midjourney,还能在线充值!
New API 是一款基于 One API 二次开发的 AI 模型接口管理与分发系统,支持多种大模型(如 GPT-4、Suno、Midjourney 等)统一封装为 OpenAI 格式接口调用。其核心功能包括多模型统一网关、企业级权限管控、“推理力度”分级、无魔法访问全球 AI 服务、灵活计费体系及开发者友好设计。技术架构采用 Golang + Gin 框架,支持高并发低延迟,适用于企业内部 AI 中台、多模型 SaaS 平台、学术研究协作及个人开发者工具等场景。项目开源地址:https://github.com/kingbug/new-api。
3031 6
|
5月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
478 2

热门文章

最新文章