商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型

简介: 商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。

近日,商汤科技、清华大学、复旦大学等机构联合开源了一个名为OmniCorpus的多模态数据集,其规模达到了惊人的百亿级。这一数据集的发布,有望为训练类似GPT-4级别的大型多模态模型提供有力支持。

OmniCorpus数据集由多个图像和文本组成,以自然文档的形式排列,这种图像-文本交错的数据形式与互联网数据的呈现方式相一致,也更接近人类的阅读习惯。近年来的研究已经证明,这种数据形式有助于多模态的上下文学习,并且在多模态微调过程中能够保持大型语言模型的能力。

然而,目前可用的图像-文本交错数据在规模和多样性上都存在一定的局限性,这限制了多模态大型语言模型的发展。为了解决这一问题,研究团队引入了OmniCorpus数据集,其规模达到了100亿级。通过使用高效的数据引擎,他们过滤和提取了大量高质量的文档,其中包含86亿张图像和1696亿个文本标记。

与现有的类似数据集(如MMC4、OBELICS)相比,OmniCorpus具有以下几个优势:首先,它的规模要大15倍,同时保持了良好的数据质量;其次,它涵盖了更广泛的来源,包括英语和非英语网站,以及以视频为中心的网站;最后,它具有更大的灵活性,可以从图像-文本交错的格式轻松降级为纯文本语料库或图像-文本对。

研究团队通过全面的分析和实验,验证了所提出的数据集的质量、可用性和有效性。他们希望这个数据集能够为未来的多模态模型研究提供坚实的基础。代码和数据已经在相关链接上发布。

OmniCorpus数据集的发布对于推动多模态模型的发展具有重要意义。首先,它为研究人员提供了一个规模庞大、质量可靠的数据集,使得他们能够更好地探索多模态模型的潜力。其次,它的多样性和灵活性使得研究人员可以根据不同的需求和应用场景进行定制化的研究。最后,它的开源性质也促进了学术界和工业界的合作与共享,加速了多模态模型的发展和应用。

然而,OmniCorpus数据集也存在一些潜在的问题和挑战。首先,由于数据集的规模庞大,如何有效地存储、管理和检索数据成为一个重要的问题。其次,数据集的多样性虽然是一个优势,但也可能导致数据的不平衡和偏见,影响模型的泛化能力和公平性。最后,如何在保护用户隐私和数据安全的前提下使用和共享数据也是一个需要考虑的问题。

论文地址:https://arxiv.org/abs/2406.08418

目录
相关文章
|
4月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
429 2
|
5月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
508 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
4月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
1535 2
|
4月前
|
人工智能 自然语言处理 API
快速集成GPT-4o:下一代多模态AI实战指南
快速集成GPT-4o:下一代多模态AI实战指南
461 101
|
4月前
|
数据采集 人工智能 文字识别
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
本文深入解析多模态RAG技术,涵盖其基本原理、核心组件与实践路径。通过整合文本、图像、音频等多源信息,实现跨模态检索与生成,拓展AI应用边界。内容详实,建议收藏学习。
682 50
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
|
4月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
2130 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
5月前
智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!
视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
890 0
|
5月前
|
人工智能 算法 测试技术
轻量高效,8B 性能强劲书生科学多模态模型Intern-S1-mini开源
继 7 月 26 日开源『书生』科学多模态大模型 Intern-S1 之后,上海人工智能实验室(上海AI实验室)在8月23日推出了轻量化版本 Intern-S1-mini。
812 50

热门文章

最新文章