商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型

简介: 商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。

近日,商汤科技、清华大学、复旦大学等机构联合开源了一个名为OmniCorpus的多模态数据集,其规模达到了惊人的百亿级。这一数据集的发布,有望为训练类似GPT-4级别的大型多模态模型提供有力支持。

OmniCorpus数据集由多个图像和文本组成,以自然文档的形式排列,这种图像-文本交错的数据形式与互联网数据的呈现方式相一致,也更接近人类的阅读习惯。近年来的研究已经证明,这种数据形式有助于多模态的上下文学习,并且在多模态微调过程中能够保持大型语言模型的能力。

然而,目前可用的图像-文本交错数据在规模和多样性上都存在一定的局限性,这限制了多模态大型语言模型的发展。为了解决这一问题,研究团队引入了OmniCorpus数据集,其规模达到了100亿级。通过使用高效的数据引擎,他们过滤和提取了大量高质量的文档,其中包含86亿张图像和1696亿个文本标记。

与现有的类似数据集(如MMC4、OBELICS)相比,OmniCorpus具有以下几个优势:首先,它的规模要大15倍,同时保持了良好的数据质量;其次,它涵盖了更广泛的来源,包括英语和非英语网站,以及以视频为中心的网站;最后,它具有更大的灵活性,可以从图像-文本交错的格式轻松降级为纯文本语料库或图像-文本对。

研究团队通过全面的分析和实验,验证了所提出的数据集的质量、可用性和有效性。他们希望这个数据集能够为未来的多模态模型研究提供坚实的基础。代码和数据已经在相关链接上发布。

OmniCorpus数据集的发布对于推动多模态模型的发展具有重要意义。首先,它为研究人员提供了一个规模庞大、质量可靠的数据集,使得他们能够更好地探索多模态模型的潜力。其次,它的多样性和灵活性使得研究人员可以根据不同的需求和应用场景进行定制化的研究。最后,它的开源性质也促进了学术界和工业界的合作与共享,加速了多模态模型的发展和应用。

然而,OmniCorpus数据集也存在一些潜在的问题和挑战。首先,由于数据集的规模庞大,如何有效地存储、管理和检索数据成为一个重要的问题。其次,数据集的多样性虽然是一个优势,但也可能导致数据的不平衡和偏见,影响模型的泛化能力和公平性。最后,如何在保护用户隐私和数据安全的前提下使用和共享数据也是一个需要考虑的问题。

论文地址:https://arxiv.org/abs/2406.08418

目录
相关文章
|
8天前
|
人工智能 算法 测试技术
OctoTools:斯坦福开源AI推理神器!16项测试准确率碾压GPT-4o,一键搞定复杂任务
OctoTools 是斯坦福大学推出的开源智能体框架,通过标准化工具卡片和自动化工具集优化算法,显著提升复杂推理任务的解决效率,支持多领域应用。
47 3
OctoTools:斯坦福开源AI推理神器!16项测试准确率碾压GPT-4o,一键搞定复杂任务
|
6天前
|
机器学习/深度学习 人工智能 编解码
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
R1-Onevision 是一款开源的多模态视觉推理模型,基于 Qwen2.5-VL 微调,专注于复杂视觉推理任务。它通过整合视觉和文本数据,能够在数学、科学、深度图像理解和逻辑推理等领域表现出色,并在多项基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。
60 0
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
通古大模型由华南理工大学开发,专注于古籍文言文处理,具备强大的古文句读、文白翻译和诗词创作功能。
91 11
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
|
1天前
|
Web App开发 人工智能 自然语言处理
GPT-5涌现能力可预测?UC伯克利仅使用当前模型检查点预测未来模型
加州大学伯克利分校的一项新研究提出了一种基于微调大型语言模型(LLM)的方法,以预测未来模型的涌现能力。通过在特定任务上微调现有模型并拟合参数化函数,研究团队能够在四个NLP基准测试中准确预测未来模型的能力。该方法为模型开发者和政策制定者提供了重要工具,但也存在局限性,如仅能预测4倍计算资源内的涌现现象。论文地址:https://arxiv.org/pdf/2411.16035。
15 1
|
2月前
|
机器学习/深度学习 人工智能 算法
k1.5:性能超越 GPT-4 和 Claude 3.5!Kimi 新一代多模态推理模型
Kimi k1.5 是月之暗面推出的多模态思考模型,具备强大的推理和多模态处理能力,支持长链思维与短链思维,性能超越GPT-4和Claude 3.5。
378 10
k1.5:性能超越 GPT-4 和 Claude 3.5!Kimi 新一代多模态推理模型
|
2月前
|
人工智能 语音技术 iOS开发
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
MiniCPM-o 2.6 是面壁智能开源的多模态大模型,支持视觉、语音和多模态直播,性能媲美GPT-4o,能够在端侧设备上高效运行。
367 10
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
|
24天前
|
自然语言处理 自动驾驶 机器人
续命Scaling Law?世界模型GPT-4o让智能体超级规划,OSU华人一作
GPT-4o是OpenAI推出的先进语言模型,不仅在自然语言处理上表现出色,更在智能体规划领域展现了巨大潜力。它能模拟预测行动结果,提供决策支持,实现高效智能规划。适用于自动驾驶、机器人等领域,助力复杂任务的优化执行。尽管面临计算资源和环境一致性等挑战,GPT-4o仍为智能体规划带来新机遇。论文地址:https://arxiv.org/abs/2411.06559
30 2
|
8月前
|
存储 SQL 数据库
Python 金融编程第二版(GPT 重译)(四)(4)
Python 金融编程第二版(GPT 重译)(四)
77 3
|
8月前
|
存储 NoSQL 索引
Python 金融编程第二版(GPT 重译)(一)(4)
Python 金融编程第二版(GPT 重译)(一)
84 2
|
8月前
|
存储 机器学习/深度学习 关系型数据库
Python 金融编程第二版(GPT 重译)(四)(5)
Python 金融编程第二版(GPT 重译)(四)
52 2

热门文章

最新文章