商汤、清华、复旦等开源百亿级多模态数据集，可训练类GPT-4o模型-阿里云开发者社区

商汤、清华、复旦等开源百亿级多模态数据集，可训练类GPT-4o模型

2024-10-08 284

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集，规模达百亿级，旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记，远超现有数据集规模并保持高质量，具备广泛来源和灵活性，可轻松转换为纯文本或图像-文本对。经验证，该数据集质量优良，有望促进多模态模型研究，但同时也面临存储管理、数据偏见及隐私保护等挑战。

近日，商汤科技、清华大学、复旦大学等机构联合开源了一个名为OmniCorpus的多模态数据集，其规模达到了惊人的百亿级。这一数据集的发布，有望为训练类似GPT-4级别的大型多模态模型提供有力支持。

OmniCorpus数据集由多个图像和文本组成，以自然文档的形式排列，这种图像-文本交错的数据形式与互联网数据的呈现方式相一致，也更接近人类的阅读习惯。近年来的研究已经证明，这种数据形式有助于多模态的上下文学习，并且在多模态微调过程中能够保持大型语言模型的能力。

然而，目前可用的图像-文本交错数据在规模和多样性上都存在一定的局限性，这限制了多模态大型语言模型的发展。为了解决这一问题，研究团队引入了OmniCorpus数据集，其规模达到了100亿级。通过使用高效的数据引擎，他们过滤和提取了大量高质量的文档，其中包含86亿张图像和1696亿个文本标记。

与现有的类似数据集（如MMC4、OBELICS）相比，OmniCorpus具有以下几个优势：首先，它的规模要大15倍，同时保持了良好的数据质量；其次，它涵盖了更广泛的来源，包括英语和非英语网站，以及以视频为中心的网站；最后，它具有更大的灵活性，可以从图像-文本交错的格式轻松降级为纯文本语料库或图像-文本对。

研究团队通过全面的分析和实验，验证了所提出的数据集的质量、可用性和有效性。他们希望这个数据集能够为未来的多模态模型研究提供坚实的基础。代码和数据已经在相关链接上发布。

OmniCorpus数据集的发布对于推动多模态模型的发展具有重要意义。首先，它为研究人员提供了一个规模庞大、质量可靠的数据集，使得他们能够更好地探索多模态模型的潜力。其次，它的多样性和灵活性使得研究人员可以根据不同的需求和应用场景进行定制化的研究。最后，它的开源性质也促进了学术界和工业界的合作与共享，加速了多模态模型的发展和应用。

然而，OmniCorpus数据集也存在一些潜在的问题和挑战。首先，由于数据集的规模庞大，如何有效地存储、管理和检索数据成为一个重要的问题。其次，数据集的多样性虽然是一个优势，但也可能导致数据的不平衡和偏见，影响模型的泛化能力和公平性。最后，如何在保护用户隐私和数据安全的前提下使用和共享数据也是一个需要考虑的问题。

论文地址：https://arxiv.org/abs/2406.08418

商汤、清华、复旦等开源百亿级多模态数据集，可训练类GPT-4o模型

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

商汤、清华、复旦等开源百亿级多模态数据集，可训练类GPT-4o模型

热门文章

最新文章

相关课程

相关电子书

相关实验场景