8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

简介: 【5月更文挑战第10天】TextSquare,由字节跳动、华东师大和华中科技大学联合研发,是新型的文本中心视觉问答模型,借助Square-10M数据集在VQA任务上取得突破。在6个OCRBench等基准上超越现有最佳模型,如GPT4V和Gemini。模型利用视觉问答推理数据增强上下文理解,减少幻觉现象,平均准确率75.1%。但面对复杂问题和泛化能力仍有挑战。[论文链接](https://arxiv.org/abs/2404.12803)

在人工智能领域,多模态大模型的发展一直备受关注。最近,由字节跳动、华东师范大学和华中科技大学联合研究团队提出的TextSquare模型,在文字多模态视觉问答(VQA)任务上取得了令人瞩目的成绩。

TextSquare模型是一种基于大规模语言模型的文本中心视觉问答模型。它通过使用一种名为Square-10M的大规模、高质量指令微调数据集,实现了在视觉问答任务上的突破。该数据集的构建过程包括自我提问、回答、推理和评估四个步骤,利用了闭源的大规模语言模型进行数据生成。

研究团队在OCRBench等10个文本中心的视觉问答基准上对TextSquare模型进行了评估。结果显示,TextSquare模型在6个基准上的性能超过了当前最先进的模型,如GPT4V和Gemini。这表明TextSquare模型在处理文本中心的视觉问答任务上具有出色的能力。

此外,研究团队还发现,视觉问答推理数据在提供特定问题的全面上下文洞察方面起着至关重要的作用。这些数据不仅可以提高模型的准确性,还可以显著减少模型的幻觉现象。在四个通用的视觉问答和幻觉评估数据集上,TextSquare模型的平均得分为75.1%,超过了先前最先进的模型。

然而,尽管TextSquare模型在视觉问答任务上取得了显著的进展,但仍存在一些挑战和局限性。首先,尽管TextSquare模型在指令微调数据集上进行了大规模的训练,但在处理一些复杂的、不常见的问题时,仍可能存在性能下降的情况。其次,由于视觉问答任务的复杂性和多样性,模型的泛化能力仍然是一个需要进一步研究的问题。

论文地址:https://arxiv.org/abs/2404.12803

目录
相关文章
|
20天前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
32 1
|
6天前
|
自然语言处理
Meta首发变色龙挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
【5月更文挑战第27天】Meta推出34B参数的多模态模型Chameleon,通过早期融合技术处理图像和文本,实现全面的多模态建模。在10万亿token的训练数据下,Chameleon在图像字幕生成和文本推理任务中刷新SOTA,展现出在混合模态生成和推理的潜力。然而,模型可能无法完全捕捉图像语义信息,且在某些特定任务上有优化空间。[论文链接](https://arxiv.org/pdf/2405.09818)
22 1
|
17天前
|
人工智能 自然语言处理 数据可视化
一键本地部署类GPT大模型,免费!
一键本地部署类GPT大模型,免费!
41 1
|
20天前
|
人工智能 JSON 安全
超越GPT4!Cluade 3重磅发布!国外最新大模型!
超越GPT4!Cluade 3重磅发布!国外最新大模型!
24 0
|
20天前
|
机器学习/深度学习 数据采集 存储
百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4
百川智能发布大语言模型Baichuan 3,参数超千亿,表现出色。在CMMLU、GAOKAO等中文任务评测中超越GPT-4,且在MATH、HumanEval等专项评测中证明其自然语言处理和代码生成实力。Baichuan 3在医疗领域,如MCMLE、MedExam等评测中成绩突出,成为中文医疗任务的最佳模型。此外,它通过“迭代式强化学习”提升语义理解和生成能力,诗词创作能力远超其他模型。Baichuan 3的推出标志着百川智能在大模型技术上的新里程碑。
48 0
|
20天前
|
机器学习/深度学习 传感器 人工智能
科技周报 | GPT商店上线即乱;大模型可被故意“教坏”?
科技周报 | GPT商店上线即乱;大模型可被故意“教坏”?
31 1
|
20天前
|
人工智能 测试技术 vr&ar
GPT超越扩散、视觉生成Scaling Law时刻!北大&字节提出VAR范式
【4月更文挑战第22天】北京大学与字节跳动联合研发的Visual AutoRegressive modeling (VAR)是一种创新的图像生成范式,通过“下一尺度预测”而非传统的“下一标记预测”学习视觉分布。VAR在ImageNet基准上提升了自回归模型的FID和IS,同时加快了20倍推理速度,超越扩散变换器。该模型展示出与大型语言模型相似的缩放定律,解决了自回归模型的计算成本问题和扩散模型的速度不足。VAR具备零样本泛化能力,适用于图像修复等任务,未来研究将探索其在高分辨率图像和视频生成中的潜力。[论文链接](https://arxiv.org/abs/2404.02905)
16 1
|
20天前
|
数据采集 编解码 人工智能
超越GPT-4V,苹果多模态大模型上新!
【4月更文挑战第17天】苹果公司推出Ferret-UI,一款专为移动UI理解的新型MLLM,优于GPT-4V。该模型针对移动UI特点优化,采用“任意分辨率”技术处理屏幕细节,通过广泛的基础UI任务和高级任务训练,提升理解和推理能力。在基准测试中,Ferret-UI表现突出,显示了苹果在多模态语言模型领域的领先地位。尽管面临灵活性和训练数据质量挑战,Ferret-UI为移动应用自动化和智能助手发展开辟新路径。
40 1
超越GPT-4V,苹果多模态大模型上新!
|
20天前
|
人工智能 自然语言处理 前端开发
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
46 0
|
20天前
|
前端开发 JavaScript 安全
JavaScript 权威指南第七版(GPT 重译)(七)(4)
JavaScript 权威指南第七版(GPT 重译)(七)
30 0