IBM发布最新AI模型,帮视障者“看”到更多

简介: 在IBM最新的论文中,研究人员提出了一种能自主制作多样化、创造性和符合人类语境的图片文字说明的模型。实验证明,图片的文字说明取得了“良好”的性能,未来可以为强大的新计算机视觉系统奠定了基础。

image.png

智造观点

在IBM最新的论文中,研究人员提出了一种能自主制作多样化、创造性和符合人类语境的图片文字说明的模型。实验证明,图片的文字说明取得了“良好”的性能,未来可以为强大的新计算机视觉系统奠定了基础。

无论是报社、杂志社还是新媒体,编辑们最不愿意干得事情就是为图片搭配文字说明。事实上这项工作必要且重要但实际操作上又非常枯燥。

不过,一个振奋人心的消息是,AI可能很快就能处理大部分工作。6月18日在加州长滩举行的2019年计算机视觉和模式识别会议(CVPR)上,Pierre L. Dognin, Igor Melnyk, Youssef Mroueh, Jarret Ross, Tom Sercu发表了一篇论文《改进图像说明的对抗性语义对齐》,提出了一种能够自主制作多样化、创造性和符合人类语境的图片文字说明的模型

image.png

在论文中,他们将图像说明作为一种有条件的GAN(生成式对抗网络)训练进行研究,提出了一种上下文感知的LSTM字幕器和共同注意鉴别器,它们加强了图像和字幕之间的语义对齐。

研究人员根据经验着重研究了SCST和ST两种训练方法的可行性。他们发现即使没有直接访问鉴别器梯度,SCST也比ST显示出更稳定的梯度行为和更好的结果。进而还解决了对这些模型进行自动评估的开放性问题,引入了一个新的语义评分,并证明了它与人类判断的强相关性。

作为评估范例,一个重要的标准是生成器能够概括出平常不会一起出现的对象之间的组合关系。为此研究人员引入了一个小标题能脱离上下文(OOC)测试集。OOC与常规语义评分相结合,为图片搭配说明文字得体系提出了新基准。当面向OOC和MS-COCO进行测试时,可以发现基于SCST的训练在语义评分和人类评估方面都有很强的表现,有望成为高效离散GAN训练的一种有价值的新方法。

image.png

目前,构建系统需要解决自动说明文字系统的一个主要缺点:顺序语言生成导致语法正确—但同质、非自然和语义不相关的结构

研究者的方法是通过一个注意力文字说明模型来解决这个问题,模型使用它正在观察的照片中的场景片段来造句。在每一个生成步骤中,团队的AI都可以选择关注最后一步的视觉或文本提示。

为了确保生成的文字说明听起来不太机械化,研究团队在训练时使用了生成对抗网络(GANs)——由生成样本的生成器和试图区分生成样本和现实世界样本的鉴别器组成的两部分神经网络。共同注意鉴别器通过一个在像素级匹配场景和生成单词的模型对新句子的“自然度”进行评分,使文字说明者能够通过图像和句子成对来进行合成。

文字说明系统中的另一个常见问题是,如何避免训练数据集的偏差,即经常遭受过度拟合(特定数据集过于接近的分析)就需要构建诊断工具,否则并不适合推广到学习对象(“床和卧室”)出现在看不见的环境(“床和森林”)中的场景。为此,研究人员提出了一种标题图像的测试语料库,其设计方式使得不良模型性能表明过度拟合。

image.png

在实验中,Amazon's Mechanical Turk评估人员负责识别AI模型生成的文字说明,并判断每句话对相应图像的描述程度,给出几个真实的和合成的样本,研究人员表示,他们的文字说明总体上取得了“良好”的性能。他们相信他们的工作为强大的新计算机视觉系统奠定了基础,并打算在未来的工作中继续探索这些系统。另外,衔接语言和视觉语义的鸿沟表明需要将常识和推理融入场景理解中。

未来,图像文字说明的自动生成和场景理解的进步,使AI系统可以作为视觉障碍者的助理改善他们的日常生活。
来源:微信公众号 人工智能观察

目录
相关文章
|
1月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
|
2月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
655 109
|
3月前
|
人工智能 自然语言处理 搜索推荐
AI Compass前沿速览:Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台
AI Compass前沿速览:Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台
AI Compass前沿速览:Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台
|
2月前
|
机器学习/深度学习 数据采集 人工智能
PyTorch学习实战:AI从数学基础到模型优化全流程精解
本文系统讲解人工智能、机器学习与深度学习的层级关系,涵盖PyTorch环境配置、张量操作、数据预处理、神经网络基础及模型训练全流程,结合数学原理与代码实践,深入浅出地介绍激活函数、反向传播等核心概念,助力快速入门深度学习。
186 1
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1375 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
1月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
256 120
|
3月前
|
机器学习/深度学习 人工智能 监控
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
大型动作模型(LAMs)作为人工智能新架构,融合神经网络与符号逻辑,实现企业重复任务的自动化处理。通过神经符号集成、动作执行管道、模式学习、任务分解等核心技术,系统可高效解析用户意图并执行复杂操作,显著提升企业运营效率并降低人工成本。其自适应学习能力与上下文感知机制,使自动化流程更智能、灵活,为企业数字化转型提供坚实支撑。
312 0
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
|
3月前
|
人工智能 JavaScript 测试技术
Cradle:颠覆AI Agent 操作本地软件,AI驱动的通用计算机控制框架,如何让基础模型像人一样操作你的电脑?
Cradle 是由 BAAI‑Agents 团队开源的通用计算机控制(GCC)多模态 AI Agent 框架,具备视觉输入、键鼠操作输出、自主学习与反思能力,可操作各类本地软件及游戏,实现任务自动化与复杂逻辑执行。
368 6

热门文章

最新文章

下一篇
oss云网关配置