论文再报喜讯,「增强现实中的显著性问题」入选ACMMM!

简介: ACM 国际多媒体大会(英文名称:ACM Multimedia,简称:ACM MM)是多媒体领域的顶级国际会议,每年举办一次。多媒体研究的重点是整合不同数字形式(包括图像,文本,视频,音乐,传感器数据,口头音频)提供的多种视角。自1993年以来,ACM多媒体一直将学术界和工业界的研究人员和从业人员汇聚在一起,提出创新的研究成果并讨论最新进展。会议的一个特别部分是艺术计划,该计划探索计算机科学与艺术的界限。


论文题目

Saliency in Augmented Reality 增强现实中的显著性问题


论文简介

随着多媒体技术的飞速发展,增强现实(AR)已成为具有发展前景的下一代移动平台。AR 背后的主要理论是人类视觉混淆,它允许用户通过将它们叠加在一起来同时感知现实世界场景和增强内容(虚拟世界场景)场景。要获得良好的体验质量(QoE),重要的是要了解两个场景之间的交互,并和谐地展示 AR 内容。然而目前关于这种叠加将如何影响人类视觉注意力的研究还是比较稀缺的。因此,在本文中,我们主要分析背景(BG)场景与 AR 内容之间的交互效果,研究 AR 中的显著性预测问题。具体来说,我们首先构建了一个 Saliency in AR Dataset (SARD),其中包含 450 个 BG 图像、450 个 AR 图像以及 1350 个通过将 BG 和 AR 图像以三个混合级别叠加生成的叠加图像。对 60 名受试者进行了大规模的眼动追踪实验,以收集眼动数据。为了更好地预测 AR 中的显性,我们提出了一种矢量量化显性预测方法,并将其推广到 AR 显性预测。为进行科学比较,我们提出了三种基准方法,并与我们在 SARD 上提出的方法一起进行了评估。实验结果证明了我们提出的方法在常见的显性预测问题和 AR 显性预测问题上均优于基准方法。我们的数据收集方法、数据集、基准方法和提出的显性模型将公开提供,以促进未来的研究。

论文提出的VQSal-AR模型框架图


论文作者

Huiyu Duan, Wei Shen, Xiongkuo Min, Danyang Tu, Jing Li, Guangtao Zhai


(论文为优酷摩酷实验室与上海交通大学合作)

相关文章
|
机器学习/深度学习 搜索推荐 计算机视觉
【阿里云OpenVI-人脸感知理解系列之人脸识别】基于Transformer的人脸识别新框架TransFace ICCV-2023论文深入解读
本文介绍 阿里云开放视觉智能团队 被计算机视觉顶级国际会议ICCV 2023接收的论文 "TransFace: Calibrating Transformer Training for Face Recognition from a Data-Centric Perspective"。TransFace旨在探索ViT在人脸识别任务上表现不佳的原因,并从data-centric的角度去提升ViT在人脸识别任务上的性能。
2319 341
|
机器学习/深度学习 人工智能 自然语言处理
AIGC时代,大模型微调如何发挥最大作用?
AIGC时代,大模型微调如何发挥最大作用?
641 0
|
9月前
|
机器学习/深度学习 PyTorch 算法框架/工具
PyTorch与迁移学习:利用预训练模型提升性能
【4月更文挑战第18天】PyTorch支持迁移学习,助力提升深度学习性能。预训练模型(如ResNet、VGG)在大规模数据集(如ImageNet)训练后,可在新任务中加速训练,提高准确率。通过选择模型、加载预训练权重、修改结构和微调,可适应不同任务需求。迁移学习节省资源,但也需考虑源任务与目标任务的相似度及超参数选择。实践案例显示,预训练模型能有效提升小数据集上的图像分类任务性能。未来,迁移学习将继续在深度学习领域发挥重要作用。
|
人工智能 自然语言处理 搜索推荐
综述 | 推荐系统里预训练模型(一)
综述 | 推荐系统里预训练模型(一)
723 0
综述 | 推荐系统里预训练模型(一)
|
存储 自然语言处理 算法
GaiaX开源解读 | 表达式作为逻辑动态化的基础,我们是如何设计的
GaiaX跨端模板引擎,是在阿里优酷、淘票票、大麦内广泛使用的Native动态化方案,其核心优势是性能、稳定和易用。本系列文章《GaiaX开源解读》,带大家看看过去三年GaiaX的发展过程。
395 0
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
一文介绍CNN/RNN/GAN/Transformer等架构 !!
一文介绍CNN/RNN/GAN/Transformer等架构 !!
329 5
|
机器学习/深度学习 自然语言处理 安全
【网安AIGC专题10.11】论文1:生成式模型GPT\CodeX填充式模型CodeT5\INCODER+大模型自动程序修复(生成整个修复函数、修复代码填充、单行代码生产、生成的修复代码排序和过滤)
【网安AIGC专题10.11】论文1:生成式模型GPT\CodeX填充式模型CodeT5\INCODER+大模型自动程序修复(生成整个修复函数、修复代码填充、单行代码生产、生成的修复代码排序和过滤)
235 0
|
机器学习/深度学习 存储 人工智能
如何让用户找到想要的内容?阿里文娱搜索算法实践
视频搜索是涉及信息检索,自然语言处理(NLP),机器学习、计算机视觉(CV)等多领域的综合应用场景,随着深度学习在这些领域的长足进展以及用户对视频生产和消费的广泛需求,视频搜索技术的发展在学术和工业界都取得了飞速的发展。
如何让用户找到想要的内容?阿里文娱搜索算法实践
|
9月前
|
机器学习/深度学习 自然语言处理 算法
19ContraBERT:顶会ICSE23 数据增强+对比学习+代码预训练模型,提升NLP模型性能与鲁棒性:处理程序变异(变量重命名)【网安AIGC专题11.15】
19ContraBERT:顶会ICSE23 数据增强+对比学习+代码预训练模型,提升NLP模型性能与鲁棒性:处理程序变异(变量重命名)【网安AIGC专题11.15】
265 1
|
9月前
|
机器学习/深度学习 计算机视觉
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
139 0

热门文章

最新文章