每日学术速递2.27

简介: 视觉知识感知问答 (Knowledge-aware question answering, KAQA) 要求模型通过知识库回答问题,这对于开放域 QA 和特定域 QA 都是必不可少的,尤其是当仅靠语言模型无法提供所需的所有知识时。尽管最近的 KAQA 系统倾向于整合来自预训练语言模型 (PLM) 的语言知识和来自知识图 (KG) 的事实知识来回答复杂问题,但在有效融合来自 PLM 和 KG 的表征方面存在瓶颈,因为(i) 它们之间的语义和分布差距,以及 (ii) 对两种模式提供的知识进行联合推理的困难。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CL


1.FiTs: Fine-grained Two-stage Training for Knowledge-aware Question Answering

1448f9f3fd3b25082d784358ba40a1c1.png

标题:FiTs:用于知识感知问答的细粒度两阶段训练

作者:Qichen Ye, Bowen Cao, Nuo Chen, Weiyuan Xu, Yuexian Zou

文章链接:https://arxiv.org/abs/2302.11799v1

项目代码:https://github.com/yeeeqichen/fits

948ce3951ea3eb7424c123e4deae4b91.png

0facb44e2ec8f3b28f8d34ce914ca930.png

38eeca430c2201c6b136cb1a21a01964.png


摘要:

       视觉知识感知问答 (Knowledge-aware question answering, KAQA) 要求模型通过知识库回答问题,这对于开放域 QA 和特定域 QA 都是必不可少的,尤其是当仅靠语言模型无法提供所需的所有知识时。尽管最近的 KAQA 系统倾向于整合来自预训练语言模型 (PLM) 的语言知识和来自知识图 (KG) 的事实知识来回答复杂问题,但在有效融合来自 PLM 和 KG 的表征方面存在瓶颈,因为(i) 它们之间的语义和分布差距,以及 (ii) 对两种模式提供的知识进行联合推理的困难。为了解决上述两个问题,我们提出了一个细粒度的两阶段训练框架(FiTs)来提高 KAQA 系统的性能:第一阶段旨在对齐来自 PLM 和 KG 的表示,从而弥合它们之间的模态差距,命名为知识自适应后训练。第二阶段称为知识感知微调,旨在提高模型基于对齐表示的联合推理能力。详细地说,除了 QA 监督之外,我们还通过两个辅助的自我监督任务对训练后模型进行了微调。大量实验表明,我们的方法在常识推理(即 CommonsenseQA、OpenbookQA)和医学问答(即 MedQA-USMILE)领域的三个基准测试中实现了最先进的性能。

2.Exploring Social Media for Early Detection of Depression in COVID-19 Patients


8a89eb1a84c82ff29540d160aa4ba490.png

标题:探索社交媒体以早期发现 COVID-19 患者的抑郁症

作者:Jiageng Wu, Xian Wu, Yining Hua, Shixu Lin, Yefeng Zheng, Jie Yang

文章链接:https://arxiv.org/abs/2302.12044v1

项目代码:https://github.com/dragon-wu/depcov-www2023

ebb771ad27f48664e8413a99bd6d9719.png

fa10feaaa24e7babeb8ff12f367ccab9.png

734b7f5e491f71e7708bfd55d5b8359c.png

摘要:

       COVID-19 大流行对全球健康造成了重大损害。尽管三年过去了,世界仍在与病毒作斗争。人们越来越担心 COVID-19 对受感染者心理健康的影响,这些人更容易患抑郁症,这可能对受影响的个人和整个世界产生长期影响。早期检测和干预可以降低 COVID-19 患者患抑郁症的风险。在本文中,我们通过社交媒体分析调查了 COVID-19 感染与抑郁症之间的关系。首先,我们管理了一个 COVID-19 患者的数据集,其中包含有关他们感染前后社交媒体活动的信息。其次,我们对该数据集进行了广泛的分析,以调查具有较高抑郁风险的 COVID-19 患者的特征。第三,我们提出了一种用于早期预测抑郁症风险的深度神经网络。该模型将日常情绪波动视为一种精神信号,并通过知识蒸馏结合文本和情感特征。实验结果表明,我们提出的框架在检测抑郁症风险方面优于基线,AUROC 为 0.9317,AUPRC 为 0.8116。我们的模型有可能使公共卫生组织能够对高危患者进行及时干预

Subjects: cs.CV


3.Region-Aware Diffusion for Zero-shot Text-driven Image Editing

c39a3b3730c664748a4ca0a6d8bbfbb8.png


标题:用于零样本文本驱动图像编辑的区域感知扩散

作者:Nisha Huang, Fan Tang, WeiMing Dong, Tong-Yee Lee, Changsheng Xu

文章链接:https://arxiv.org/abs/2302.11797v1

项目代码:https://github.com/haha-lisa/RDM-Region-Aware-Diffusion-Model

f136053dd1ab78f1232df62af8a9788a.png

3aaabc80f37c04d65941c01f034af37e.png

a098d59443a657241917bcca1fb9f398.png

摘要:

       在文本描述的指导下进行图像处理最近受到了广泛的关注。在这项研究中,我们专注于在给定文本提示的指导下对图像进行区域编辑。与当前基于掩码的图像编辑方法不同,我们提出了一种用于实体级图像编辑的新型区域感知扩散模型 (RDM),它可以自动定位感兴趣的区域并根据给定的文本提示替换它。为了在图像保真度和推理速度之间取得平衡,我们通过结合潜在空间扩散和增强方向引导来设计密集扩散管道。此外,为了保留非编辑区域的图像内容,我们引入了区域感知实体编辑来修改感兴趣区域并保留非感兴趣区域。我们通过广泛的定性和定量实验验证了超出基线方法的拟议 RDM。结果表明,RDM 在视觉质量、整体协调性、非编辑区域内容保留和文本图像语义一致性方面优于以前的方法。这些代码可在 https://github.com/haha-lisa/RDM-Region-Aware-Diffusion-Model 获得。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.13
现有的视频系统识别方法(估计物体的物理参数)假设已知物体的几何形状。这排除了它们在对象几何形状复杂或未知的绝大多数场景中的适用性。在这项工作中,我们的目标是从一组多视图视频中识别表征物理系统的参数,而无需对对象几何或拓扑进行任何假设。为此,我们提出了“物理增强连续体神经辐射场”(PAC-NeRF)
164 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.22
在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。
112 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.11
最近关于从姿势图像进行 3D 重建的工作表明,使用深度神经网络直接推断场景级 3D 几何结构而无需迭代优化是可行的,显示出非凡的前景和高效率。
94 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.7
我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。
126 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
140 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
117 0
|
机器学习/深度学习 机器人
每日学术速递2.23
本文探讨了动态系统中的离散形态对称性,这是生物学和机器人系统的主要特征。当系统的形态具有一个或多个对称平面时,它表现出形态对称性,描述了身体部位的重复和平衡分布。这些形态对称性意味着系统的动力学是对称的(或近似对称的),这进而在最优控制策略和所有与系统动态演化相关的本体感知和外感知测量中印记了对称性。
72 0
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
123 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.16
我们提出了 RECLIP(资源高效 CLIP),这是一种最小化 CLIP(对比语言图像预训练)计算资源占用的简单方法。受计算机视觉中从粗到精概念的启发,我们利用小图像有效地从大规模语言监督中学习,并最终使用高分辨率数据微调模型。由于视觉转换器的复杂性在很大程度上取决于输入图像的大小
164 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.17
怪异、不寻常和离奇的图像激起观察者的好奇心,因为它们挑战常识。例如,在 2022 年世界杯期间发布的一张图片描绘了著名足球明星莱昂内尔·梅西和克里斯蒂亚诺·罗纳尔多下棋,这调皮地违反了我们对他们的比赛应该在足球场上进行的预期。人类可以轻松识别和解读这些非常规图像,但 AI 模型也能做到吗?我们介绍了 WHOOPS!,这是一个新的视觉常识数据集和基准。
132 0