每日学术速递2.27

简介: 视觉知识感知问答 (Knowledge-aware question answering, KAQA) 要求模型通过知识库回答问题,这对于开放域 QA 和特定域 QA 都是必不可少的,尤其是当仅靠语言模型无法提供所需的所有知识时。尽管最近的 KAQA 系统倾向于整合来自预训练语言模型 (PLM) 的语言知识和来自知识图 (KG) 的事实知识来回答复杂问题,但在有效融合来自 PLM 和 KG 的表征方面存在瓶颈,因为(i) 它们之间的语义和分布差距,以及 (ii) 对两种模式提供的知识进行联合推理的困难。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CL


1.FiTs: Fine-grained Two-stage Training for Knowledge-aware Question Answering

1448f9f3fd3b25082d784358ba40a1c1.png

标题:FiTs:用于知识感知问答的细粒度两阶段训练

作者:Qichen Ye, Bowen Cao, Nuo Chen, Weiyuan Xu, Yuexian Zou

文章链接:https://arxiv.org/abs/2302.11799v1

项目代码:https://github.com/yeeeqichen/fits

948ce3951ea3eb7424c123e4deae4b91.png

0facb44e2ec8f3b28f8d34ce914ca930.png

38eeca430c2201c6b136cb1a21a01964.png


摘要:

       视觉知识感知问答 (Knowledge-aware question answering, KAQA) 要求模型通过知识库回答问题,这对于开放域 QA 和特定域 QA 都是必不可少的,尤其是当仅靠语言模型无法提供所需的所有知识时。尽管最近的 KAQA 系统倾向于整合来自预训练语言模型 (PLM) 的语言知识和来自知识图 (KG) 的事实知识来回答复杂问题,但在有效融合来自 PLM 和 KG 的表征方面存在瓶颈,因为(i) 它们之间的语义和分布差距,以及 (ii) 对两种模式提供的知识进行联合推理的困难。为了解决上述两个问题,我们提出了一个细粒度的两阶段训练框架(FiTs)来提高 KAQA 系统的性能:第一阶段旨在对齐来自 PLM 和 KG 的表示,从而弥合它们之间的模态差距,命名为知识自适应后训练。第二阶段称为知识感知微调,旨在提高模型基于对齐表示的联合推理能力。详细地说,除了 QA 监督之外,我们还通过两个辅助的自我监督任务对训练后模型进行了微调。大量实验表明,我们的方法在常识推理(即 CommonsenseQA、OpenbookQA)和医学问答(即 MedQA-USMILE)领域的三个基准测试中实现了最先进的性能。

2.Exploring Social Media for Early Detection of Depression in COVID-19 Patients


8a89eb1a84c82ff29540d160aa4ba490.png

标题:探索社交媒体以早期发现 COVID-19 患者的抑郁症

作者:Jiageng Wu, Xian Wu, Yining Hua, Shixu Lin, Yefeng Zheng, Jie Yang

文章链接:https://arxiv.org/abs/2302.12044v1

项目代码:https://github.com/dragon-wu/depcov-www2023

ebb771ad27f48664e8413a99bd6d9719.png

fa10feaaa24e7babeb8ff12f367ccab9.png

734b7f5e491f71e7708bfd55d5b8359c.png

摘要:

       COVID-19 大流行对全球健康造成了重大损害。尽管三年过去了,世界仍在与病毒作斗争。人们越来越担心 COVID-19 对受感染者心理健康的影响,这些人更容易患抑郁症,这可能对受影响的个人和整个世界产生长期影响。早期检测和干预可以降低 COVID-19 患者患抑郁症的风险。在本文中,我们通过社交媒体分析调查了 COVID-19 感染与抑郁症之间的关系。首先,我们管理了一个 COVID-19 患者的数据集,其中包含有关他们感染前后社交媒体活动的信息。其次,我们对该数据集进行了广泛的分析,以调查具有较高抑郁风险的 COVID-19 患者的特征。第三,我们提出了一种用于早期预测抑郁症风险的深度神经网络。该模型将日常情绪波动视为一种精神信号,并通过知识蒸馏结合文本和情感特征。实验结果表明,我们提出的框架在检测抑郁症风险方面优于基线,AUROC 为 0.9317,AUPRC 为 0.8116。我们的模型有可能使公共卫生组织能够对高危患者进行及时干预

Subjects: cs.CV


3.Region-Aware Diffusion for Zero-shot Text-driven Image Editing

c39a3b3730c664748a4ca0a6d8bbfbb8.png


标题:用于零样本文本驱动图像编辑的区域感知扩散

作者:Nisha Huang, Fan Tang, WeiMing Dong, Tong-Yee Lee, Changsheng Xu

文章链接:https://arxiv.org/abs/2302.11797v1

项目代码:https://github.com/haha-lisa/RDM-Region-Aware-Diffusion-Model

f136053dd1ab78f1232df62af8a9788a.png

3aaabc80f37c04d65941c01f034af37e.png

a098d59443a657241917bcca1fb9f398.png

摘要:

       在文本描述的指导下进行图像处理最近受到了广泛的关注。在这项研究中,我们专注于在给定文本提示的指导下对图像进行区域编辑。与当前基于掩码的图像编辑方法不同,我们提出了一种用于实体级图像编辑的新型区域感知扩散模型 (RDM),它可以自动定位感兴趣的区域并根据给定的文本提示替换它。为了在图像保真度和推理速度之间取得平衡,我们通过结合潜在空间扩散和增强方向引导来设计密集扩散管道。此外,为了保留非编辑区域的图像内容,我们引入了区域感知实体编辑来修改感兴趣区域并保留非感兴趣区域。我们通过广泛的定性和定量实验验证了超出基线方法的拟议 RDM。结果表明,RDM 在视觉质量、整体协调性、非编辑区域内容保留和文本图像语义一致性方面优于以前的方法。这些代码可在 https://github.com/haha-lisa/RDM-Region-Aware-Diffusion-Model 获得。

目录
相关文章
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
177 0
每日学术速递3.20
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
134 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.25
场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。
206 0
|
机器学习/深度学习 自然语言处理 自动驾驶
每日学术速递5.9
目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展
171 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.24
在本技术报告中,我们介绍了百度 KDD 杯 2022 空间动态风电功率预测挑战赛的解决方案。风能是一种快速增长的清洁能源。准确的风电功率预测对于电网稳定和供应安全至关重要。为此,主办方提供了包含134台风电机组历史数据的风电数据集,并发起百度KDD Cup 2022,以检验当前风电预测方法的局限性。
193 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.7
我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。
122 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.7
我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。
140 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.24
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。
128 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.11
网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。
153 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.29
在这项工作中,我们介绍了 CC3D,这是一种条件生成模型,它合成以 2D 语义场景布局为条件的复杂 3D 场景,使用单视图图像进行训练。与将适用性限制在对齐的单个对象的大多数现有 3D GAN 不同,我们专注于通过对 3D 场景的组合性质进行建模来生成具有多个对象的复杂场景。
167 0