每日学术速递2.5

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 预训练的语言模型在生物医学领域引起了越来越多的关注,这是受其在一般自然语言领域的巨大成功的启发。在一般语言领域的预训练语言模型的两个主要分支,即BERT(及其变体)和GPT(及其变体)中,第一个分支已经在生物医学领域得到了广泛的研究,如BioBERT和PubMedBERT。虽然它们在各种鉴别性的下游生物医学任务上取得了巨大的成功

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CL、cs.AI、cs.CV


1.BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining


596e9038e8437c2661c120a49de0c745.png


标题:BioGPT:用于生物医学文本生成和挖掘的生成性预训练转化器

作者:Renqian Luo, Liai Sun, Yingce Xia, Tao Qin, Sheng Zhang, Hoifung Poon, Tie-Yan Liu

文章链接:https://arxiv.org/abs/2210.10341v2

项目代码:https://github.com/microsoft/BioGPT

dafc873d1c57b1131d130e4696418c57.png

摘要:

       预训练的语言模型在生物医学领域引起了越来越多的关注,这是受其在一般自然语言领域的巨大成功的启发。在一般语言领域的预训练语言模型的两个主要分支,即BERT(及其变体)和GPT(及其变体)中,第一个分支已经在生物医学领域得到了广泛的研究,如BioBERT和PubMedBERT。虽然它们在各种鉴别性的下游生物医学任务上取得了巨大的成功,但由于缺乏生成能力,制约了它们的应用范围。在本文中,我们提出了BioGPT,一个针对特定领域的生成性转化器语言模型,在大规模的生物医学文献上进行了预训练。我们在六个生物医学NLP任务上评估了BioGPT,并证明我们的模型在大多数任务上优于以前的模型。特别是,我们在BC5CDR、KD-DTI和DDI端到端关系提取任务上分别得到44.98%、38.42%和40.76%的F1得分,在PubMedQA上得到78.2%的准确率,创造了一个新的记录。我们较大的模型BioGPT-Large在PubMedQA上达到了81.0%。我们关于文本生成的案例研究进一步证明了BioGPT在生物医学文献上的优势,即为生物医学术语生成流畅的描述。

Pre-trained language models have attracted increasing attention in the biomedical domain, inspired by their great success in the general natural language domain. Among the two main branches of pre-trained language models in the general language domain, i.e., BERT (and its variants) and GPT (and its variants), the first one has been extensively studied in the biomedical domain, such as BioBERT and PubMedBERT. While they have achieved great success on a variety of discriminative downstream biomedical tasks, the lack of generation ability constrains their application scope. In this paper, we propose BioGPT, a domain-specific generative Transformer language model pre-trained on large scale biomedical literature. We evaluate BioGPT on six biomedical NLP tasks and demonstrate that our model outperforms previous models on most tasks. Especially, we get 44.98%, 38.42% and 40.76% F1 score on BC5CDR, KD-DTI and DDI end-to-end relation extraction tasks respectively, and 78.2% accuracy on PubMedQA, creating a new record. Our larger model BioGPT-Large achieves 81.0% on PubMedQA. Our case study on text generation further demonstrates the advantage of BioGPT on biomedical literature to generate fluent descriptions for biomedical terms. Code is available at this https URL.

2.Multimodal Chain-of-Thought Reasoning in Language Models

deb74268129bf7452ab086ba02e3c902.png


标题:语言模型中的多模态思维链推理

作者:Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, Alex Smola

文章链接:https://arxiv.org/abs/2302.00923v1

项目代码:https://github.com/amazon-science/mm-cot

061ce787041e5acc47cadfec55267e33.png

b7990632e2aa2dc82c437fd3d8958f4e.png

23ac92b965bbd3609cb6dbb1bb2ff73d.png

摘要:

       大型语言模型(LLMs)通过利用思维链(CoT)提示,生成中间推理链作为推断答案的依据,在复杂推理上表现出令人印象深刻的性能。然而,现有的CoT研究大多是在语言模式下与LLMs隔离,LLMs很难部署。为了在多模态中引出CoT推理,一个可能的解决方案是通过融合视觉和语言特征来微调小的语言模型来进行CoT推理。关键的挑战是,这些语言模型往往会产生幻觉推理链,误导答案推理。为了减轻这种错误的影响,我们提出了多模态CoT,在一个解耦的训练框架中加入了视觉特征。该框架将原理生成和答案推理分成两个阶段。通过将视觉特征纳入这两个阶段,该模型能够生成有助于答案推理的有效理由。通过Multimodal-CoT,我们的模型在10亿个参数下比以前最先进的LLM(GPT-3.5)在ScienceQA基准上的表现高出16%(75.17%->91.68%),甚至超过了人类的表现。

Large language models (LLMs) have shown impressive performance on complex reasoning by leveraging chain-of-thought (CoT) prompting to generate intermediate reasoning chains as the rationale to infer the answer. However, existing CoT studies are mostly isolated in the language modality with LLMs, where LLMs are hard to deploy. To elicit CoT reasoning in multimodality, a possible solution is to fine-tune small language models by fusing the vision and language features to perform CoT reasoning. The key challenge is that those language models tend to generate hallucinated reasoning chains that mislead the answer inference. To mitigate the effect of such mistakes, we propose Multimodal-CoT that incorporates vision features in a decoupled training framework. The framework separates the rationale generation and answer inference into two stages. By incorporating the vision features in both stages, the model is able to generate effective rationales that contribute to answer inference. With Multimodal-CoT, our model under 1 billion parameters outperforms the previous state-of-the-art LLM (GPT-3.5) by 16% (75.17%->91.68%) on the ScienceQA benchmark and even surpasses human performance. Code is publicly available at https://github.com/amazon-science/mm-cot.

3.Semantic Coherence Markers for the Early Diagnosis of the Alzheimer Disease

3417c786031a340231c122d27738f5a8.png

标题:用于早期诊断阿尔茨海默病的语义连贯性标志物

作者:Davide Colla, Matteo Delsanto, Marco Agosto, Benedetto Vitiello, Daniele Paolo Radicioni

文章链接:https://arxiv.org/abs/2302.01025v1

项目代码:https://github.com/davidecolla/semantic_coherence_markers

bae13f7a9538206c12d5983c9229fc80.png

摘要:

       在这项工作中,我们探讨了如何利用语言模型来分析语言,并通过plexity度量来区分精神障碍者和健康人。复杂度最初被认为是一种信息论的衡量标准,用来评估一个给定的语言模型在多大程度上适合预测一个文本序列,或者说,一个词序列在多大程度上适合一个特定的语言模型。我们对公开的数据进行了广泛的实验,并采用了不同的语言模型,如N-grams,从2-grams到5-grams,以及GPT-2,一种基于转化器的语言模型。我们研究了复杂度分数是否可用于区分健康受试者和阿尔茨海默病(AD)受试者的成绩单。我们表现最好的模型在对阿尔茨海默病患者和对照组受试者进行分类时达到了完全的准确性和F分数(精度/特异性和召回/敏感性均为1.00)。这些结果表明,迷惑性可以是一个有价值的分析指标,有可能应用于支持精神障碍症状的早期诊断。

In this work we explore how language models can be employed to analyze language and discriminate between mentally impaired and healthy subjects through the perplexity metric. Perplexity was originally conceived as an information-theoretic measure to assess how much a given language model is suited to predict a text sequence or, equivalently, how much a word sequence fits into a specific language model. We carried out an extensive experimentation with the publicly available data, and employed language models as diverse as N-grams, from 2-grams to 5-grams, and GPT-2, a transformer-based language model. We investigated whether perplexity scores may be used to discriminate between the transcripts of healthy subjects and subjects suffering from Alzheimer Disease (AD). Our best performing models achieved full accuracy and F-score (1.00 in both precision/specificity and recall/sensitivity) in categorizing subjects from both the AD class and control subjects. These results suggest that perplexity can be a valuable analytical metrics with potential application to supporting early diagnosis of symptoms of mental disorders.

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
124 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
153 0
每日学术速递4.3
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递2.28
最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法,这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是,机器人学习包含一系列无法控制的问题,包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。
85 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.4
尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。
138 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.27
视觉知识感知问答 (Knowledge-aware question answering, KAQA) 要求模型通过知识库回答问题,这对于开放域 QA 和特定域 QA 都是必不可少的,尤其是当仅靠语言模型无法提供所需的所有知识时。尽管最近的 KAQA 系统倾向于整合来自预训练语言模型 (PLM) 的语言知识和来自知识图 (KG) 的事实知识来回答复杂问题,但在有效融合来自 PLM 和 KG 的表征方面存在瓶颈,因为(i) 它们之间的语义和分布差距,以及 (ii) 对两种模式提供的知识进行联合推理的困难。
119 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.20
建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互
111 0
|
机器学习/深度学习 自然语言处理 vr&ar
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
138 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.5
无论是通过从头到尾以固定分辨率处理视频,还是结合池化和缩小策略,现有的视频转换器都可以处理整个网络中的整个视频内容,而无需专门处理大部分冗余信息。在本文中,我们提出了一种 Supertoken Video Transformer (SVT),它结合了语义池模块 (SPM),根据视觉转换器的语义沿着视觉转换器的深度聚合潜在表示,从而减少视频输入中固有的冗余。
92 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.11
最近关于从姿势图像进行 3D 重建的工作表明,使用深度神经网络直接推断场景级 3D 几何结构而无需迭代优化是可行的,显示出非凡的前景和高效率。
103 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递3.21
随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。
134 0