无需「域外」文本,微软:NLP就应该针对性预训练

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 在生物医学这样的专业领域训练NLP模型,除了特定数据集,「域外」文本也被认为是有用的。但最近,微软的研究人员「大呼」:我不这么觉得!

微信图片_20220109141805.jpg


什么是预训练?

 

这是一个拷问人工智能「门外汉」的灵魂问题。


微信图片_20220109141807.jpg


生而为人,我们不需要一切从零开始学习。但是,我们会「以旧学新」,用过去所学的旧知识,来理解新知识和处理各种新任务。


在人工智能中,预训练就是模仿人类这个过程。


预训练(pre-training)这个词经常在论文中见到,指的是用一个任务去训练一个模型,帮助它形成可以在其他任务中使用的参数。


用已学习任务的模型参数初始化新任务的模型参数。通过这种方式,旧的知识可以帮助新模型从旧的经验中成功地执行新任务,而不是从零开始。


以前的研究已经表明,在像生物医学这样的专业领域,当训练一个NLP模型时,特定领域的数据集可以提高准确性。不过,还有一个普遍的认识是,「域外」文本也有用。


微信图片_20220109141809.jpg


但是!微软研究人员对这一假设提出了质疑。


微信图片_20220109141810.jpg


近日,微软研究人员提出一种人工智能技术,针对生物医学NLP的领域特定语言模型预训练。并自信地说,通过从公开的数据集中编译一个「全面的」生物医学NLP基准,在包括命名实体识别、基于证据的医学信息提取、文档分类等任务上取得了最先进的成果。


他们认为,「混合领域」预训练?不就是迁移学习的另一种形式吗?源领域是一般文本(如新闻),目标领域是专门文本(如生物医学论文)。


在此基础上,针对特定领域的生物医学NLP模型的预训练总是优于通用语言模型的预训练,说明「混合领域」预训练并不完美


微信图片_20220109141812.png

神经语言模型预训练的两种范式。「混合领域」预训练(上);只使用域内文本预训练(下)


如此自信,研究人员是有证据的。


他们通过对生物医学NLP应用的影响,比较了训练前的建模和特定任务的微调。


第一步,他们创建了一个名为生物医学语言理解和推理基准(BLURB)的基准,该基准侧重于PubMed(一个生物医学相关的数据库)提供的出版物,涵盖了诸如关系提取、句子相似度和问题回答等任务,以及诸如是/否问题回答等分类任务。为了计算总结性分数,BLURB中的语料库按任务类型分组,并分别打分,之后计算所有的平均值。


微信图片_20220109141814.png


为了评估,他们又在最新的PubMed文档中生成了一个词汇表并训练了一个模型:1400万篇摘要和32亿个单词,总计21GB。在一台拥有16个V100显卡的Nvidia DGX-2机器上,培训了大约5天时间。这个模型具有62,500步长和批量大小,可与以前生物医学预训练实验中使用的计算量相媲美。

 

又一个自信,研究人员说他们的模型——PubMedBERT,是建立在谷歌的BERT之上。

 

那个牛掰掰的BERT?Google 在 2018 年提出的一种 NLP 模型,成为最近几年 NLP 领域最具有突破性的一项技术。


微信图片_20220109141816.png


但有趣的是,将PubMed的全文添加到预训练文本(168亿字)中会让性能略有下降,直到预训练时间延长。但研究人员将这部分归因于数据中的噪声


“在本文中,我们挑战了神经语言预训练模型中普遍存在的假设(就是前面说的「混合领域」预训练),并证明了从「无」开始对特定领域进行预训练可以显著优于「混合领域」预训练。「为生物医学NLP的应用带来了新的、最先进的结果,」研究人员写道,「我们未来会进一步探索特定领域的预培训策略,将BLURB基准扩展到临床或其他高价值领域。」


为了鼓励生物医学NLP的研究,研究人员创建了一个以BLURB基准为特色的排行榜。他们还以开源的方式发布了预先训练过的特定任务模型。

研究已发布于预印论文网站arxiv上。


参考链接:https://venturebeat.com/

论文预印版:https://arxiv.org/pdf/2007.15779.pdf

相关文章
|
16天前
|
机器学习/深度学习 自然语言处理 知识图谱
GraphRAG在自然语言处理中的应用:从问答系统到文本生成
【10月更文挑战第28天】作为一名自然语言处理(NLP)和图神经网络(GNN)的研究者,我一直在探索如何将GraphRAG(Graph Retrieval-Augmented Generation)模型应用于各种NLP任务。GraphRAG结合了图检索和序列生成技术,能够有效地处理复杂的语言理解和生成任务。本文将从个人角度出发,探讨GraphRAG在构建问答系统、文本摘要、情感分析和自动文本生成等任务中的具体方法和案例研究。
39 5
|
18天前
|
自然语言处理 Python
如何使用自然语言处理库`nltk`进行文本的基本处理
这段Python代码展示了如何使用`nltk`库进行文本的基本处理,包括分词和词频统计。首先需要安装`nltk`库,然后通过`word_tokenize`方法将文本拆分为单词,并使用`FreqDist`类统计每个单词的出现频率。运行代码后,会输出每个词的出现次数,帮助理解文本的结构和常用词。
|
1月前
|
自然语言处理 算法 数据挖掘
探讨如何利用Python中的NLP工具,从被动收集到主动分析文本数据的过程
【10月更文挑战第11天】本文介绍了自然语言处理(NLP)在文本分析中的应用,从被动收集到主动分析的过程。通过Python代码示例,详细展示了文本预处理、特征提取、情感分析和主题建模等关键技术,帮助读者理解如何有效利用NLP工具进行文本数据分析。
46 2
|
1月前
|
人工智能 自然语言处理
【NLP自然语言处理】NLP中的常用预训练AI模型
【NLP自然语言处理】NLP中的常用预训练AI模型
|
1月前
|
自然语言处理
【NLP自然语言处理】文本特征处理与数据增强
【NLP自然语言处理】文本特征处理与数据增强
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【自然语言处理】python之人工智能应用篇——文本生成技术
文本生成是指使用自然语言处理技术,基于给定的上下文或主题自动生成人类可读的文本。这种技术可以应用于各种领域,如自动写作、聊天机器人、新闻生成、广告文案创作等。
108 8
|
3月前
|
机器学习/深度学习 存储 人工智能
自然语言处理 Paddle NLP - 检索式文本问答-理论
自然语言处理 Paddle NLP - 检索式文本问答-理论
28 1
|
3月前
|
自然语言处理
【NLP】如何实现快速加载gensim word2vec的预训练的词向量模型
本文探讨了如何提高使用gensim库加载word2vec预训练词向量模型的效率,提出了三种解决方案:保存模型以便快速重新加载、仅保存和加载所需词向量、以及使用Embedding工具库代替word2vec原训练权重。
211 2
|
3月前
|
机器学习/深度学习 自然语言处理 算法
nlp文本提取关键词
8月更文挑战第21天
46 0
|
4月前
|
机器学习/深度学习 自然语言处理 TensorFlow
使用Python实现深度学习模型:文本生成与自然语言处理
【7月更文挑战第14天】 使用Python实现深度学习模型:文本生成与自然语言处理
116 12