【文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究

2023-02-24 538 发布于辽宁

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： 【文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究

·阅读摘要：

本文利用BERT的预训练数据，结合CNN，应用于专利分类。由于专利的特性，本文还提出使用多层级方法来增强模型。（文章发表在《中文信息学报》，核心期刊）

·参考文献：

[1]陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79.

[0] 引言

提出工业界和学术界产生了大量专利申请，现行《国际专利分类法》包含 “部—类—亚类—组”四个层级，其中“组”级共含有７万多种类别，人工太难分辨，所以提出用神经网络来分类。

【思考一】：专利分类作为文本分类中的一个垂直领域，标签有多层级、多标签的特点，不像做新闻分类、情感分类很多时候标签单一、且简单、都是自定义的。所以专利分类写论文更有“点”可写。

[1] 相关研究

此小节论述了文本分类的综述，从机器学习到神经网络到词向量、Elmo、GPT、Transformer、BERT。

最后提出BERT也是有缺点的。“虽然BERT提供了下游任务的简单接口，可以直接进行文本分类。然而，BERT作为预训练语言模型，关于其作为文档向量的研究和应用

尚不多见。”

然后说fastText可以做文档向量，效果也不错，但是它使用的是word embedding，不能解决语义（多义词）问题。

最后的idea就是把BERT与fastText结合。

[2] 研究方法

[2.1] ＢＥＲＴ－ＣＮＮ模型结构

上图一目了然。作者使用BERT的后4层，作为卷积的输入，之后经过池化、softmax来分类。

【思考二】：其实拿BERT的最后一层接fc就能直接做文本分类。

[2.2] 多层文本分类架构

作者提供了一种处理标签有层级关系的文本分类办法。

首先对所有数据、一级标签进行分类；之后依次对所有归类为一级标签A的数据、一级标签A的子标签进行分类，对所有归类为一级标签B的数据、一级标签B的子标签进行分类，对所有归类为一级标签…的数据、一级标签…的子标签进行分类。

【思考三】：文章没有解决多标签问题。

[3] 实验与结果

[3.1] 数据集

数据集采用国家信息中心提供的全国专利申请数据。数据总量达到２７７万条记录。时间跨度为２０１７年全年（按照专利申请时间统计），地域覆盖全国。

【文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究

[0] 引言

[1] 相关研究