【文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究

简介: 【文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究

·阅读摘要:

 本文利用BERT的预训练数据,结合CNN,应用于专利分类。由于专利的特性,本文还提出使用多层级方法来增强模型。(文章发表在《中文信息学报》,核心期刊)

·参考文献:

 [1]陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79.

[0] 引言


  提出工业界和学术界产生了大量专利申请,现行《国际专利分类法》包含 “部—类—亚 类—组”四个层级,其中“组”级共含有7万多种类别,人工太难分辨,所以提出用神经网络来分类。

【思考一】:专利分类作为文本分类中的一个垂直领域,标签有多层级、多标签的特点,不像做新闻分类、情感分类很多时候标签单一、且简单、都是自定义的。所以专利分类写论文更有“点”可写。

[1] 相关研究


  此小节论述了文本分类的综述,从机器学习到神经网络到词向量、Elmo、GPT、Transformer、BERT。

 最后提出BERT也是有缺点的。“虽然BERT提供了下游任务的简单接口,可以直接进行文本分类。然而,BERT作为预训练语言模型,关于其作为文档向量的研究和应用

尚不多见。”

 然后说fastText可以做文档向量,效果也不错,但是它使用的是word embedding,不能解决语义(多义词)问题。

 最后的idea就是把BERT与fastText结合。

[2] 研究方法


[2.1] BERT-CNN模型结构

image.png

  上图一目了然。作者使用BERT的后4层,作为卷积的输入,之后经过池化、softmax来分类。

【思考二】:其实拿BERT的最后一层接fc就能直接做文本分类。

[2.2] 多层文本分类架构

image.png

  作者提供了一种处理标签有层级关系的文本分类办法。

  首先对所有数据、一级标签进行分类;之后依次对所有归类为一级标签A的数据、一级标签A的子标签进行分类,对所有归类为一级标签B的数据、一级标签B的子标签进行分类,对所有归类为一级标签…的数据、一级标签…的子标签进行分类。

【思考三】:文章没有解决多标签问题。

[3] 实验与结果


[3.1] 数据集

  数据集采用国家信息中心提供的全国专利申请数据 。数据总量达到277万条记录。时间跨度为2017年全年(按照专利申请时间统计),地域覆盖全国。

[3.2] 实验结果

de4549e4b737497b970e9482e07b19d3.png

相关文章
|
7月前
|
机器学习/深度学习 编解码 自然语言处理
深入BERT内核:用数学解密掩码语言模型的工作原理
BERT通过掩码语言建模(MLM)实现双向语言理解,随机遮蔽15%的词并预测,结合Transformer的自注意力与多头机制,利用上下文信息生成深层语义表示。其数学设计如√d_k缩放、80-10-10掩码策略和交叉熵优化,显著提升模型性能,奠定现代NLP基础。
490 8
|
7月前
|
机器学习/深度学习 传感器 算法
基于GA-HIDMSPSO优化CNN-SVM分类预测的研究(Matlb代码实现)
基于GA-HIDMSPSO优化CNN-SVM分类预测的研究(Matlb代码实现)
202 0
|
8月前
|
机器学习/深度学习 数据采集 并行计算
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
861 2
|
8月前
|
机器学习/深度学习 数据采集 算法
独家原创 | CEEMDAN-CNN-GRU-GlobalAttention + XGBoost组合预测研究(Python代码实现)
独家原创 | CEEMDAN-CNN-GRU-GlobalAttention + XGBoost组合预测研究(Python代码实现)
289 2
|
9月前
|
机器学习/深度学习 数据采集 运维
基于WOA-CNN-BiLSTM-Attention、CNN-BiLSTM-Attention、WOA-CNN-BiLSTM、CNN-BiLSTM、BiLSTM、CNN6模型单变量时序预测一键对比研究
基于WOA-CNN-BiLSTM-Attention、CNN-BiLSTM-Attention、WOA-CNN-BiLSTM、CNN-BiLSTM、BiLSTM、CNN6模型单变量时序预测一键对比研究
316 7
|
8月前
|
机器学习/深度学习 数据采集 传感器
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
498 0
|
8月前
|
机器学习/深度学习 安全 Serverless
【创新未发表】【故障诊断】基于连续小波变换-CNN, ResNet, CNN-SVM, CNN-BiGRU, CNN-LSTM的故障诊断研究【凯斯西储大学数据】(Matlab代码实现)
【创新未发表】【故障诊断】基于连续小波变换-CNN, ResNet, CNN-SVM, CNN-BiGRU, CNN-LSTM的故障诊断研究【凯斯西储大学数据】(Matlab代码实现)
556 0
|
8月前
|
机器学习/深度学习 传感器 数据采集
【故障识别】基于CNN-SVM卷积神经网络结合支持向量机的数据分类预测研究(Matlab代码实现)
【故障识别】基于CNN-SVM卷积神经网络结合支持向量机的数据分类预测研究(Matlab代码实现)
490 0
|
9月前
|
机器学习/深度学习 传感器 边缘计算
【轴承故障诊断】基于融合鱼鹰和柯西变异的麻雀优化算法OCSSA-VMD-CNN-BILSTM轴承诊断研究【西储大学数据】(Matlab代码实现)
【轴承故障诊断】基于融合鱼鹰和柯西变异的麻雀优化算法OCSSA-VMD-CNN-BILSTM轴承诊断研究【西储大学数据】(Matlab代码实现)
256 0

热门文章

最新文章