【论文写作分析】之五《融合类别特征扩展与N-gram子词过滤的fastText短文本分类》

简介: 【论文写作分析】之五《融合类别特征扩展与N-gram子词过滤的fastText短文本分类》

[1] 参考论文信息


  论文名称:《融合类别特征扩展与N-gram子词过滤的fastText短文本分类》

  发布期刊:《小型微型计算机系统》

  期刊信息:CSCD扩展

image.png

  论文写作分析摘要:

  从创新点上来说,本文是在文本预处理的时候,把文本的一元语法、二元语法、三元语法,用TFIDF、LDA、信息熵这三个基础手段提取过滤一下,然后再作为FastText模型的输入来跑。看起来好像没什么技术含量。

 从我个人理解来看,用TFIDF、LDA、信息熵这三个基础手段无非就是特征提取,那为什么不用CNN来提取关键信息?或者使用注意力机制来提取突出特征?因为相对来说,深度学习的提取能力要比普通机器学习算法表现要好。所以我个人觉得,本文的工作还是比较有争议的。

【注】:其实,如果先用CNN来提取特征,然后再使用FastText模型,就等于直接使用CNN做文本分类了。因为CNN做文本分类原本就是会使用多个不同尺寸的卷积核的,和FastText就差不多了。

[2] 参考论文分解


  【摘要部分】

image.png

  分析:

  主要是名词起的好。摘要部分我是再看完全文之后才看懂的。想发中文论文的话,起名字一定要高大上。

  利用TDIDF和LDA来做特征提取,论文称为 “基于 TF-IDF的 LDA类别特征提取方法以提升类别特征质量”;利用信息熵来对一元语法、二元语法、三元语法做特征提取,论文称为 “基于词汇信息熵的 N-gram子词过滤方法过滤 N-gram子词中低类别区分贡献度子词”;把特征提取提取后的文本喂入FastText,论文称为 “构建更专注于高类别区分贡献度语义特征学习的 EF-fastText短文本分类模型”

【注】:大家细品。

  【引言部分】

  分析:

  比较常规,介绍了一下各个论文的工作和自己论文的主要贡献。


  【TFIDF+LDA部分】

  分析:

  介绍了TF-IDF。然后给出了基于 TF-IDF的 LDA类别特征提取方法的处理流程图:

image.png

【注】:个人觉得TFIDF+LDA是不应该单独作为一个章节的。


  【 N-gram的信息熵部分】

  分析:

  介绍了信息熵、多元语法这个概念,然后给出了基于词汇信息熵的 N-gram子词过滤方法的处理流程图:

image.png

【注】:仍然觉得此处内容不应该单独作为一个章节。


  【分类模型部分】

  分析:

  给出了使用了以上两种特征提取之后的FastText模型图:

image.png

【注】:这FastText模型完全没有改动,只是前面加了特征提取。。。。

相关文章
|
10月前
|
机器学习/深度学习 算法 机器人
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
|
1天前
|
机器学习/深度学习 异构计算
CLIPer:开创性框架提升CLIP空间表征,实现开放词汇语义分割突破
对比语言-图像预训练(CLIP)在多种图像级任务上表现出强大的零样本分类能力,促使研究行人尝试将CLIP应用于像素级开放词汇语义分割,而无需额外训练。关键在于提升图像级CLIP的空间表征能力,例如,用自-自注意力图或基于视觉基础模型的自注意力图替换最后一层的自注意力图。本文提出了一种新颖的分层框架CLIPer,该框架分层提升了CLIP的空间表征能力。
|
10月前
|
机器学习/深度学习 移动开发 自然语言处理
基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解,侧重模型推导细化以及LAC分词实践
基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解,侧重模型推导细化以及LAC分词实践
基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解,侧重模型推导细化以及LAC分词实践
|
10月前
|
机器学习/深度学习 PyTorch 算法框架/工具
PyTorch搭建循环神经网络(RNN)进行文本分类、预测及损失分析(对不同国家的语言单词和姓氏进行分类,附源码和数据集)
PyTorch搭建循环神经网络(RNN)进行文本分类、预测及损失分析(对不同国家的语言单词和姓氏进行分类,附源码和数据集)
434 2
|
10月前
|
机器学习/深度学习 编解码 数据可视化
【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割
【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割
|
10月前
|
机器学习/深度学习 计算机视觉
【论文速递】PR2023 - 基于自正则原型网络的小样本语义分割
【论文速递】PR2023 - 基于自正则原型网络的小样本语义分割
|
机器学习/深度学习 编解码 自然语言处理
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(一)
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(一)
455 0
|
存储 数据采集 自然语言处理
【BERT-多标签文本分类实战】之四——数据集预处理
【BERT-多标签文本分类实战】之四——数据集预处理
891 1
【BERT-多标签文本分类实战】之四——数据集预处理
|
机器学习/深度学习 数据采集 Oracle
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(二)
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(二)
402 0
【论文写作分析】之二 《基于类别混合嵌入的电力文本层次化分类方法》
【论文写作分析】之二 《基于类别混合嵌入的电力文本层次化分类方法》
105 0
【论文写作分析】之二 《基于类别混合嵌入的电力文本层次化分类方法》