【论文写作分析】之五《融合类别特征扩展与N-gram子词过滤的fastText短文本分类》

简介: 【论文写作分析】之五《融合类别特征扩展与N-gram子词过滤的fastText短文本分类》

[1] 参考论文信息


  论文名称:《融合类别特征扩展与N-gram子词过滤的fastText短文本分类》

  发布期刊:《小型微型计算机系统》

  期刊信息:CSCD扩展

image.png

  论文写作分析摘要:

  从创新点上来说,本文是在文本预处理的时候,把文本的一元语法、二元语法、三元语法,用TFIDF、LDA、信息熵这三个基础手段提取过滤一下,然后再作为FastText模型的输入来跑。看起来好像没什么技术含量。

 从我个人理解来看,用TFIDF、LDA、信息熵这三个基础手段无非就是特征提取,那为什么不用CNN来提取关键信息?或者使用注意力机制来提取突出特征?因为相对来说,深度学习的提取能力要比普通机器学习算法表现要好。所以我个人觉得,本文的工作还是比较有争议的。

【注】:其实,如果先用CNN来提取特征,然后再使用FastText模型,就等于直接使用CNN做文本分类了。因为CNN做文本分类原本就是会使用多个不同尺寸的卷积核的,和FastText就差不多了。

[2] 参考论文分解


  【摘要部分】

image.png

  分析:

  主要是名词起的好。摘要部分我是再看完全文之后才看懂的。想发中文论文的话,起名字一定要高大上。

  利用TDIDF和LDA来做特征提取,论文称为 “基于 TF-IDF的 LDA类别特征提取方法以提升类别特征质量”;利用信息熵来对一元语法、二元语法、三元语法做特征提取,论文称为 “基于词汇信息熵的 N-gram子词过滤方法过滤 N-gram子词中低类别区分贡献度子词”;把特征提取提取后的文本喂入FastText,论文称为 “构建更专注于高类别区分贡献度语义特征学习的 EF-fastText短文本分类模型”

【注】:大家细品。

  【引言部分】

  分析:

  比较常规,介绍了一下各个论文的工作和自己论文的主要贡献。


  【TFIDF+LDA部分】

  分析:

  介绍了TF-IDF。然后给出了基于 TF-IDF的 LDA类别特征提取方法的处理流程图:

image.png

【注】:个人觉得TFIDF+LDA是不应该单独作为一个章节的。


  【 N-gram的信息熵部分】

  分析:

  介绍了信息熵、多元语法这个概念,然后给出了基于词汇信息熵的 N-gram子词过滤方法的处理流程图:

image.png

【注】:仍然觉得此处内容不应该单独作为一个章节。


  【分类模型部分】

  分析:

  给出了使用了以上两种特征提取之后的FastText模型图:

image.png

【注】:这FastText模型完全没有改动,只是前面加了特征提取。。。。

相关文章
|
前端开发 Python
如何用Python快速搭建一个文件传输服务
如何用Python快速搭建一个文件传输服务
|
供应链 前端开发 算法
技术人应该知道的电商运营小知识(上)
技术人应该知道的电商运营小知识(上)
753 0
|
Java Spring
RestTemplate上传文件解决方案
当对接文件上传模块时,需要对接上传文件的接口,而我们模块的数据是以字节数组存在的(已经操作过了的字节数组,存在于内存中)接口是以form-data的形式上传的,其中需要上传MultipartFIle,如果使用MultipartFile放入到请求的 fromMap中,然后再上传这个文件,会报(ByteArrayInputStream no serialized)的错误,也就是没有注入对应的bean的错误。。
5171 0
|
10月前
|
机器人 API 数据安全/隐私保护
【最佳实践系列】通过AppFlow,支持飞书机器人调用阿里云百炼应用
本文介绍了如何创建并配置飞书应用及机器人,主要包括三个步骤:1. 登录飞书开发者后台,创建企业自建应用并添加机器人卡片和API权限;2. 创建AppFlow连接流,配置飞书平台凭证和阿里云百炼鉴权凭证,发布WebhookUrl,并在飞书开放平台配置事件订阅;3. 将机器人添加到群聊中,通过@机器人实现互动。以及通过AppFlow连接流集成阿里云百炼应用服务。此过程详细描述了从应用创建到机器人添加的全流程,帮助开发者快速集成飞书机器人功能。
1874 10
|
存储 Java 编译器
String能存储多少个字符?
这篇内容讨论了Java中String的长度限制。编译时,如果字符串长度大于等于65535,编译器将报错。这是由于`CONSTANT_Utf8`常量池项的长度字段是16位无符号整数,最大值为65535。而在运行时,虽然理论上String的最大长度是2^31-1,但实际长度受限于JVM内存,最大可能占用约2GB内存,超过可能导致OutOfMemoryError。JDK9以后,对于LATIN1字符的字符串,存储优化使用byte数组,节省内存。
806 1
String能存储多少个字符?
|
弹性计算 安全 Java
关于如何将Web项目部署到阿里云ecs服务器-5个步骤搞定
关于如何将Web项目部署到阿里云ecs服务器-5个步骤搞定
关于如何将Web项目部署到阿里云ecs服务器-5个步骤搞定
|
机器学习/深度学习 计算机视觉
【YOLOv8改进-论文笔记】RFAConv:感受野注意力卷积,创新空间注意力
【YOLO目标检测专栏】探索空间注意力局限,提出感受野注意力(RFA)机制,解决卷积核参数共享问题。RFAConv增强大尺寸卷积核处理能力,不增加计算成本,提升网络性能。已在YOLOv8中实现,详情见YOLO目标检测创新改进与实战案例专栏。
|
监控 算法 Java
JVM 调优之 glibc 引发的内存泄露
Pmap 提供了进程的内存映射,pmap 命令用于显示一个或多个进程的内存状态。其报告进程的地址空间和内存状态信息
JVM 调优之 glibc 引发的内存泄露
|
负载均衡 应用服务中间件 API
Docker-compose 简单介绍
Docker-compose 简单介绍