授人以渔:分享我的文本分类经验总结(二)

简介: 授人以渔:分享我的文本分类经验总结(二)

二、TF-IDF:



优点:


  • 容易计算


  • 使用此方法容易计算两个文档的相似度


  • 提取文档具有代表性的基础指标


  • 高频单词影响较小


缺点:


  • 不能捕捉位置关系


  • 不能捕捉语义信息


三、Word2Vec:



优点:


  • 捕捉位置关系


  • 捕捉语义信息


缺点:


  • 无法从文本中捕捉单词的意思,多义性无法支持


  • 受词表限制


四、GloVe (Pre-Trained):



优点:


  • 捕捉位置关系


  • 捕捉语义信息


  • 基于大语料训练


缺点:


  • 无法从文本中捕捉单词的意思,多义性无法支持


  • 内存消耗严重,需要存储近似矩阵


  • 受词表限制


五、GloVe (Trained):



优点:


  • 非常简单,捕捉线性关系优异(performs better than Word2vec)

  • 对于高度频繁的单词对的重量较低,例如“am”,“is”等的单词将不会影响太大


缺点:


  • 内存消耗严重,需要存储近似矩阵


  • 需要大量的语料数据支持


  • 受词表限制


  • 无法从文本中捕捉单词的意思,多义性无法支持


六、FastText:



优点:


  • 适用于少量的单词


  • 在字符水平中用n-gram解决受词表限制的问题


缺点:


  • 无法从文本中捕捉单词的意思,多义性无法支持


  • 内存消耗严重


  • 计算开销比GloVe 和 Word2Vec更大




相关文章
|
11月前
|
存储 安全 Windows
移动硬盘删掉的文件怎么恢复?试试这5个方法
移动硬盘是常见的数据存储工具,因容量很大、携带方便,很多人都愿意选择移动硬盘作为备份数据或存储日常数据的工具。不过,有时候,我们在使用移动硬盘的时候难免会误操作,比如不小心删除了重要文件。这时候,很多人会问,移动硬盘上误删掉的文件还能恢复吗?今天小编就为大家介绍一下如何快速的恢复移动硬盘丢失的文件。
|
计算机视觉
YOLOv5改进 | 2023检测头篇 | 利用AFPN增加小目标检测层(让小目标无所遁形)
YOLOv5改进 | 2023检测头篇 | 利用AFPN增加小目标检测层(让小目标无所遁形)
565 0
|
设计模式 Java Linux
23种设计模式漫画版系列—工厂方法模式
23种设计模式漫画版系列—工厂方法模式
194 0
|
Java
springboot 同一个项目在idea多个运行
springboot 同一个项目在idea多个运行
449 0
springboot 同一个项目在idea多个运行
|
Java API
字节码编程,Javassist篇五《使用Bytecode指令码生成含有自定义注解的类和方法》
到本章为止已经写了四篇关于字节码编程的内容,涉及了大部分的API方法。整体来说对 Javassist 已经有一个基本的使用认知。那么在 Javassist 中不仅提供了高级 API 用于创建和修改类、方法,还提供了低级 API 控制字节码指令的方式进行操作类、方法。
320 0
字节码编程,Javassist篇五《使用Bytecode指令码生成含有自定义注解的类和方法》
|
开发者 Python 安全
多线程版聊天 | 手把手教你入门Python之一百
通过实现多线程聊天窗口的实现来更深刻理解多线程。
|
开发工具 Android开发
重拾安卓_01_安卓开发环境搭建(eclipse)
一、下载安装Android SDK  1.下载地址 (1)官网(可FQ选择):http://developer.android.com/sdk/index.html (2)不可FQ选择:http://www.androiddevtools.cn/    2.下载过程记录 这里选择第二种方式,进入 http://www.androiddevtools.cn/ ,点击导航栏 Android SDK 工具 -> SDK Tools,选择一个版本进行安装,这里选择的是第二个版本(考虑可能最新版会不稳定)进行下载。
1159 0
C# DataGrid 控件在winform里显示行号
#region 行绘制事件 ,为DataGridView每行写上序号 /// /// 行绘制事件 ,为DataGridView每行写上序号 /// /// ...
1096 0