授人以渔:分享我的文本分类经验总结(二)

简介: 授人以渔:分享我的文本分类经验总结(二)

二、TF-IDF:



优点:


  • 容易计算


  • 使用此方法容易计算两个文档的相似度


  • 提取文档具有代表性的基础指标


  • 高频单词影响较小


缺点:


  • 不能捕捉位置关系


  • 不能捕捉语义信息


三、Word2Vec:



优点:


  • 捕捉位置关系


  • 捕捉语义信息


缺点:


  • 无法从文本中捕捉单词的意思,多义性无法支持


  • 受词表限制


四、GloVe (Pre-Trained):



优点:


  • 捕捉位置关系


  • 捕捉语义信息


  • 基于大语料训练


缺点:


  • 无法从文本中捕捉单词的意思,多义性无法支持


  • 内存消耗严重,需要存储近似矩阵


  • 受词表限制


五、GloVe (Trained):



优点:


  • 非常简单,捕捉线性关系优异(performs better than Word2vec)

  • 对于高度频繁的单词对的重量较低,例如“am”,“is”等的单词将不会影响太大


缺点:


  • 内存消耗严重,需要存储近似矩阵


  • 需要大量的语料数据支持


  • 受词表限制


  • 无法从文本中捕捉单词的意思,多义性无法支持


六、FastText:



优点:


  • 适用于少量的单词


  • 在字符水平中用n-gram解决受词表限制的问题


缺点:


  • 无法从文本中捕捉单词的意思,多义性无法支持


  • 内存消耗严重


  • 计算开销比GloVe 和 Word2Vec更大




相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
LLMs 入门实战系列大全:LLMs应用、领域大模型介绍、大模型常见面经汇总
LLMs 入门实战系列大全:LLMs应用、领域大模型介绍、大模型常见面经汇总
LLMs 入门实战系列大全:LLMs应用、领域大模型介绍、大模型常见面经汇总
|
1月前
|
人工智能 自然语言处理 机器人
ChatGPT高效提问—基础知识(NLP)
ChatGPT高效提问—基础知识(NLP)
|
5月前
|
自然语言处理
【自然语言处理NLP】DPCNN模型论文精读笔记
【自然语言处理NLP】DPCNN模型论文精读笔记
74 2
|
机器学习/深度学习 计算机视觉
深度学习原理篇 第四章:DEIT
简要介绍DEIT的原理和代码实现。
439 0
|
机器学习/深度学习 算法 数据挖掘
深度学习实践篇 第十一章:imgaug
简要介绍imgaug和基础用法。
173 0
|
机器学习/深度学习 并行计算 PyTorch
深度学习实践篇 第九章:DDP
简要介绍了DDP的使用。
328 0
|
机器学习/深度学习 PyTorch 算法框架/工具
深度学习实践篇 第八章:torchscript
简要介绍torchscript的使用方法。
209 0
|
机器学习/深度学习 人工智能 自然语言处理
从BERT到ChatGPT,百页综述梳理预训练大模型演变史(2)
从BERT到ChatGPT,百页综述梳理预训练大模型演变史
370 0
|
人工智能
从BERT到ChatGPT,百页综述梳理预训练大模型演变史(1)
从BERT到ChatGPT,百页综述梳理预训练大模型演变史
241 0
|
机器学习/深度学习 人工智能 算法
深度学习怎么入门?一文弄清楚最常见的专业词汇
深度学习怎么入门?一文弄清楚最常见的专业词汇
165 0
深度学习怎么入门?一文弄清楚最常见的专业词汇
下一篇
无影云桌面