授人以渔:分享我的文本分类经验总结(二)

简介: 授人以渔:分享我的文本分类经验总结(二)

二、TF-IDF:



优点:


  • 容易计算


  • 使用此方法容易计算两个文档的相似度


  • 提取文档具有代表性的基础指标


  • 高频单词影响较小


缺点:


  • 不能捕捉位置关系


  • 不能捕捉语义信息


三、Word2Vec:



优点:


  • 捕捉位置关系


  • 捕捉语义信息


缺点:


  • 无法从文本中捕捉单词的意思,多义性无法支持


  • 受词表限制


四、GloVe (Pre-Trained):



优点:


  • 捕捉位置关系


  • 捕捉语义信息


  • 基于大语料训练


缺点:


  • 无法从文本中捕捉单词的意思,多义性无法支持


  • 内存消耗严重,需要存储近似矩阵


  • 受词表限制


五、GloVe (Trained):



优点:


  • 非常简单,捕捉线性关系优异(performs better than Word2vec)

  • 对于高度频繁的单词对的重量较低,例如“am”,“is”等的单词将不会影响太大


缺点:


  • 内存消耗严重,需要存储近似矩阵


  • 需要大量的语料数据支持


  • 受词表限制


  • 无法从文本中捕捉单词的意思,多义性无法支持


六、FastText:



优点:


  • 适用于少量的单词


  • 在字符水平中用n-gram解决受词表限制的问题


缺点:


  • 无法从文本中捕捉单词的意思,多义性无法支持


  • 内存消耗严重


  • 计算开销比GloVe 和 Word2Vec更大




相关文章
|
10月前
|
搜索推荐
推荐系统读书笔记&关键核心点纪要
推荐系统读书笔记&关键核心点纪要
39 0
|
10月前
|
自然语言处理 搜索推荐 机器人
如何利用ChatGPT写毕业论文
如何利用ChatGPT写毕业论文
|
10月前
|
编解码
nnUNet 详细解读(一)论文技术要点归纳
nnUNet 详细解读(一)论文技术要点归纳
318 0
|
机器学习/深度学习 人工智能 自然语言处理
LeCun 70页长篇巨作!自监督学习「葵花宝典」,手把手教你学会
LeCun 70页长篇巨作!自监督学习「葵花宝典」,手把手教你学会
170 0
|
机器学习/深度学习 算法 数据挖掘
周志华《机器学习》西瓜书精炼版笔记来了!16 章完整版
周志华《机器学习》西瓜书精炼版笔记来了!16 章完整版
1517 0
周志华《机器学习》西瓜书精炼版笔记来了!16 章完整版
|
机器学习/深度学习 前端开发 数据挖掘
西瓜书南瓜书都是好书【绪论】【模型评估与选择】读书笔记
西瓜书南瓜书都是好书【绪论】【模型评估与选择】读书笔记
71 0
西瓜书南瓜书都是好书【绪论】【模型评估与选择】读书笔记
|
机器学习/深度学习 数据采集 自然语言处理
授人以渔:分享我的文本分类经验总结(一)
授人以渔:分享我的文本分类经验总结(一)
325 0
授人以渔:分享我的文本分类经验总结(一)
|
机器学习/深度学习 存储 自然语言处理
授人以渔:分享我的文本分类经验总结(三)
授人以渔:分享我的文本分类经验总结(三)
244 0
授人以渔:分享我的文本分类经验总结(三)
|
机器学习/深度学习 分布式计算 搜索推荐
【王喆-推荐系统】开篇词
在所有业界巨头的推荐引擎都由深度学习驱动的今天,作为一名推荐系统从业者,我们不应该止步于: (1)不能满足于继续使用协同过滤、矩阵分解这类传统方法,而应该加深对深度学习模型的理解;加强对大数据平台的熟悉程度,培养结合业务和模型的技术直觉,提高我们整体的技术格局。
316 0
【王喆-推荐系统】开篇词
|
机器学习/深度学习 人工智能 自然语言处理
重磅!花书《深度学习》,这份精炼笔记可能是最全面的
重磅!花书《深度学习》,这份精炼笔记可能是最全面的
1892 0
重磅!花书《深度学习》,这份精炼笔记可能是最全面的