授人以渔:分享我的文本分类经验总结(二)

简介: 授人以渔:分享我的文本分类经验总结(二)

二、TF-IDF:



优点:


  • 容易计算


  • 使用此方法容易计算两个文档的相似度


  • 提取文档具有代表性的基础指标


  • 高频单词影响较小


缺点:


  • 不能捕捉位置关系


  • 不能捕捉语义信息


三、Word2Vec:



优点:


  • 捕捉位置关系


  • 捕捉语义信息


缺点:


  • 无法从文本中捕捉单词的意思,多义性无法支持


  • 受词表限制


四、GloVe (Pre-Trained):



优点:


  • 捕捉位置关系


  • 捕捉语义信息


  • 基于大语料训练


缺点:


  • 无法从文本中捕捉单词的意思,多义性无法支持


  • 内存消耗严重,需要存储近似矩阵


  • 受词表限制


五、GloVe (Trained):



优点:


  • 非常简单,捕捉线性关系优异(performs better than Word2vec)

  • 对于高度频繁的单词对的重量较低,例如“am”,“is”等的单词将不会影响太大


缺点:


  • 内存消耗严重,需要存储近似矩阵


  • 需要大量的语料数据支持


  • 受词表限制


  • 无法从文本中捕捉单词的意思,多义性无法支持


六、FastText:



优点:


  • 适用于少量的单词


  • 在字符水平中用n-gram解决受词表限制的问题


缺点:


  • 无法从文本中捕捉单词的意思,多义性无法支持


  • 内存消耗严重


  • 计算开销比GloVe 和 Word2Vec更大




相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 算法
调研180多篇论文,这篇综述终于把大模型做算法设计理清了
《A Systematic Survey on Large Language Models for Algorithm Design》综述了过去三年大型语言模型(LLMs)在算法设计中的应用。LLMs通过自然语言处理技术,助力生成、优化和验证算法,在优化、机器学习、数学推理等领域展现出广泛应用前景。尽管存在资源需求高、结果不确定等挑战,LLMs仍为算法设计带来新机遇。论文地址:https://arxiv.org/abs/2410.14716。
83 14
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
LLMs 入门实战系列大全:LLMs应用、领域大模型介绍、大模型常见面经汇总
LLMs 入门实战系列大全:LLMs应用、领域大模型介绍、大模型常见面经汇总
LLMs 入门实战系列大全:LLMs应用、领域大模型介绍、大模型常见面经汇总
|
机器学习/深度学习 人工智能 自然语言处理
LLM评估综述论文问世,分三方面全面总结,还带资料库
LLM评估综述论文问世,分三方面全面总结,还带资料库
336 0
|
编解码
nnUNet 详细解读(一)论文技术要点归纳
nnUNet 详细解读(一)论文技术要点归纳
611 0
|
人工智能
从BERT到ChatGPT,百页综述梳理预训练大模型演变史(1)
从BERT到ChatGPT,百页综述梳理预训练大模型演变史
264 0
|
机器学习/深度学习 人工智能 自然语言处理
从BERT到ChatGPT,百页综述梳理预训练大模型演变史(2)
从BERT到ChatGPT,百页综述梳理预训练大模型演变史
388 0
|
机器学习/深度学习 人工智能 机器人
Nature给学术界立规矩:ChatGPT等大模型不可以成为作者
Nature给学术界立规矩:ChatGPT等大模型不可以成为作者
142 0
|
机器学习/深度学习 人工智能 算法
深度学习怎么入门?一文弄清楚最常见的专业词汇
深度学习怎么入门?一文弄清楚最常见的专业词汇
183 0
深度学习怎么入门?一文弄清楚最常见的专业词汇
|
数据采集 机器学习/深度学习 自然语言处理
【论文笔记】当Bert炼丹不是玄学而是哲学:Mengzi模型
【论文笔记】当Bert炼丹不是玄学而是哲学:Mengzi模型
350 0
【论文笔记】当Bert炼丹不是玄学而是哲学:Mengzi模型
|
JSON 安全 数据挖掘
手把手教你搭建Bert文本分类模型,快点看过来吧!
手把手教你搭建Bert文本分类模型,快点看过来吧!
381 0
手把手教你搭建Bert文本分类模型,快点看过来吧!