备案控制台

开发者社区人工智能文章正文

授人以渔：分享我的文本分类经验总结（二）

2022-04-27 105

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 授人以渔：分享我的文本分类经验总结（二）

二、TF-IDF：

优点：

容易计算

使用此方法容易计算两个文档的相似度

提取文档具有代表性的基础指标

高频单词影响较小

缺点：

不能捕捉位置关系

不能捕捉语义信息

三、Word2Vec：

优点：

捕捉位置关系

捕捉语义信息

缺点：

无法从文本中捕捉单词的意思，多义性无法支持

受词表限制

四、GloVe (Pre-Trained)：

优点：

捕捉位置关系

捕捉语义信息

基于大语料训练

缺点：

无法从文本中捕捉单词的意思，多义性无法支持

内存消耗严重，需要存储近似矩阵

受词表限制

五、GloVe (Trained)：

优点：

非常简单，捕捉线性关系优异(performs better than Word2vec)
对于高度频繁的单词对的重量较低，例如“am”，“is”等的单词将不会影响太大

缺点：

内存消耗严重，需要存储近似矩阵

需要大量的语料数据支持

受词表限制

无法从文本中捕捉单词的意思，多义性无法支持

六、FastText：

优点：

适用于少量的单词

在字符水平中用n-gram解决受词表限制的问题

缺点：

无法从文本中捕捉单词的意思，多义性无法支持

内存消耗严重

计算开销比GloVe 和 Word2Vec更大

文章标签：

自然语言处理

存储

程序员对白

目录

相关文章

楠竹11

|

1月前

|

机器学习/深度学习自然语言处理算法

调研180多篇论文，这篇综述终于把大模型做算法设计理清了

《A Systematic Survey on Large Language Models for Algorithm Design》综述了过去三年大型语言模型（LLMs）在算法设计中的应用。LLMs通过自然语言处理技术，助力生成、优化和验证算法，在优化、机器学习、数学推理等领域展现出广泛应用前景。尽管存在资源需求高、结果不确定等挑战，LLMs仍为算法设计带来新机遇。论文地址：https://arxiv.org/abs/2410.14716。

楠竹11

83 14 14

汀丶人工智能

|

3月前

|

机器学习/深度学习人工智能自然语言处理

LLMs 入门实战系列大全：LLMs应用、领域大模型介绍、大模型常见面经汇总

LLMs 入门实战系列大全：LLMs应用、领域大模型介绍、大模型常见面经汇总

汀丶人工智能

66 0 0

LLMs 入门实战系列大全：LLMs应用、领域大模型介绍、大模型常见面经汇总

-开发达人-

|

机器学习/深度学习人工智能自然语言处理

LLM评估综述论文问世，分三方面全面总结，还带资料库

LLM评估综述论文问世，分三方面全面总结，还带资料库

-开发达人-

336 0 0

zxvf_lnn

|

编解码

nnUNet 详细解读（一）论文技术要点归纳

nnUNet 详细解读（一）论文技术要点归纳

zxvf_lnn

611 0 0

-开发达人-

|

人工智能

从BERT到ChatGPT，百页综述梳理预训练大模型演变史（1）

从BERT到ChatGPT，百页综述梳理预训练大模型演变史

-开发达人-

264 0 0

-开发达人-

|

机器学习/深度学习人工智能自然语言处理

从BERT到ChatGPT，百页综述梳理预训练大模型演变史（2）

从BERT到ChatGPT，百页综述梳理预训练大模型演变史

-开发达人-

388 0 0

-开发达人-

|

机器学习/深度学习人工智能机器人

Nature给学术界立规矩：ChatGPT等大模型不可以成为作者

Nature给学术界立规矩：ChatGPT等大模型不可以成为作者

-开发达人-

142 0 0

about云

|

机器学习/深度学习人工智能算法

深度学习怎么入门？一文弄清楚最常见的专业词汇

深度学习怎么入门？一文弄清楚最常见的专业词汇

about云

183 0 0

深度学习怎么入门？一文弄清楚最常见的专业词汇

致Great_VIP

|

数据采集机器学习/深度学习自然语言处理

【论文笔记】当Bert炼丹不是玄学而是哲学：Mengzi模型

【论文笔记】当Bert炼丹不是玄学而是哲学：Mengzi模型

致Great_VIP

350 0 0

【论文笔记】当Bert炼丹不是玄学而是哲学：Mengzi模型

致Great_VIP

|

JSON 安全数据挖掘

手把手教你搭建Bert文本分类模型，快点看过来吧！

手把手教你搭建Bert文本分类模型，快点看过来吧！

致Great_VIP

381 0 0

手把手教你搭建Bert文本分类模型，快点看过来吧！

热门文章

最新文章

如何优雅打印nginx header和body

Swin Transformer实战：使用 Swin Transformer实现图像分类

国家自然科学基金委员会管理科学部认定的管理类30种重要期刊

寿力：能为企业创造价值的网站才值得投资

49.5. Backup and Recovery

利用有序队列寻找最大的K个数

内核源码编译

记录一次mysql的调优心得

RHEL5实现高可用HA集群+GFS+EnterpriseDB

用自然语言控制电脑，字节跳动开源 UI-TARS 的桌面版应用！内附详细的安装和配置教程

PaSa：字节跳动开源学术论文检索智能体，自动调用搜索引擎、浏览相关论文并追踪引文网络

UI-TARS：字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

数据库连接工具连接mysql提示：“Host ‘172.23.0.1‘ is not allowed to connect to this MySQL server“

菜鸟之路Day05一一正则表达式

🎨 设计师必备！AI Stable Diffusion 提示词神器，让你秒变创意大师！

【c++丨STL】stack和queue的使用及模拟实现

师资培训｜AIGC工具搜集和分析教学反馈-某教育科技集团

更正以前风险调整中的一个缺陷

使用ChatGPT生成登录产品代码

相关课程

更多

AI情绪鼓励师模型微调实操教学

【机器学习入门】台大李宏毅老师经典机器学习课程视频

强化学习入门与实践

李宏毅2021《机器学习》

计算机视觉入门与实践

南瓜书《机器学习公式推导》

相关电子书

更多

弱监督机器学习研究新进展

如何成为一名优秀的工程师(语义篇）

关于《探索AIGC下的软件工程新范式》的联合声明

相关实验场景

更多

奥运时刻！零代码生成奥运风格AI写真。

云原生AI套件：五分钟微调宝可梦风格StableDiffusion

推荐系统入门之使用ALS算法实现打分预测

下一篇

阿里云oss简介和如何对接使用