文档备案控制台

开发者社区问答正文

Python 数据挖掘中，文本相似度计算里基于语料库方法有哪些呢？

已解决

Python 数据挖掘中，文本相似度计算里基于语料库方法有哪些呢？

展开

收起

gxx1 2022-07-24 08:39:59 3071 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

gxx2

推荐回答

1. 基于词袋（VSM、LSA、PLSA、LDA）：不考虑词语在文档中出现的顺序,将文档表示成一系列词语的组合。

2. 基于神经网络：（Word2vec、Glove、Bert）：通过神经网络模型生成词向量，利用上下文生成低维的实数向量。

3. 基于搜索引擎：Web成为内容最丰富、数据量最大的语料库，与此同时搜索引擎相关算法的进步,使得有任何需求的用户都可通过搜索找到答案。其基本原理是给定搜索关键词×、y，搜索引擎返回包含x、y的网页数量f (x)、f(y)以及同时包含x和y的网页数量f(x, y)。

2022-07-24 18:07:24

赞同展开评论

问答分类：

数据挖掘 Python

问答标签：

数据挖掘方法 Python计算方法

问答地址：

开发者社区 > 大数据 > 问答

相关问答

python做数据挖掘会不会有那种算法来的容易，效率却被降得很低的情况？

190

1

0

有没有 python 调用自然语言处理sdk 中的文本纠错功能的代码示例

408

5

0

阿里语音AI的“实时长文本”语音合成服务的流逝返回，有python的sdk吗？

263

1

0

使用key通过 python下载数据列--请问具体是使用的哪个功能？

848

1

0

maxcomputer使用key通过 python下载数据列中文内容每次都是乱码需要解析，怎么解决？

853

1

0

dataworks python3节点返回数据后不能自动停止运行，请问如何处理？

986

1

0

我想问下 dataworks的 python节点能否直接读取holo上的表的数据

1256

1

0

python爬虫的方法有哪些？

942

0

0

python的学习方法有哪些

1494

2

0

python爬虫的好方法都有哪些

1083

0

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

qoder cn里的DeepSeek-V4-Flash是0731发布的正式版吗?

qoder 不支持配置自定义第三方大模型api

关于credits购买机制

qoderWorkCn什么时候才能接入阿里云-百炼平台的token plan,自家套餐都没接入

程序员群体，大家都在用什么code plan方案？还有用的什么编码智能体？

相关文章

GitHub Copilot + RPA 实战：快速编写 RPA 扩展 Python 组件的完整方案

1688 商品评论接口的具体调用方法

ComfyUI电脑版EXE文件下载、安装、配置、使用全流程图解，点击可直接运行

【AI时代软件项目管理系列】1. AI 正在改变软件研发项目管理，而不只是改变写代码

让 Claude Code 少说废话、直接给答案——我试了这个 5200 Star 的技能包

还有其他疑问?