备案控制台

开发者社区问答正文

如何在MySQL varchar列中创建最常见子串的有序列表？

我有一个具有两千行的MySQL数据库表。该表的设置如下：

id | text

该id列是一个自动递增的整数，并且该text列是一个200个字符的varchar。

说我有以下几行：

3 | I think I'll have duck tonight

4 | Maybe the chicken will be alright

5 | I have a pet duck now, awesome!

6 | I love duck

然后，我要生成的列表可能类似于：

3次“鸭子” 3次出现“ I” 2次出现“有” 1次“鸡肉” .etc .etc 另外，我可能想要维护一个子字符串列表，以便从列表中忽略它们，例如“ I”，“ will”和“ have”。重要的是要注意，我不知道人们会发布什么。

我没有要监视的单词列表，我只想找到最常见的子字符串。然后，我将通过编辑查询从列表中手动过滤掉所有不必要的错误子字符串。

有人可以建议最好的方法吗？感谢大家！

问题来源于stack overflow

展开

收起

保持可爱mmm 2019-11-18 17:52:02 509 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

保持可爱mmm

MySQL已经为您做到了。

首先确保您的表是MyISAM表

在列上定义FULLTEXT索引

在shell命令行上，导航到存储MySQL数据的文件夹，然后键入：

myisam_ftdump -c yourtablename 1 >wordfreq.dump 然后，您可以处理wordfreq.dump以消除不需要的列，并按频率下降的顺序进行排序。

您可以使用单个命令行和一些sed / awk向导来完成以上所有操作。您可以将其合并到程序中，而无需转储文件。

有关myisam_ftdump的更多信息，请参见：http ://dev.mysql.com/doc/refman/5.0/en/myisam-ftdump.html

哦，还有一件事，MySQL的停用词已预编译到引擎中。少于3个字符的单词不会被索引。完整列表在这里：

http://dev.mysql.com/doc/refman/5.0/en/fulltext-stopwords.html

如果此列表不足以满足您的需求，或者您需要计数少于3个字符的单词，则唯一的方法是使用针对FULLTEXT的不同规则重新编译MySQL。我不建议这样做！

2019-11-18 17:52:17

赞同展开评论

问答分类：

关系型数据库 MySQL 数据库云数据库 RDS MySQL 版

问答标签：

云数据库 RDS MySQL 版varchar 云数据库 RDS MySQL 版子串云数据库 RDS MySQL 版创建

问答地址：

开发者社区 > 数据库 > 问答

相关问答

AnalyticDB MySQL修改表字段类型int改成varchar报错

143

1

0

PolarDB MySQL支持扩展VARCHAR类型字段吗

132

1

0

AnalyticDB MySQL varchar限制长度无效

116

1

0

云数据仓库AnalyticDB MySQL varchar限制长度无效的原因是什么？

178

4

0

mysql 同步 oracle varchar -> nvarchar2 会报错

197

1

0

adb mysql 3.0的 varchar 设置长度后可以超出规定长度？

258

1

0

mysql模式，varchar类型字段，不支持默认值用函数吗？比如这样，报错了。

494

3

0

请教一个问题 Flink CDC mysql-cdc；某个字段由varchar 改成了int 由

1409

0

0

我现在创建和查询是postgresql，但是连接器却使用到了mysql中去了，这个怎么回事啊？

1116

0

0

如何在云端创建mysql数据库实验数据迁移一步提示子账户无该权限，需主账户前往ram控制台授权

840

0

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

通义灵码，文件编辑返回403错误

相关文章

SpringCloud工程部署启动

练习

Nacos配置中心

练习

容器引擎Docker

还有其他疑问?