我有一个带有数千个文本条目的SQL表。在此表中,有些条目是完全重复的。然后是几乎几乎是重复的条目,如下所示:
Text
Hi my name is John. I am 25 years old. How are you?
Hi my name is John.
这些几乎重复的是较长文本的较短变体。
现在,我想编写一条select语句,该语句选择表中的所有内容,但不包括重复项。另外,我想选择几乎重复的较长版本。
是否有可能在一句话中做到这一点?
编辑:我忘记添加数据在同一列中,而不是在两个不同的列中。
我相信以下内容应完全满足您的要求:
1. select distinct t.text
from t
where not exists (select 1
from t t2
where t2.text like concat(t.text, '_%')
);
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。