开发者社区> 问答> 正文

用SQL清理数据

我有两个充满电影的SQL Server表。一个称为ML_movies,另一个称为GL_movies。每个表包含大约35,000个电影标题。每个表唯一包含的内容是模糊的movieID,电影标题和发行年份。我想将它们合并并删除重复项,这可能会给我一个包含70,000部电影的数据集。

但是,没有重复是至关重要的。我尝试使用Levenshtein_Distance算法,但是比较两个字符串并发现最少的字符交换数被证明太不一致了。

HG{WEMNUV_6B}ZG@U{M8ZML.png

这将有效地返回ML_movies中与(在这种情况下)“ The Trip”最相似的前10个标题。但是我不得不硬编码两个标题

相反,我需要它来搜索GL_movies中最相似的标题。

如何在表A中找到与电影B最接近的电影标题的记录?

谢谢您的帮助!

展开
收起
游客syccbxcrjoo2g 2019-11-29 14:58:43 604 0
0 条回答
写回答
取消 提交回答
问答排行榜
最热
最新

相关电子书

更多
SQL Server在电子商务中的应用与实践 立即下载
GeoMesa on Spark SQL 立即下载
原生SQL on Hadoop引擎- Apache HAWQ 2.x最新技术解密malili 立即下载