开发者社区> 问答> 正文

Python 数据挖掘中,SimHash算法的思想是什么呢?

已解决

Python 数据挖掘中,SimHash算法的思想是什么呢?

展开
收起
gxx1 2022-07-24 18:35:32 2712 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    算法思想是:simhash算法的主要思想是降维,将高维的特征向量映射成一个低维的特征向量,通过两个向量的Hamming Distance来确定文章是否重复或者高度近似。     

    Google采用这种算法来解决万亿级别的网页的去重任务

    2022-07-24 18:52:20
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
数据+算法定义新世界 立即下载
袋鼠云基于实时计算的反黄牛算法 立即下载
Alink:基于Apache Flink的算法平台 立即下载