开发者社区> 问答> 正文

Python 数据挖掘中,SimHash算法的思想是什么呢?

已解决

Python 数据挖掘中,SimHash算法的思想是什么呢?

展开
收起
gxx1 2022-07-24 18:35:32 2744 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    算法思想是:simhash算法的主要思想是降维,将高维的特征向量映射成一个低维的特征向量,通过两个向量的Hamming Distance来确定文章是否重复或者高度近似。     

    Google采用这种算法来解决万亿级别的网页的去重任务

    2022-07-24 18:52:20
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
From Python Scikit-Learn to Sc 立即下载
Data Pre-Processing in Python: 立即下载
双剑合璧-Python和大数据计算平台的结合 立即下载