大数据怎么样判断数据唯一性效率高?
Re大数据怎么样判断数据唯一性效率高?
分布式kv数据库
对url分组
-------------------------
Re大数据怎么样判断数据唯一性效率高?
推荐使用Bloom Filter存储已经抓取到的url.
Bloom Filter实际上是由一组哈希函数和一个字节列表组成.
详细介绍可以参考百度百科
http://baike.baidu.com/view/1912944.htm
和这篇博文.
http://www.dbafree.net/?p=36
如果使用Python可直接安装Pybloom包, 这里已经实现了Bloom Filter.
赞0
踩0