开发者社区 问答 正文

请问怎么用redis去重?

分别从几个固定的网站上爬取数据;
为了url去重,我用的字符串型存储?还是用的sets型存储?

需要存储url数目,大概初期在100k-1000k之间。

展开
收起
爵霸 2016-03-09 08:52:16 3460 分享 版权
1 条回答
写回答
取消 提交回答
  • $key = 'URL_HASH';
    if(!$redis->hGet($key, md5($url))){
        // do something ...
        // 抓取一个 $url 后
        $redis->hSet($key, md5($url), true);
    }

    这里需要注意的是,如果是多线程的,要考虑其他进程,可以吧 bool 值改为枚举值。

    2019-07-17 18:55:15
    赞同 展开评论