不要问我哪来的1000万条URL,目前就是这么愉快的有了!
虚拟空间只有32M内存限制,支持INNODB,需要开启10个客户端同时采集(理论上每个客户端可以处理100万条URL的采集任务)
问:如何高效的让这10个客户端共同采集这1000万条的URL?
注:只能用PHP+Mysql实现,实现成本越低越好,软件性能越高越好。
本人工作7.5年,我已经高效解决了此类问题。
问此问题目的:
1.看看有没有更好的实现方法
2.普查下中国程序员的水平
url去重问题即哪此是新的哪些是已经取过的,采用数据库显然很低效,采用布隆过滤器,在内存中解决去重问题大约会占去20m左右空间,但很值得。其它的不是那么难。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。