开发者社区> 问答> 正文

1000万的URL采集任务,纯用PHP+Mysql如何10个客户端同时高效的采集?

不要问我哪来的1000万条URL,目前就是这么愉快的有了!

虚拟空间只有32M内存限制,支持INNODB,需要开启10个客户端同时采集(理论上每个客户端可以处理100万条URL的采集任务)

问:如何高效的让这10个客户端共同采集这1000万条的URL?

注:只能用PHP+Mysql实现,实现成本越低越好,软件性能越高越好。

本人工作7.5年,我已经高效解决了此类问题。

问此问题目的:

1.看看有没有更好的实现方法

2.普查下中国程序员的水平

展开
收起
小旋风柴进 2016-03-11 12:48:44 2963 0
1 条回答
写回答
取消 提交回答
  • url去重问题即哪此是新的哪些是已经取过的,采用数据库显然很低效,采用布隆过滤器,在内存中解决去重问题大约会占去20m左右空间,但很值得。其它的不是那么难。

    2019-07-17 18:58:56
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
PHP 2017.北京 全球开发者大会——高可用的PHP 立即下载
PHP安全开发:从白帽角度做安全 立即下载
复杂PHP系统性能瓶颈排查及优化 立即下载

相关镜像