备案控制台

开发者社区问答正文

1000万的URL采集任务，纯用PHP+Mysql如何10个客户端同时高效的采集？

不要问我哪来的1000万条URL，目前就是这么愉快的有了！

虚拟空间只有32M内存限制，支持INNODB，需要开启10个客户端同时采集（理论上每个客户端可以处理100万条URL的采集任务）

问：如何高效的让这10个客户端共同采集这1000万条的URL？

注：只能用PHP+Mysql实现，实现成本越低越好，软件性能越高越好。

本人工作7.5年，我已经高效解决了此类问题。

问此问题目的：

1.看看有没有更好的实现方法

2.普查下中国程序员的水平

展开

收起

小旋风柴进 2016-03-11 12:48:44 3108 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

小旋风柴进

url去重问题即哪此是新的哪些是已经取过的，采用数据库显然很低效，采用布隆过滤器，在内存中解决去重问题大约会占去20m左右空间，但很值得。其它的不是那么难。

2019-07-17 18:58:56

赞同展开评论

问答分类：

关系型数据库程序员云数据库 RDS MySQL 版

问答标签：

PHP客户端云数据库 RDS MySQL 版任务云数据库 RDS MySQL 版php PHP url 云数据库 RDS MySQL 版客户端

问答地址：

开发者社区 > 数据库 > 问答

相关问答

PolarDB MySQL如何查看jdbc url连接串

277

1

0

rds mysql的url在哪？

74

0

0

canal如何实现将mysql多张表(月表)采集入库到目标表中(一张表)？

219

0

0

请教下，flink 实时采集mysql 数据报错，有遇到的吗？

132

1

0

SAE如何采集Java、Php语言应用的接口RED等数据？

95

1

0

mysql 表将有默认值的列改为null，flinkcdc采集的数据不是null而是默认值，怎么办？

156

1

0

DATAX连接5.7版本mysql数据库报错，连接8.0没问题，URL没有问题

703

1

0

flinkcdc 采集mysql出现卡在某个binlog文件出不来怎么办？

107

0

0

flinkCDC-3.1.1 yaml模式采集mysql到doris该怎么进一步确定是不是网络问题？

92

1

0

有两套flink cdc程序分别在国内海外分别采集同一个mysql集群表，请问有什么方法？

68

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

如何让 Dify on DMS 助力智能应用开发？

阿里云服务器经常卡顿怎么解决

“数据超人”MCP工具，到底是怎么让数据‘燃’起来的？

DeepSeek V3.1 昨天还能用tool，今天怎么就用不了了？

宜搭表单中的子表单数据联动BUG

相关文章

Mysql基础学习day02-作业

【微电网】【创新点】基于非支配排序的蜣螂优化算法NSDBO求解微电网多目标优化调度研究(Matlab代码实现)

使用数据连接池进行数据库操作

flywa报错java.sql.SQLSyntaxErrorException: Unknown database ‘flyway‘

Healenium Java使用手册

还有其他疑问?