今天遇到个问题,写了个程序从网上抓了150000个图片的地址,存到了txt文档中,每行存了一个图片的地址。现在想将图片下载下来,保存到本 机,但是下载的速度不是很快。所以用到了php在linux下面实现多线程,首先将txt文件拆成了10个大小相等的文件,每个文件存储了15000条图 片的地址,同时开启10个进行运行保存图片的程序,这样的时间可能就只是原来的1/10。下面将程序贴出来 ,大家指导一下有没有更好的方法。
function for_save_img($num)
{
for($i = 0; $i <= $num; $i++)
{
system("/usr/local/bin/php index.php crawl save_img {$i} & > /tmp/null");
}
}
function save_img($num)
{
static $i = 0;
//把文件读成一个数组
$img_urllists = ROOTDIRPATH . "/static/image_{$num}.txt";
$arr_img_url = file($img_urllists);
foreach($arr_img_url as $imageurl)
{
$imageurl = trim($imageurl);
echo $imageurl;
$this->benchmark->mark("code_start");
//存图片
$final_imageurl = "http://www.****.com/upload/UploadFile/" . $imageurl;
$img_open = file_get_contents($final_imageurl);
$ret = file_put_contents(ROOTDIRPATH . '/static/uploadimg/' . $imageurl, $img_open);
if($ret)
{
echo "Success......";
}
$this->benchmark->mark('code_end');
echo $this->benchmark->elapsed_time('code_start', 'code_end');
}
}
该程序为ci框架下 在linux的shell下 网站的根目录运行 php index.php crawl for_save_img 大家有好的建议欢迎提出 虚心接受
调用system会连带启动shell环境的 ,所以, 拿fcntl_fork弄个进程池可以省掉$num个bash开销
下载这种IO堵塞问题, 用stream_select弄一个简易协程更好一下, 不用线程进程的开销, 而且能跑满带宽
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。