在做采集功能,使用PHP CURL函数,因为目标页面采用了gzip编码,只能使用如下代码:
function curl_get_contents($url,$t_url,$compression){ $ch = curl_init($url); $t_url = $t_url ? $t_url : "http://".$_SERVER['HTTP_HOST'].$_SERVER['REQUEST_URI']; curl_setopt($ch, CURLOPT_REFERER, $t_url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); if($compression!='') { curl_setopt($ch, CURLOPT_ENCODING, $compression); } $str = curl_exec($ch); echo curl_error($ch);//打印错误 curl_close($ch); return $str; }
采集网站地址时会报如下错误:
Error while processing content unencoding. invalid stored block lengths
备注,访问网站首页时候正常访问,列表页和内容页报此段代码,查了半天无果。
各位大佬是否遇到过这样的问题,应该怎么解决?麻烦给小弟支招。
如果真的是页面zip压缩之后的问题
curl_setopt($ch,CURLOPT_ENCODING,'gzip'); 回复 @liuhuyydy:那怎么不把这个去掉,尝试采集一下,有可能周一有首页压缩了,内页没有压缩呢。或者只有静态文件压缩了,动态文件都没有压缩回复 @小小程序员:哈哈,没有问你curl_setopt怎么用?我是说我的代码里已经这样写了,而且报错了,所以才问问你有没有遇到过类似的问题。回复 @liuhuyydy:curl_setopt怎么用,你还问我函数中是这么用的,网站首页可以正常采集,可是列表页和内容页面都会报上面的错误。版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。