文档备案控制台

开发者社区问答正文

PHP curl采集防盗链网站乱码问题求助?报错

在采集一个视频资讯网站时发现其用了防盗链和爬虫、禁用cookies会报错，完全模拟采集后全是乱码。

用fillder抓包设置no compression 之后就可以看到正常的HTML代码了,不知道这是社么原理，如何解决?

点击no compression后能正常显示HTML

<?php
header('content-type:text/html;charset=utf8');
set_time_limit(0);
	$curl = curl_init('http://www.jijizy点com/vod/?24229.html');
		$header = array();
		$header[] = 'Host: www.jijizy.com';
		$header[] = 'Referer: http://www.jijizy点com/vodlist/?5.html';
		$header[] = 'Accept-Encoding: gzip';
		$header[] = 'Accept-Language: zh-CN';
		$header[] = 'Cookie: ASPSESSIONIDCQSCBQTQ=KENHHCCBNJIHOENLHOPPDDEP; visid_incap_427008=QIp7l1y1TDGlqfVwnEOzoDSjQ1UAAAAAQUIPAAAAAAAXvgoGtlHuuAruMaA4ffZ2; incap_ses_260_427008=a9roNtU3BnuYxY1nSbWbAzSjQ1UAAAAAX0bJTMtBKjPzLOpEVxCP4w==';
		$header[] = 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8,UC/145,plugin/1,alipay/un';
		$header[] = 'Connection: keep-alive';
		$header[] = 'X-UCBrowser-UA: dv(HUAWEI G610-T00);pr(UCBrowser/10.4.0.558);ov(Android 4.2.1);ss(360*640);pi(540*960);bt(UC);pm(1);bv(1);nm(0);im(0);sr(0);nt(2);';
		curl_setopt($curl, CURLOPT_HTTPHEADER, $header);
        // 不输出header头信息
        curl_setopt($curl, CURLOPT_HEADER, 0);
        // 伪装浏览器
        //curl_setopt($curl, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36');
        // 保存到字符串而不是输出
        curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
        $rs = curl_exec($curl);
        curl_close($curl);

展开

收起

爱吃鱼的程序员 2020-06-14 16:21:31 1345 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

爱吃鱼的程序员

https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

cookie不应该提前设置.应该是去第一次抓取页面的时候保存COOKIE不是这个的问题gzip压缩了，并不是乱码的问题回复<aclass='referer'target='_blank'>@wsy5344:请求header中不要加：Accept-Encoding即可。这个怎么解决压缩后的数据，设置好header头就可以解决。<atarget="_blank"rel="nofollow">http://blog.ppsql.net/index.php?keyword=采集

把$header[]='Accept-Encoding:gzip';去掉

2020-06-14 16:21:49

赞同展开评论

问答分类：

XML Web App开发数据采集数据建模 PHP Android开发数据格式 iOS开发 Windows

问答标签：

PHP采集网站 PHP curl报错 PHP curl采集 PHP采集报错 PHP curl采集报错

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

SAE如何采集Java、Php语言应用的接口RED等数据？

212

1

0

短信服务PHP使用HTTP接入出现cURL error 60: SSL报错

558

1

0

阿里云OpenAPI用的是1.0的php sdk，我们底层是不是也是走的curl来发起请求的？

179

1

0

钉钉php curl 向webhook发送post请求，返回成功但请求参数丢失，怎么办？

350

0

0

NLP自学习平台权限已经开通，但是用文档提示的 php sdk ，提示 curl 错误？

238

3

0

在阿里函数计算中，php 8.1环境在curl的时候就会出现这个错误，是为什么呢？

317

1

0

在阿里函数计算中，我php curl 请求的时候函数会提示这个错误是为什么？

253

1

0

阿里云OpenAPI 中视频转码功能php版本是5.4, sdk不支持, 可以通过curl , RE

358

4

0

Serverless应用引擎php7.3默认开启了curl是么？

334

0

0

函数计算不支持 php curl 吗，访问外部接口总是返回null。

789

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

你们能不能简化点购买什么的，一会qoder官网，一会进阿里云。想续费，点了一会来回跳。。。。

什么时候支持本地模型呢？

Qoder 还有Qoderwork都无法添加第三方模型

Qoder 使用体验极差优化！

你们的管理混乱，太垃圾了。

相关文章

淘宝/天猫API选品比价全攻略：从入门到实战

数字孪生项目开发技术对比

电商口碑自动化监控方案：搭建商品评论实时采集 + 情感分析系统

AI表格导入Excel后日期与编号变形的排查流程

智能集中器基于阿里云EMQX的工厂车间边端协同实战

还有其他疑问?