备案控制台

开发者社区> 问答> 正文

scrapy 下载百度新闻图片错误?报错

报错日志如下：

2017-07-12 21:26:48 [scrapy.pipelines.files] WARNING: File (code: 403): Error downloading file from <GET http://t10.baidu.com/it/u=1495155540,1076493806&fm=55&s=BF904F831EEF3E8C6781B5210300E0F1&w=121&h=81&img.JPEG> referred in <None>
2017-07-12 21:26:48 [scrapy.core.scraper] WARNING: Dropped: Item contains no images

红色部分，是自己写的代码

def item_completed(self, results, item, info):
if item.__class__.__name__ != 'NewsImagesItem':
return item
image_path = [x['path'] for ok,x in results if ok]
if not image_path:
raise DropItem('Item contains no images')

imagePipiline 配置都没有错误，日志里显示图片已经开始下载

图片地址也没有错误，部分图片是可以下载下来的

另外：图片地址在浏览器里多次尝试也会出现403 Forbidden 错误

应该是网站的防爬策略，怎么解决呢

展开

收起

爱吃鱼的程序员 2020-06-08 12:36:09 700 0

1 条回答

写回答

取消提交回答

爱吃鱼的程序员

https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

这个问题解决了，分析浏览器请求，发现header里面都是设置了referer的，在pipeline 里request的时间，加上header.referer即可。

HTTPReferer是header的一部分，当浏览器向web服务器发送请求的时候，一般会带上Referer，告诉服务器我是从哪个页面链接过来的，服务器籍此可以获得一些信息用于处理。比如从我主页上链接到一个朋友那里，他的服务器就能够从HTTPReferer中统计出每天有多少用户点击我主页上的链接访问他的网站。

代码如下：

#自定义imagepipeline
classNewsImagesPipeline(ImagesPipeline):
  defget_media_requests(self,item,info):
    ifitem.__class__.__name__!='NewsImagesItem':
      return
    forimage_urlinitem['image_urls']:
      yieldRequest(url=image_url,headers={'Referer':item['header_referer']})
  defitem_completed(self,results,item,info):
    ifitem.__class__.__name__!='NewsImagesItem':
      returnitem
    image_path=[x['path']forok,xinresultsifok]
    ifnotimage_path:
      raiseDropItem('Itemcontainsnoimages')
    item['image_paths']=image_path
    returnitem

2020-06-08 12:36:22

赞同展开评论打赏

问答分类：

Python 日志服务

问答标签：

百度下载下载百度 Scrapy图片 Scrapy下载 Scrapy图片报错

问答地址：

开发者社区 > 开发与运维 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

阿里云网盘与相册中网盘的下载速度方面和oss直接下载比较哪个更快？会像百度网盘那样提高下载速度吗？

54

1

0

视觉智能平台报错显示连不上主机，测试了curl，没有问题可以链接到百度。不知道问题出到哪儿了？

45

1

0

我想咨询下网盘与相册服务的上传速度和下载速度，比百度免费的网盘是不是要快？如果和免费的速度一样。就没

48

3

0

windows环境下Seata 1.5.2版本的启动就报错？有人碰到过么百度也没百度出来答案

429

6

0

有没有给一个码栈PRO的下载链接我百度上下载都是没有客服回复的

104

1

0

pds app端在哪里下载啊？可以和百度网盘夸克一样存手机照片吗？

673

1

0

请问Python 3 安装psycopg2 2.9.3 报错，这个有遇到过吗，百度了很多方法，都没有

993

1

0

scrapy中response的content-type打印报错

717

1

0

scrapy shell 报错 'NoneType' object has no ..怎么解决？

593

1

0

如何解决百度tts限制文字问题？不识别%故障不读情况？如何添加下载按钮

657

0

0

问答排行榜

最热

最新

1 通过阿里云代备案系统进行个人快速备案 2699900

2 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1818315

3 据说在家办公的程序员是这样写代码的？ 1792348

4 阿里云开放端口权限 689929

5 如何升级配置 536074

6 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522463

7 【精品问答】python技术1000问(1) 514002

8 Flink Forward Asia 2021 有奖问答 512808

9 Linux Bash严重漏洞修复紧急通知（已全部给出最终修复方案） 456923

10 OceanBase 使用动画（持续更新） 359269

11 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329725

12 OSS存储服务-客户端工具 321341

13 为体验实验室取一个新名字。 307323

14 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 303861

15 Win Server 2003-2016 加密勒索事件必打补丁合集 295165

16 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 283662

17 安全组详解，新手必看教程 277262

18 写code还是做管理，开发者如何进行职业规划？ 268478

19 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255830

20 阿里云手机和阿云浏览器连接问题专帖 235632

1 一键生成你眼中的未来城市，分享部署过程、输出结果及使用体验 231

2 展示你用AI工具生成动漫头像，并分享配置过程及使用体验 204

3 国内AI大模型高考数学成绩超GPT-4o，如何看待这一结果？ 554

4 如何避免“写代码5分钟，调试2小时”的尴尬？ 564

5 通义灵码生成Git Commit的时候，偶尔生成中文，偶尔生成英文，根本无法控制生成的语言。 139

6 一键部署3D卡通风格模型，分享部署过程及使用体验 546

7 展示你通过AI修饰的自然风光照片，并讲述你的拍摄和编辑过程 954

8 机器学习PAI现在一直在重试，怎样停掉？ 227

9 请问机器学习PAI eas服务拉取dockerhub失败怎么办？ 181

10 请教下机器学习PAI的代码配置没有链接测试吗？ 116

11 平头哥芯片W800:芯片如何购买？ 153

12 阿里云Grafana升级10后已有的飞书webhook 报警机器人不再工作。请问如何排查？ 153

13 请问通义灵码IDEA生成Git Commit Message 如何默认生成中文注释 108

14 Nacos登录密码忘记了如何修改？ 385

15 你知道APP是怎么开发的吗？ 1639

16 如何提高企业的业务稳定性？ 649

17 钉钉宜搭，A提交一个表单，如何设置该表单只能给B看？ 161

18 百问求答 | 回答问题即有机会得米家落地扇 347

19 集成&自动化：3层触发时，新增和删除触发正常，但编辑时不正常 120

20 jetbrain IDE 无法正常安装 TONGYI Lingma plugin 141

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

AIOps-百度的思考与实践 立即下载

百度外卖从IDC到云端服务迁移历程 立即下载

百度研发工具集的应用实践——打造持续交付路上的“三堵墙” 立即下载