备案控制台

开发者社区问答正文

街拍图片网站抓取代码记录

# -*- coding:utf-8 -*-

import requests
from urllib  import urlencode
import urllib
from requests.exceptions import RequestException
import re
import os

def get_info(offset,keyword):
    data =  {'offset':offset,
             'format':'json',
             'keyword':keyword,
             'autoload':'true',
             'count':'20',
             'cur_tab':'1'}
    url = 'http://www.toutiao.com/search_content/?'+urlencode(data)
    try:
        response=requests.get(url)
        if response.status_code == 200:
           json=response.json()
           for item in json.get('data'):
                articl_url=item.get('article_url')
                html=requests.get(articl_url).text
                reg=r'img src="(.*?)"'
                imag_url=re.findall(reg,html)
                if len(imag_url) != 0:
                    for url in imag_url:
                        global num
                        urllib.urlretrieve(url, 'jiepai/%d.jpg' %num)
                        print "已下载第%d 美照" %num
                        num += 1
                else:
                    continue
    except RequestException:
        print 'error'
num=1
if not  os.path.exists('jiepai'):
    os.mkdir('jiepai')
for i in range(0,1000,20):
    get_info(i,'街拍')

展开

收起

xuyuan.xy 2017-08-06 17:22:57 2879 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

0 条回答

写回答

取消提交回答

问答分类：

Python

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

请问下我访问接口不通什么原因 Provisional headers are shown

2870

0

0

购买阿里国外的云服务器是否可以访问谷歌？

82208

47

0

通过www和不带www的网址输入最终都指向www.我的域名.com，求指教

131104

28

0

this xml file does not appear to have any style in

50642

10

0

sql server的用户名和密码怎么查啊？

36666

21

0

OSS的endpoint如何查看

37006

6

0

计算机网络的频带传输是什么意思？

2009

1

0

手机弹出支付风险问题

6826

2

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

60256

30

0

配置了安全组规则，端口还是无法访问

32892

25

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

钉钉:因安全管控限制,16位参与人无法直接添加到日程

如何训练属于自己的AI大模型呢？有没有大佬有相关文档参考学习下

阿里云2核2G3M适合搭建个人博客或小型项目吗？

4M带宽的阿里云服务器适合运行用户量较小的小程序吗？

运行一个基础的Spring Boot应用至少需要多少内存？

相关文章

用Python轻松打造专业PPT：自动化生成演示文稿全攻略

巴西亚马逊中部 LBA-ECO ND-04 次生林碳汇和养分储量

对比评测Dify vs Coze：谁才是“AI工作流”的终极答案？

数字化转型不是买系统，而是用数据“开脑洞”

Python因果分析选哪个？六个贝叶斯推断库实测对比（含代码示例）

还有其他疑问?