使用Python爬取大嘴巴巴网站

简介:

Anonymous驻中国办事处主任,私下搞了一个叫做“大嘴巴巴”的色*情网站。
http://dazui88.com/

这个网站烂的一逼,大家没事可以搞一搞它。今天我们试着爬取一下网站内容,回头交给网监×××姐。

1.首先我们观察大嘴巴巴最大的色请板块“轻松一刻”的URL
使用Python爬取大嘴巴巴网站
2.发现下面规律
使用Python爬取大嘴巴巴网站
3.然后编辑下面代码

##-*- coding:utf-8 -*-
import urllib2

def load_page(url):
    '''
    send url 
    return html_page
    '''
    user_agent = "User-Agent:Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;Trident/5.0;"

    headers = {"User-Agent":user_agent}

    req = urllib2.Request(url,headers = headers)

    response = urllib2.urlopen(req)

    html = response.read()

    return html

def write_to_file(file_name,txt):
    '''
    put txt into file_name
    '''
    print "writing file" + file_name
    f = open(file_name,'w')
    f.write(txt)
    f.close

def tiaba_spider(url,begin_page,end_page):
    '''
    fuck dazuibaba
    '''
    for i in range(begin_page,end_page + 1):
        pn = 442870 - i
        '''
        http://dazui88.com/qsyk/20180102442869.html
        http://dazui88.com/qsyk/20180102442868.html
        http://dazui88.com/qsyk/20180102442867.html
        ........
        i = 1 ,pn = 442870 -1 = 442869
        '''
        dazui88_url = url +  str(pn) + '.html'
        #print "dazui88'url:"
        #print dazui88_url
        html = load_page(dazui88_url)
        #print "================%d==================" %(i)
        #print html
        #print "===================================="
        file_name = str(i) + ".html"
        write_to_file(file_name,html)

#main
if __name__ == "__main__":
    url = raw_input("please input dazui88'URL:")
    #print url
    begin_page = int(raw_input("please input begin_page:"))
    end_page = int(raw_input("please input end_page:"))
    #print begin_page
    #print end_page
    tiaba_spider(url,begin_page,end_page)

4.然后执行python fuck-dazui88.py测试一下
使用Python爬取大嘴巴巴网站

5.成功爆夏主任菊花一次,可以愉快的去找网警×××姐举报他了:)

本文转自文东会博客51CTO博客,原文链接http://blog.51cto.com/hackerwang/2057398如需转载请自行联系原作者


谢文东666

相关文章
|
2月前
|
数据采集 Python
爬虫实战-Python爬取百度当天热搜内容
爬虫实战-Python爬取百度当天热搜内容
72 0
|
2月前
|
数据采集 JSON 数据格式
python爬虫之app爬取-charles的使用
charles 基本原理,charles抓包,分析,重发。
61 0
|
3月前
|
数据采集 数据可视化 数据挖掘
Python爬虫实战:抓取网站数据并生成报表
本文将介绍如何使用Python编写简单而高效的网络爬虫,从指定的网站上抓取数据,并利用数据分析库生成可视化报表。通过学习本文内容,读者将能够掌握基本的爬虫技术和数据处理方法,为日后开发更复杂的数据采集与分析工具打下坚实基础。
|
2月前
|
数据采集 测试技术 API
python爬虫之app爬取-微信朋友圈
搭建appium环境,appium基本使用,API操作等等
82 0
|
2天前
|
数据采集 机器学习/深度学习 供应链
python基于评论情感分析和回归、arima销量预测的购物网站选品
python基于评论情感分析和回归、arima销量预测的购物网站选品
|
11天前
|
数据采集 Web App开发 开发者
探秘Python爬虫技术:王者荣耀英雄图片爬取
探秘Python爬虫技术:王者荣耀英雄图片爬取
|
23天前
|
数据采集 XML 存储
【Python】Python音乐网站数据+音频文件数据抓取(代码+报告)【独一无二】
【Python】Python音乐网站数据+音频文件数据抓取(代码+报告)【独一无二】
|
28天前
|
数据采集 XML 存储
【Python】Python音乐网站数据+音频文件数据抓取(代码+报告)【独一无二】
【Python】Python音乐网站数据+音频文件数据抓取(代码+报告)【独一无二】
|
28天前
|
前端开发 测试技术 数据库
【python】为什么使用python Django开发网站这么火?
【python】为什么使用python Django开发网站这么火?
|
2月前
|
数据采集 存储 数据处理
使用Python爬取豆瓣电影影评:从数据收集到情感分析
本文演示如何使用Python爬虫获取豆瓣电影《肖申克的救赎》的影评数据并进行情感分析。首先,安装requests、BeautifulSoup、pandas和TextBlob库。接着,编写爬虫抓取评论的用户名、评分和内容,存储为DataFrame。然后,利用TextBlob进行情感分析,得到情感分数。此方法有助于分析用户对电影的反馈。
97 1