Urllib2库+正则爬取内涵段子

简介:     内涵段子前段时间发生的事情,想必大家都有所耳闻,我本人也是非常喜欢看段子的。但这并不能阻止我想看段子的脚步,幸好,给大家推荐一个网站,叫做内涵吧,里面也有非常丰富的段子内容。

    内涵段子前段时间发生的事情,想必大家都有所耳闻,我本人也是非常喜欢看段子的。但这并不能阻止我想看段子的脚步,幸好,给大家推荐一个网站,叫做内涵吧,里面也有非常丰富的段子内容。下面就以内涵吧为例爬取所有段子,可供离线观看。

先分析请求的url地址

     第一页段子url:https://www.neihan8.com/wenzi/index.html

     第二页段子url:https://www.neihan8.com/wenzi/index.html

     第3页段子url:https://www.neihan8.com/wenzi/index.html

     那么就可以得出一个规律,也就是第n页段子url:https://www.neihan8.com/wenzi/index.html

     如果要设计一个较为人性化的使用方式,可以让用户自己设定爬取页码的开始和结束,部分代码如下所示:

start_page = int(raw_input("请输入您要下载的起始页:"))
end_page = int(raw_input("请输入您要下载的结束页:"))

for page in range(start_page, end_page+1):
     if page == 1:
         url = "https://www.neihan8.com/wenzi/index.html"
     else:
         url = "https://www.neihan8.com/wenzi/index_" + str(page) + ".html"

整理逻辑功能

    通过第一步已经拿到了每页的url,而每页内容都是一个段子列表,每页至少20个段子,这些列表包含段子的标题和每个段子的url,所以要提取出来,然后逐个读取。再将读取的内容与标题拼接成字符串,通过文件的读写功能写入每一个文件中

    下载每页所有的段子

def loadPage(self, page, url):
     """
         作用:下载该页所有的段子
         page:当前下载的页码
         url:当前页的url地址
     """
     print "*"*50
     print "正在下载第%s页"%page
     request = urllib2.Request(url, headers=self.headers)
     response = urllib2.urlopen(request)
     html = response.read()
     # print html
     return html
    提取出url和标题
def dealPage(self, page, html):
     """
         作用:处理当前页面的段子
         page:当前处理的页码
         html:当前页面的html内容
     """
     print "*"*50
     print "正在处理第%s页"%page
     pattern = re.compile(r'<h3><a\shref="(.*?)"\s.*?>(.*?)</a></h3>', re.S)
     urls_names = pattern.findall(html)
     duanzi_dict = self.dealEach(urls_names)
     return duanzi_dict

    使用正则解析每个段子的url

def dealPage(self, page, html):
     """
         作用:处理当前页面的段子
         page:当前处理的页码
         html:当前页面的html内容
     """
     print "*"*50
     print "正在处理第%s页"%page
     pattern = re.compile(r'<h3><a\shref="(.*?)"\s.*?>(.*?)</a></h3>', re.S)
     urls_names = pattern.findall(html)
     duanzi_dict = self.dealEach(urls_names)
     return duanzi_dict

    将段子拼接并写入文件

def writePage(self, page, duanzi_dict):
     """
         作用:写入该页所有的段子
         duanzi_dict:该页所有的段子标题与内容
     """
     print "*"*50
     print "正在写入第%s页"%page
     print "*"*50
     num = 1
     with open("第%s页"%page, "w") as f:
         for duanzi_name in duanzi_dict:
             print "正在记录第%s个段子"%num
             f.write(duanzi_name + '\n' + duanzi_dict[duanzi_name]+ '\n' + '\n' + '\n')
             num += 1

全部代码

#!/usr/bin/env python
# coding=utf-8

import urllib2
import re

class Spider(object):
    def __init__(self):
        self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36"}
    
    def loadPage(self, page, url):
        """
            作用:下载该页所有的段子
            page:当前下载的页码
            url:当前页的url地址
        """
        print "*"*50
        print "正在下载第%s页"%page
        request = urllib2.Request(url, headers=self.headers)
        response = urllib2.urlopen(request)
        html = response.read()
        # print html
        return html
        
    def dealPage(self, page, html):
        """
            作用:处理当前页面的段子
            page:当前处理的页码
            html:当前页面的html内容
        """
        print "*"*50
        print "正在处理第%s页"%page
        pattern = re.compile(r'<h3><a\shref="(.*?)"\s.*?>(.*?)</a></h3>', re.S)
        urls_names = pattern.findall(html)
        duanzi_dict = self.dealEach(urls_names)
        return duanzi_dict

    def dealEach(self, urls_names):
        """
            作用:处理每个段子的内容
            urls_names:每个段子的url和标题
        """
        duanzi_names = []
        duanzi_contents = []
        duanzi_content = ''
        for url,name in urls_names:
            duanzi_url = "https://www.neihan8.com" + url
            # print duanzi_url
            request = urllib2.Request(duanzi_url, headers=self.headers)
            response = urllib2.urlopen(request)
            html = response.read()
            # print html
            pattern = re.compile(r'<p>(.*?)</p>')
            duanzi_content = ''.join(pattern.findall(html)).replace("&ldquo;","").replace("&rdquo;","").replace("&hellip;","").replace("&quot;","").replace("&hellip;","").replace("&nbsp;","").replace("&mdash;","")
            # print duanzi_content
            duanzi_contents.append(duanzi_content)
            duanzi_names.append(name)

        duanzi_dict = dict(zip(duanzi_names, duanzi_contents))
        return duanzi_dict


    def writePage(self, page, duanzi_dict):
        """
            作用:写入该页所有的段子
            duanzi_dict:该页所有的段子标题与内容
        """
        print "*"*50
        print "正在写入第%s页"%page
        print "*"*50
        num = 1
        with open("第%s页.txt"%page, "w") as f:
            for duanzi_name in duanzi_dict:
                print "正在记录第%s个段子"%num
                f.write(duanzi_name + '\n' + duanzi_dict[duanzi_name]+ '\n' + '\n' + '\n')
                num += 1
            

    def neihan(self):
        list_urls = []
        start_page = int(raw_input("请输入您要下载的起始页:"))
        end_page = int(raw_input("请输入您要下载的结束页:"))
        if start_page <=0 or end_page <=0:
            print "当前输入不合法"
            return     
        
        for page in range(start_page, end_page+1):
            if page == 1:
                url = "https://www.neihan8.com/wenzi/index.html"
            else:
                url = "https://www.neihan8.com/wenzi/index_" + str(page) + ".html"
            # print url
            
            html = self.loadPage(page, url)
            duanzi_dict = self.dealPage(page, html)
            self.writePage(page, duanzi_dict)
            

if __name__ == "__main__":
    neihan_Spider = Spider()
    neihan_Spider.neihan()

 

相关文章
|
JavaScript 前端开发 物联网
「Mac畅玩鸿蒙与硬件1」鸿蒙开发环境配置篇1 - 认识鸿蒙系统与开发工具
本篇将介绍鸿蒙操作系统(HarmonyOS)的基本概念以及在 Mac 环境下进行鸿蒙开发所需的工具。通过了解鸿蒙系统和开发工具的特点,为后续的学习和实践奠定基础。
1025 1
「Mac畅玩鸿蒙与硬件1」鸿蒙开发环境配置篇1 - 认识鸿蒙系统与开发工具
|
11月前
|
机器学习/深度学习 开发框架 API
Python 高级编程与实战:深入理解 Web 开发与 API 设计
在前几篇文章中,我们探讨了 Python 的基础语法、面向对象编程、函数式编程、元编程、性能优化、调试技巧以及数据科学和机器学习。本文将深入探讨 Python 在 Web 开发和 API 设计中的应用,并通过实战项目帮助你掌握这些技术。
|
11月前
|
存储 大数据 数据处理
您有一份 Apache Flink 社区年度报告请查收~
您有一份 Apache Flink 社区年度报告请查收~
207 0
|
开发框架 缓存 .NET
阿里云轻量应用服务器、经济型e、通用算力型u1实例怎么选?区别及选择参考
在阿里云目前的活动中,价格比较优惠的云服务器有轻量应用服务器2核2G3M带宽68元1年,经济型e实例2核2G3M带宽99元1年,通用算力型u1实例2核4G5M带宽199元1年,这几个云服务器是用户关注度最高的。有的新手用户由于是初次使用阿里云服务器,对于轻量应用服务器、经济型e、通用算力型u1实例的相关性能并不是很清楚,本文为大家做个简单的介绍和对比,以供参考。
|
监控 物联网 网络架构
|
人工智能 物联网 Linux
从端到云-全面讲解物联网全栈开发之道
万物互联的时代即将到来,互联网作为当今最为火热的方向之一,无数开发者沉迷其中,那么从事物联网开发需要哪些知识储备呢?在本次分享中,来自创客学院的刘正道老师从物联网就业与岗位分析、物联网与嵌入式、物联网行业解决方案、物联网课程体系四部分全面讲解物联网全栈开发之道,带你走向物联网开发世界。
7402 0
|
Windows
WSL1升级到WSL2要求?如何看电脑系统是ARM64还是X64架构?(超详细)
WSL1升级到WSL2要求?如何看电脑系统是ARM64还是X64架构?(超详细)
1567 0
|
Kubernetes 算法 安全
隐语1.0设计理念深度解读:让产品易用,让研发也易用。
隐语1.0设计理念深度解读:让产品易用,让研发也易用。
1521 0
|
Web App开发 编解码 移动开发
React 框架下如何集成 H.265 流媒体视频播放器 EasyPlayer.js?
H5 无插件流媒体播放器 EasyPlayer 属于一款高效、精炼、稳定且免费的流媒体播放器,可支持多种流媒体协议播放,可支持 H.264 与 H.265 编码格式,性能稳定、播放流畅,能支持 WebSocket-FLV、HTTP-FLV,HLS(m3u8)、WebRTC 等格式的视频流。在功能上,EasyPlayer 支持直播、点播、录像、快照截图、MP4 播放、多屏播放、倍数播放、全屏播放等特性,并且已实现网页端实时录像、在 iOS 上实现低延时直播等功能,具备较高的可用性和稳定性
624 0
|
SQL Java 关系型数据库
elastic-job 定时任务集成
elastic-job 定时任务集成
852 0
elastic-job 定时任务集成

热门文章

最新文章