Python 网络爬虫单线程版

简介: re.S让.能够匹配\n,默认情况点是不能匹配换行符的1.爬取网页源码中的图片#-*- coding:utf-8 -*-import reimport requestswith open('source.txt', 'r') as f:    html = f.read()#匹配图片网址,括号中为需要返回的内容pic_url = re.findall('img src="(

re.S让.能够匹配\n,默认情况点是不能匹配换行符的


1.爬取网页源码中的图片

#-*- coding:utf-8 -*-
import re
import requests
with open('source.txt', 'r') as f:
    html = f.read()

#匹配图片网址,括号中为需要返回的内容
pic_url = re.findall('img src="(.*?)" class="lessonimg"', html, re.M)
i = 0
for each in pic_url:
    print "now downloading:"+each
    pic = requests.get(each)
    fp = open('pic\\'+str(i)+'.jpg', 'wb')
    fp.write(pic.content)
    fp.close()
    i += 1


2.突破反爬虫机制伪装成浏览器设置headers

#-*- coding:utf-8 -*-

import requests
import sys
import re
#很多情况下sys.defaultencoding是ascii
reload(sys)
sys.setdefaultencoding("utf-8")
type = sys.getdefaultencoding()
print type

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:42.0) Gecko/20100101 Firefox/42.0'}
html = requests.get('http://jp.tingroom.com/yuedu/yd300p/', headers=headers)
html.encoding = 'utf-8'
print html.text

for japanese in re.findall('<span style="color:#666666;">(.*?)</span>', html.text, re.S):
    print japanese

for chinese in re.findall('style="color: #039;">(.*?)</a>', html.text, re.S):
    print chinese


3.发起post请求

#-*- coding:utf-8 -*-
import re
import requests


url = 'http://www.crowdfunder.com/browse/deals&template=false'
data = {
    'entities_only': 'true',
    'page': '3'
}
html_post = requests.post(url, data=data)

title = re.findall('class="card-title">(.*?)</div>', html_post.text, re.S)
print title
for each in title:
    print each


4.爬取极客学院课程详细信息

re.search匹配第一个

re.findall匹配所有

# coding=utf-8
__author__ = 'scaleworld'
import requests
import re
import sys

reload(sys)
sys.setdefaultencoding("utf-8")


class Spider(object):
    def __init__(self):
        print '开始爬取极客学院课程信息。。。'

    # 获取源代码
    def getsource(self, url):
        html = requests.get(url)
        return html.text

    # 获取每个课程块信息
    def getlessons(self, source):
        lessons = re.findall('deg="0" >(.*?)</li>', source, re.S)
        return lessons

    # 获取课程信息,如课程名称、课程介绍、课程时间、课程等级、学习人数
    def getlessonInfo(self, lesson):
        info = {}
        info['title'] = re.search('<h2 class="lesson-info-h2"><a(.*?)>(.*?)</a></h2>', lesson, re.S).group(2).strip()
        info['desc'] = re.search('<p style="height: 0px; opacity: 0; display: none;">(.*?)</p>', lesson, re.S).group(
            1).strip()
        timeandlevel = re.findall('<em>(.*?)</em>', lesson, re.S)
        info['time'] = timeandlevel[0].strip().replace("\n", "").replace("    ", "")
        info['level'] = timeandlevel[1].strip()
        info['learnNumber'] = re.search('"learn-number">(.*?)</em>', lesson, re.S).group(1).strip()
        return info

    # 保存课程信息到文件LessionInfos.txt
    def savelessionInfos(self, lessonInfos):
        # 'w':只写,会覆盖之前写入的内容
        # 也可以用'a':追加到文件末尾
        # 如果文件不存在,则自动创建文件
        f = open('LessionInfos.txt', 'w')
        i = 0
        for each in lessonInfos:
            i += 1
            f.writelines('第' + str(i) + '个课程:\n')
            f.writelines('title:' + each['title'] + '\n')
            f.writelines('desc:' + each['desc'] + '\n')
            f.writelines('time:' + each['time'] + '\n')
            f.writelines('level:' + each['level'] + '\n')
            f.writelines('learnNumber:' + each['learnNumber'] + '\n\n')
        f.close()


if __name__ == '__main__':
    # 定义课程信息数组
    lessonInfos = []
    # 课程信息页面url
    url = 'http://www.jikexueyuan.com/course/'
    # 实例化爬虫
    spider = Spider()
    # 取[1,21)及1到20页的课程信息
    for i in range(1, 21):
        # 构建分页URL
        pageUrl = url + '?pageNum=' + str(i)
        print '正在处理页面:' + pageUrl
        source = spider.getsource(pageUrl)
        lessons = spider.getlessons(source)
        for lesson in lessons:
            lessonInfo = spider.getlessonInfo(lesson)
            lessonInfos.append(lessonInfo)
            # print 'title:'+lessonInfo.get('title')  #函数返回指定键的值,如果值不在字典中返回默认值,不会报异常
            # print 'desc:'+lessonInfo.get('desc')
            # print 'time:'+lessonInfo.get('time')
            # print 'level:'+lessonInfo.get('level')
            # print 'learnNumber:'+lessonInfo.get('learnNumber')
        print '已处理' + str(lessons.__len__()) + '个课程信息。'
    print '极客学院课程信息爬取完毕,正在保存课程信息。。。'
    spider.savelessionInfos(lessonInfos)
    print '极客学院课程信息保存完毕。'



本文出自 “点滴积累” 博客,请务必保留此出处http://tianxingzhe.blog.51cto.com/3390077/1726527

目录
相关文章
|
2天前
|
数据采集 JavaScript 前端开发
打造你的Python爬虫:从基础到进阶
【9月更文挑战第5天】在数字信息泛滥的时代,掌握一项技能能让我们更好地筛选和利用这些资源。本文将带你了解如何用Python构建一个基本的网页爬虫,进而拓展到更复杂的数据抓取任务。无论你是编程新手还是有一定经验的开发者,跟随这篇文章的步伐,你将能够实现自动化获取网络数据的目标。准备好了吗?让我们一起潜入代码的世界,解锁新的可能!
|
4天前
|
网络协议 C语言
C语言 网络编程(十四)并发的TCP服务端-以线程完成功能
这段代码实现了一个基于TCP协议的多线程服务器和客户端程序,服务器端通过为每个客户端创建独立的线程来处理并发请求,解决了粘包问题并支持不定长数据传输。服务器监听在IP地址`172.17.140.183`的`8080`端口上,接收客户端发来的数据,并将接收到的消息添加“-回传”后返回给客户端。客户端则可以循环输入并发送数据,同时接收服务器回传的信息。当输入“exit”时,客户端会结束与服务器的通信并关闭连接。
|
4天前
|
C语言
C语言 网络编程(九)并发的UDP服务端 以线程完成功能
这是一个基于UDP协议的客户端和服务端程序,其中服务端采用多线程并发处理客户端请求。客户端通过UDP向服务端发送登录请求,并根据登录结果与服务端的新子线程进行后续交互。服务端在主线程中接收客户端请求并创建新线程处理登录验证及后续通信,子线程创建新的套接字并与客户端进行数据交换。该程序展示了如何利用线程和UDP实现简单的并发服务器架构。
WK
|
6天前
|
数据采集 XML 安全
常用的Python网络爬虫库有哪些?
Python网络爬虫库种类丰富,各具特色。`requests` 和 `urllib` 简化了 HTTP 请求,`urllib3` 提供了线程安全的连接池,`httplib2` 则具备全面的客户端接口。异步库 `aiohttp` 可大幅提升数据抓取效率。
WK
21 1
|
7天前
|
数据采集 JavaScript 前端开发
构建简易Python爬虫:抓取网页数据入门指南
【8月更文挑战第31天】在数字信息的时代,数据抓取成为获取网络资源的重要手段。本文将引导你通过Python编写一个简单的网页爬虫,从零基础到实现数据抓取的全过程。我们将一起探索如何利用Python的requests库进行网络请求,使用BeautifulSoup库解析HTML文档,并最终提取出有价值的数据。无论你是编程新手还是有一定基础的开发者,这篇文章都将为你打开数据抓取的大门。
|
7天前
|
数据采集 存储 数据库
构建你的第一个Python爬虫:从入门到实践
【8月更文挑战第31天】在数字时代的浪潮中,数据如同新时代的石油,而网络爬虫则是开采这些数据的钻头。本文将引导初学者了解并实现一个基础的网络爬虫,使用Python语言,通过实际代码示例,展示如何收集和解析网页信息。我们将一起探索HTTP请求、HTML解析以及数据存储等核心概念,让你能够快速上手并运行你的首个爬虫项目。
|
7天前
|
数据采集 存储 JavaScript
Python 爬虫实战:从入门到精通
【8月更文挑战第31天】 本文将带你走进 Python 爬虫的世界,从基础的请求和解析开始,逐步深入到反爬策略的应对和数据存储。我们将通过实际案例,一步步构建一个功能完整的爬虫项目。无论你是编程新手还是有一定经验的开发者,都能在这篇文章中找到适合自己的学习路径。让我们一起探索数据的海洋,揭开网络信息的神秘面纱。
|
7天前
|
数据采集 存储 JavaScript
Python 爬虫实战:从入门到精通
【8月更文挑战第31天】 本文将带你走进 Python 爬虫的世界,从基础的请求和解析开始,逐步深入到反爬策略的应对和数据存储。我们将通过实际案例,一步步构建一个功能完整的爬虫项目。无论你是编程新手还是有一定经验的开发者,都能在这篇文章中找到适合自己的学习路径。让我们一起探索数据的海洋,揭开网络信息的神秘面纱。
|
7天前
|
数据采集 存储 数据库
Python中实现简单爬虫与数据解析
【8月更文挑战第31天】在数字化时代的浪潮中,数据成为了新的石油。本文将带领读者通过Python编程语言,从零开始构建一个简单的网络爬虫,并展示如何对爬取的数据进行解析和处理。我们将一起探索请求网站、解析HTML以及存储数据的基础知识,让每个人都能成为自己数据故事的讲述者。
|
7天前
|
数据采集 JavaScript 前端开发
构建你的第一个Python爬虫:抓取网页数据入门指南
【8月更文挑战第31天】在数字时代,数据是新的石油。本文将引导初学者通过简单的步骤,使用Python编程语言创建一个基础的网络爬虫程序。我们将探索如何从网络上提取信息,并理解背后的原理。无论你是编程新手还是想要扩展你的技术工具箱,这篇文章都将为你提供一条清晰的道路,让你学会编写能够自动获取网络数据的脚本。准备好开始你的网络数据抓取之旅了吗?让我们现在就开始吧!
下一篇
DDNS