python简单应用！用爬虫来采集天猫所有优惠券信息，写入本地文件

2018-07-24 2332

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 今天给大家分享一个小网站的数据采集，并写到excel里面！分析网站目标网站是“小咪购”，这里有天猫所有的含有购物券的商品信息，我们今天就来抓它吧！随便找一段文字，然后点击右键查看网页源代码，看看是否存在该文字，如果存在，那么这个网页就是静态网站了！很幸运，这个网站居然是静态的。

今天给大家分享一个小网站的数据采集，并写到excel里面！

python简单应用！用爬虫来采集天猫所有优惠券信息，写入本地文件

分析网站

目标网站是“小咪购”，这里有天猫所有的含有购物券的商品信息，我们今天就来抓它吧！

python简单应用！用爬虫来采集天猫所有优惠券信息，写入本地文件

随便找一段文字，然后点击右键查看网页源代码，看看是否存在该文字，如果存在，那么这个网页就是静态网站了！很幸运，这个网站居然是静态的。

python简单应用！用爬虫来采集天猫所有优惠券信息，写入本地文件

那就简单了，不需要去分析ajax加载数据或者找json包了，直接获取网页源代码==>>匹配相关内容==>>保存数据即可！

python简单应用！用爬虫来采集天猫所有优惠券信息，写入本地文件

工具和库

Windows+python3.6

import random

import time

import requests

from lxml import etree

import xlwt

用这几个库就可以搞定了！注意xlwt和xlrd这2个库都是操作excel的，一个是保存数据，一个是读取数据，不要搞混了。

python简单应用！用爬虫来采集天猫所有优惠券信息，写入本地文件

开始写代码

首先写一个函数，将所有的爬虫工作写到函数里，如下图

python简单应用！用爬虫来采集天猫所有优惠券信息，写入本地文件

这个网站需要写上headers，不写是抓不到数据的！新建一个列表，将爬到的相关数据写入列表，它的形式大概是这样的：【【产品信息A1，2，3……】，【产品信息B1，2，3……】……】，这么写列表是因为我们最后要将他们写如excel表格，那么列表中的每一个元素（还是列表形式）都是一行数据，方便写入！

注意第33行，列表构成的时候，用+连接会将所有列表中的元素放入一个列表，比如：【1，2，3】+【4，5】=【1，2，3，4，5】，而用append()函数则会将后面的内容作为一个元素加入列表中，比如：[1,2,3].append([4,5])=[1,2,3,[4,5]]

下来就是写入excel了，首先是新建excel表格，并写入第一行数据

wb = xlwt.Workbook(encoding='utf-8')
    ws = wb.add_sheet('优惠券')
    path = 'E://python//优惠券.xls'
    head = ['序号','商品类型','商品名称','优惠券','券后价','在售价','销量','推荐理由','商品链接']
    for i in range(9):
        ws.write(0,i,head[i])

后面的数据，依次按格式写入并最后用wb.save(路径)的方式保存即可！完整代码及效果如下

import random
import time
import requests
from lxml import etree
import xlwt

def main(line = 1):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0'}
    url = 'http://www.hlxns.com'
    html = requests.get(url, headers=headers)
    html.encoding = 'utf-8'
    page = etree.HTML(html.text).xpath('//a[@class="item"]/text()')[-1]
    for i in range(int(line/100)+1, int(page) + 1):
        k = 1
        lis = []
        print('【开始下载】第%d页数据'%i)
        htm = requests.get(url + '/index.php?r=l&page={}'.format(str(i)), headers=headers)
        htm.encoding = 'utf-8'
        data = etree.HTML(htm.text)
        url_sps = data.xpath('//div[@class="title"]/a/@href')
        for url_sp in url_sps:#一页100条
            time.sleep(random.random()*2)
            print('      【正在下载】第%03d页第%03d条商品数据'%(i,k),end='')
            k += 1
            html_sp = requests.get(url + url_sp, headers=headers)
            html_sp.encoding = 'utf-8'
            info = etree.HTML(html_sp.text)
            title = info.xpath('//span[@class="title"]/text()')  # 产品
            summary = [x.replace('推荐理由：','') for x in  info.xpath('//span[@class="theme-color-3"]/text()')]  # 推荐理由
            category = info.xpath('//div[@class="nav-wrap"]/div/a[3]/text()')  # 类别
            now_price = info.xpath('//span[@class="now-price"]/b[2]/i/text()')  # 券后价
            old_price = info.xpath('//span[@class="org-price"]/i/text()')  # 在售价
            nums = info.xpath('//div[@class="text-wrap"]/span[2]/i/text()')  # 销量
            coupon = info.xpath('//div[@class="buy-coupon theme-color-8"]/span/b/text()')  # 优惠券
            sp_url = info.xpath('//a[@class="theme-bg-color-8"]/@href')  # 链接
            lis.append(category+title+coupon+now_price+old_price+nums+summary+sp_url)
            print('................................【下载完成】')
        print('######第%d页数据   【下载完成】'%i)
        for ii in range(len(lis)):
            lis[ii].insert(0, line)  # 添加序号
            for j in range(9):  # 列
                ws.write(line, j, lis[ii][j])
            line += 1
        print('>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>【写入本页数据完成】<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<')
        wb.save(path)
if __name__ == '__main__':
    wb = xlwt.Workbook(encoding='utf-8')
    ws = wb.add_sheet('优惠券')
    path = 'E://python//优惠券.xls'
    head = ['序号','商品类型','商品名称','优惠券','券后价','在售价','销量','推荐理由','商品链接']
    for i in range(9):
        ws.write(0,i,head[i])
    main()

python简单应用！用爬虫来采集天猫所有优惠券信息，写入本地文件

由于网站更新的很快（官方说是10分钟。。。），所以也没有抓取那么多，所有的页面有大约600多页，一页100条信息，也就是说一共有6万多条商品信息，如果不用多线程的话会很慢！

python简单应用！用爬虫来采集天猫所有优惠券信息，写入本地文件

python简单应用！用爬虫来采集天猫所有优惠券信息，写入本地文件

分析网站

工具和库

开始写代码

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

python简单应用！用爬虫来采集天猫所有优惠券信息，写入本地文件

分析网站

工具和库

开始写代码

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像