第一个python网络爬虫总结

简介:
这个程序其实就是模仿用户的网页访问操作。 
先从主页上获取大的商品分类,再一级一级地遍历所有的小分类。在最后得到商品列表,再遍历每个商品页,从商品页是抓取有效的信息。 

这里,我对一些关键点做个总结,以便以后用到好回顾。 

一,怎么访问网页?


# 根据url获取网页正文
def get_webpage(url):
    headers = {\
            'User-Agent' : 'Mozilla/5.0 (X11; Linux i686; rv:34.0) Gecko/20100101 Firefox/34.0',\
            'Accept'     : 'text/html',\
            'Connection' : 'keep-alive'}
    try:
        request = urllib2.Request(url, None, headers)
        response = urllib2.urlopen(request, timeout=120)
        webpage = response.read()
        response.close()
        return webpage
 
    #except urllib2.HTTPError, e:
    #    print('HTTPError: ' + str(e.code))
    #except urllib2.URLError, e:
    #    print('URLError: ' + str(e.reason))
    except Exception, e:
        print('发生异常: ' + str(e))

  上面这个函数就是用uillib2.urlopen()函数获取url网址的网页内容。也可以不用urllib2.Request(),直接用urllib2.urlopen()。这么做为是为了仿造正常的浏览器的访问操作。 

二,数据保存 
  数据最好保存为xls文件格式,如果没有办法保存为csw文本格式也可以,也可以保存为txt文本格式。 
  最好做成根据用户输入的文件名的后缀名进行自动识别。 

  (1)先分别定义函数 save_as_csw(), save_as_txt(), save_as_xls() 实现csw,txt,xls文件格式的保存。 


def save_as_csw(prod_list, filename):
    if len(prod_list) == 0:
        return False
 
    #分类 商品 价格 联系人 手机 公司 座机 传真 地址 公司网址 源自网页 
    line_fmt = '"%s"\t"%s"\t"%s"\t"%s"\t"%s"\t"%s"\t"%s"\t"%s"\t"%s"\t"%s"\t"%s"\n'
    lines = []
    head_line = line_fmt % ('分类', '商品', '价格', '联系人', '手机号','公司', 
                            '电话', '传真', '公司地址', '公司网址', '源网页')
    lines.append(head_line)
    for item in prod_list:
        info = item['detail']
        if info == None:    #如果信息不全,则跳过
            continue
 
        prod_line = line_fmt % (item['path'], info['name'], info['price'],\
                                info['contact'], info['cell-phone'], info['company'], \
                                info['tel-phone'], info['fax'], info['address'], info['website'], item['url'])
        lines.append(prod_line)
     
    wfile = open(filename, 'w')
    wfile.writelines(lines)
    wfile.close()
    return True
 
def save_as_txt(prod_list, filename):
    if len(prod_list) == 0:
        return False
 
    #分类 商品 价格 联系人 手机 公司 座机 传真 地址 公司网址 源自网页 
    line_fmt = '%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\n'
    lines = []
    head_line = line_fmt % ('分类', '商品', '价格', '联系人', '手机号','公司', 
                            '电话', '传真', '公司地址', '公司网址', '源网页')
    lines.append(head_line)
    for item in prod_list:
        info = item['detail']
        if info == None:    #如果信息不全,则跳过
            continue
 
        prod_line = line_fmt % (item['path'], info['name'], info['price'],\
                                info['contact'], info['cell-phone'], info['company'], \
                                info['tel-phone'], info['fax'], info['address'], info['website'], item['url'])
        lines.append(prod_line)
     
    wfile = open(filename, 'w')
    wfile.writelines(lines)
    wfile.close()
    return True
 
#保存数据到xls文件中,每个大类放在不同的Worksheet中
def save_as_xls(prod_list, filename):
    if len(prod_list) == 0:
        return False
 
    workbook = xlwt.Workbook(encoding='utf-8')  #必须注明编码格式,否则会保存失败
    curr_category = ''
    worksheet = None
    row_index = 0
    for prod_item in prod_list:
        path = prod_item['path']
        this_category = path.split('/')[0]
        #如果当前的这个商品种类与上一个商品不同,则要新建worksheet
        if this_category != curr_category:
            worksheet = workbook.add_sheet(this_category)
            curr_category = this_category
            #填写表头
            header_cells = ('分类', '商品', '价格', '联系人', '手机号','公司', 
                     '电话', '传真', '公司地址', '公司网址', '源网页')
 
            column_index = 0
            for cell in header_cells:
                worksheet.write(0, column_index, header_cells[column_index])
                column_index += 1
            #创建了新了worksheet后,数据从第二行开始往下写
            row_index = 1 
 
        #将数据填写到worksheet的row_index行
        prod_info = prod_item['detail']
        #如果信息不全,则跳过
        if prod_info == None:
            continue
 
        prod_cells = (path, prod_info['name'], prod_info['price'], prod_info['contact'],\
                 prod_info['cell-phone'], prod_info['company'], prod_info['tel-phone'],\
                 prod_info['fax'], prod_info['address'], prod_info['website'], prod_item['url'])
 
        column_index = 0
        for cell in prod_cells:
            worksheet.write(row_index, column_index, prod_cells[column_index])
            column_index += 1
 
        row_index += 1
        pass
    workbook.save(filename)
    return True

  (2)定义DataSaver类,实现统一的文件保存功能。并用 case_dict 根据后缀名进行分别保存。


def get_filename_postfix(filename):
    basename = os.path.basename(filename)
    temp = basename.split('.')
    if len(temp) >= 2:
        return temp[-1]
 
class DataSaver:
    #后缀名与保存函数映射表
    case_dict = {'csw':save_as_csw,\
                 'txt':save_as_txt}
    if xlwt_enabled:
        case_dict['xls'] = save_as_xls
 
    #将商品列表数据‘喂’给DataSaver
    def feed(self, data):
        self.product_list = data
        pass
 
    def save_as(self, filename):
        if self.product_list == None or len(self.product_list) == 0:
            print('警告:记录为空,不保存')
            return
 
        print('正在保存……')
        while True:
            postfix = get_filename_postfix(filename)
            try:
                if self.case_dict[postfix](self.product_list, filename):
                    print('已保存到:' + filename)
                else:
                    print('保存失败!')
                break
            except KeyError:
                print('警告:不支持 %s 文件格式。' % (postfix))
                print('支持的文件格式:' + ','.join(self.case_dict.keys()))
                try:
                    filename = raw_input('请输入新文件名:')
                except KeyboardInterrupt:
                    print('用户取消保存')
                    break
        pass
    pass

  (3)如果没有安装 xlwt ,就不能支持 xls 文件的保存。 
  这里的做法是:如果import xlwt成功,则将xls文件的保存函数添加到case_dict中。 
  如果文件格式不支持,就提示让用户另命个文件名进行保存。 


#如果没有安装xlwt,那么保存为xls文件就不可用
xlwt_enabled = True
try:
    import xlwt
except ImportError: 
    xlwt_enabled = False

 见 DataSaver.save_as() 函数中对 xls 后缀名的处理。

三,遇到的问题与解决方法

(1)python程序里不能有中文的问题。
  以前,只有python程序里有中文,不管是在哪儿,都不能运行。原来是python解析器默认将文件识别为ascii编码格式的,有中文当然就不误别。解决这问题的办法是:明确告知解析器我们文件的编码格式。


#!/usr/bin/env python
#-*- coding=utf-8 -*-

  这样就可以了。

(2)安装xlwt3不成功的问题。
  从网上下载xlwt3进行安装。python setup.py install 失败,报print()函数不支持print("xxxx", file=f)这种格式。我看了一下,这个功能python 2.6是没有的。于是重新下载了xlwt-0.7.5.tar.gz进行安装。结果就可以了。

(3)在Windows为乱码的问题。
  这个问题,我还没有解决。


目录
相关文章
|
14天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
70 4
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
1月前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
286 55
|
1月前
|
数据采集 存储 XML
Python爬虫:深入探索1688关键词接口获取之道
在数字化经济中,数据尤其在电商领域的价值日益凸显。1688作为中国领先的B2B平台,其关键词接口对商家至关重要。本文介绍如何通过Python爬虫技术,合法合规地获取1688关键词接口,助力商家洞察市场趋势,优化营销策略。
|
1天前
|
数据采集 JSON 数据格式
Python爬虫:京东商品评论内容
京东商品评论接口为商家和消费者提供了重要工具。商家可分析评论优化产品,消费者则依赖评论做出购买决策。该接口通过HTTP请求获取评论内容、时间、点赞数等数据,支持分页和筛选好评、中评、差评。Python示例代码展示了如何调用接口并处理返回的JSON数据。应用场景包括产品优化、消费者决策辅助、市场竞争分析及舆情监测。
|
1月前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
189 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
13天前
|
数据采集 供应链 API
Python爬虫与1688图片搜索API接口:深度解析与显著收益
在电子商务领域,数据是驱动业务决策的核心。阿里巴巴旗下的1688平台作为全球领先的B2B市场,提供了丰富的API接口,特别是图片搜索API(`item_search_img`),允许开发者通过上传图片搜索相似商品。本文介绍如何结合Python爬虫技术高效利用该接口,提升搜索效率和用户体验,助力企业实现自动化商品搜索、库存管理优化、竞品监控与定价策略调整等,显著提高运营效率和市场竞争力。
44 3
|
21天前
|
算法 网络协议 Python
探秘Win11共享文件夹之Python网络通信算法实现
本文探讨了Win11共享文件夹背后的网络通信算法,重点介绍基于TCP的文件传输机制,并提供Python代码示例。Win11共享文件夹利用SMB协议实现局域网内的文件共享,通过TCP协议确保文件传输的完整性和可靠性。服务器端监听客户端连接请求,接收文件请求并分块发送文件内容;客户端则连接服务器、接收数据并保存为本地文件。文中通过Python代码详细展示了这一过程,帮助读者理解并优化文件共享系统。
|
24天前
|
数据采集 存储 缓存
如何使用缓存技术提升Python爬虫效率
如何使用缓存技术提升Python爬虫效率
|
25天前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
1月前
|
数据采集 JSON API
如何利用Python爬虫淘宝商品详情高级版(item_get_pro)API接口及返回值解析说明
本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口(item_get_pro),获取商品的详细信息,包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容,强调了数据获取的合规性和安全性。