toolkit-frame之toolkit-sprider(数据采集)---中国船舶网

简介: toolkit-frame之toolkit-sprider(数据采集)---中国船舶网

采集中国船舶网数据,使用以下几个核心包:

requests:2.10.0

beautifulsoup4:4.7.1

openpyxl :2.6.2

 

其中:

1、BaseFrame.__log__("开始采集中国船舶网的数据...") BaseFrame.__log__() 就是我个人封装的日之类替换成print就可以。

2、response = requests.get(self.base_url, timeout=30, headers=UserAgent().get_random_header(self.base_url)) 这个就是封装的一个随机header,防止被认为是机器,每次都模拟一个新的浏览器的header。代码是这个:UserAgent().get_random_header(self.base_url)

3、filepath = BaseConfig().CORPUS_ROOT + os.sep + "equipment_info.xlsx" 这个就是文件的路径BaseConfig().CORPUS_ROOT替换成自己的文件路径就可以了。

4、mmEntity = SpriderEntity() 这个就是一个实体类用来记录采集过的数据,程序可以多次执行。防止数据重复采集的策略。

不废话了直接上代码:

import os
import requests
from bs4 import BeautifulSoup
from openpyxl import load_workbook
from access.sprider.SpriderAccess import SpriderAccess
from base.BaseConfig import BaseConfig
from base.BaseFrame import BaseFrame
from business.sprider.UserAgent import UserAgent
from object.entity.SpriderEntity import SpriderEntity
from plugin.Tools import Tools
class CnShipNet:
    base_url = "http://www.cnshipnet.com/equipment/"  # 采集的网址
    page_count = 1  # 每个栏目开始业务
    def __init__(self):
        pass
    def _sprider_equipment_(self):
        BaseFrame.__log__("开始采集中国船舶网的数据...")
        response = requests.get(self.base_url, timeout=30, headers=UserAgent().get_random_header(self.base_url))
        response.encoding = 'utf-8'
        soup = BeautifulSoup(response.text, "html5lib")
        list_dl = soup.find_all('dl', attrs={"class": 'sub_list'})
        for dd in list_dl:
            for a in dd.find("dd").find_all("a"):
                url = a.get('href')  # 大分类的第一页 sell_list_2.html
                response = requests.get(url, timeout=30, headers=UserAgent().get_random_header(url))
                response.encoding = 'utf-8'
                soup = BeautifulSoup(response.text, "html5lib")
                if soup.find("cite") is not None:
                    page_end_number = str(soup.find("cite").text).split("/")[1].replace("页", "")
                    while self.page_count <= int(page_end_number):  # 翻完停止
                        if self.page_count == 1:  # 栏目的第一个地址
                            self.get_content(soup)  # 第一页
                        else:
                            next_url = url + "/sell_list_" + str(self.page_count) + ".html"
                            response = requests.get(next_url)
                            response.encoding = 'utf-8'
                            soup = BeautifulSoup(response.text, "html5lib")
                            self.get_content(soup)
                        self.page_count = self.page_count + 1
                else:
                    self.get_content(soup)  # 只有1页
    def get_content(self, soup):
        for a in soup.find_all("a", attrs={"class": 'comtitle'}):
            url = a.get('href')  # 明细的URL
            title = a.get('title')
            company = ""
            models = ""
            mmEntity = SpriderEntity()
            mmEntity.sprider_base_url = self.base_url
            mmEntity.create_datetime = Tools.get_current_datetime()
            mmEntity.sprider_url = url
            mmEntity.sprider_pic_title = title
            mmEntity.sprider_pic_index = str(1)
            if SpriderAccess().query_sprider_entity_by_urlandtitle(url, title) is None:
                try:
                    response = requests.get(url, timeout=30, headers=UserAgent().get_random_header(url))
                    response.encoding = 'utf-8'
                    soup = BeautifulSoup(response.text, "html5lib")
                    BaseFrame.__log__("采集" + title + "的信息..." + url)
                    content = soup.find("div", attrs={"id": 'content'}).text.strip()
                    ul = soup.find("ul", attrs={"class": 'fl'})
                    for li in ul.find_all("li"):
                        span = li.find("span", attrs={"class": 'black'})
                        if span is not None:
                            if span.text == "品牌:":
                                company = li.contents[1]
                            if span.text == "型号:":
                                models = li.contents[1]
                except Exception as e:
                    BaseFrame.__err__("采集信息失败请重试" + str(e))
                #BaseFrame.__log__("准备数据库信息")
                try:
                    company = company.replace("'", "")
                    filepath = BaseConfig().CORPUS_ROOT + os.sep + "equipment_info.xlsx"
                    xl = load_workbook(filepath)
                    # 获取所有sheet页名字
                    xl_sheet_names = xl.get_sheet_names()
                    # 定位到相应sheet页,[0]为sheet页索引
                    xl_sheet = xl.get_sheet_by_name(xl_sheet_names[0])
                    # 获取行数
                    row = xl_sheet.max_row
                    # 单元格赋值
                    xl_sheet.cell(row=row + 1, column=1, value=title)
                    xl_sheet.cell(row=row + 1, column=2, value=models)
                    xl_sheet.cell(row=row + 1, column=3, value=company)
                    xl_sheet.cell(row=row + 1, column=4, value=content)
                    # 保存excel
                    xl.save(filepath)
                    SpriderAccess().save_sprider(mmEntity)
                except Exception as e:
                    BaseFrame.__log__("保存Execl失败...跳过本次存储" + str(e))
            else:
                BaseFrame.__log__(title + "数据采集过已经跳过...")
                pass
        pass
if __name__ == '__main__':
    CnShipNet()._sprider_equipment_()

写的不好还望见谅。。。来个截图欣赏一下:

目录
相关文章
|
5月前
|
前端开发 JavaScript API
阿里云智能媒体服务IMS(Intelligent Media Services)的视频剪辑Web SDK
【1月更文挑战第15天】【1月更文挑战第72篇】阿里云智能媒体服务IMS(Intelligent Media Services)的视频剪辑Web SDK
133 6
|
4月前
|
并行计算 Ubuntu 计算机视觉
【边缘智能】Jetson板卡上安装QT5与OpenCV集成
【边缘智能】Jetson板卡上安装QT5与OpenCV集成
84 0
|
5月前
|
数据采集
toolkit-frame之toolkit-sprider(数据采集)---笔趣阁小说
toolkit-frame之toolkit-sprider(数据采集)---笔趣阁小说
73 1
|
5月前
|
数据采集 JavaScript 前端开发
toolkit-frame之toolkit-sprider(数据采集)---百度图片
toolkit-frame之toolkit-sprider(数据采集)---百度图片
30 2
|
11月前
|
设计模式 前端开发 C#
Helix Toolkit:为.NET开发者带来的3D视觉盛宴
Helix Toolkit:为.NET开发者带来的3D视觉盛宴
195 0
|
关系型数据库 MySQL BI
医疗手麻系统(AIMS)源码,支持二次开发
与HIS,LIS,PACS,EMR无缝连接,方便查看患者的信息,随时调阅手术病人的检验数据、影像数据、既往病史等资料;与收费系统连接 直接记账,可到收费处收费;全程自动记录手术及麻醉过程,自动绘制麻醉记录单,全面采集麻醉机、监护仪、呼吸机设备的数据,支持多厂家多型号设备的采集,麻醉医师可以根据需要调整采集频率;
医疗手麻系统(AIMS)源码,支持二次开发
|
存储 传感器 编解码
微软行星云计算planet platform中的高分辨率影像通过API接入Google Earth Engine(GEE)
微软行星云计算planet platform中的高分辨率影像通过API接入Google Earth Engine(GEE)
401 0
微软行星云计算planet platform中的高分辨率影像通过API接入Google Earth Engine(GEE)
|
传感器 数据可视化 物联网
快速搭建智能停车场管理应用——IoT Studio移动可视化开发实战
阿里云IoT推出了智能停车解决方案,结合了边缘计算能力,能实现大范围的传感器联动。接下来将演示如何利用阿里云IoT Studio全新推出的移动可视化开发工具,快速的搭建停车场管理应用,实现停车统计、车位显示、费用预计等功能。
12976 0
快速搭建智能停车场管理应用——IoT Studio移动可视化开发实战
|
物联网 数据可视化 开发工具
|
Java
Rosalind工具库:使用Fastx-toolkit或trimmomatic进行质量控制
短读质量控制 Read Filtration by Quality 由于各种因素,测序过程中一定会存在着错误,要么读错,要么漏读、要读多了。解决这种错误可以从源头,也就是测序仪改进,也可以通过生物信息学的手段,将可能错误的序列过滤掉。
1483 0
下一篇
无影云桌面