python数据可视化开发(4):获取对应地址的pdf文档并分类保存到本地文件夹

简介: python数据可视化开发(4):获取对应地址的pdf文档并分类保存到本地文件夹

系列文章目录

python开发低代码数据可视化大屏:pandas.read_excel读取表格

python实现直接读取excle数据实现的百度地图标注

python数据可视化开发(1):Matplotlib库基础知识

python数据可视化开发(2):pandas读取Excel的数据格式处理

python数据可视化开发(3):使用psutil和socket模块获取电脑系统信息(Mac地址、IP地址、主机名、系统用户、硬盘、CPU、内存、网络)


文章目录

系列文章目录

前言

一、项目需求

二、项目开发

1.引入库

2.创建目录

3.保存PDF封装函数

4.核心代码


前言


6fd4eb1342bf4174b15f9c8d39aa611b.gif


本案例是实战案例开发,通过requests模块获取指定网站的pdf文档并分类保存到本地的操作。


一、项目需求

指定网址的pdf文档,通过提供的API进行读取,并按照指定的字段进行分类保存到本地;

文件命名规则:文件名.pdf


二、项目开发

1.引入库

代码如下(示例):

import requests
import time
import io
import os

2.创建目录

代码如下(示例):

def check_dir(dir_name):
    # 创建目录
    if not os.path.exists(dir_name):
        os.makedirs(dir_name)
    # 返回目录名称
    return dir_name

3.保存PDF封装函数

  • dir_name, 指定目录;
  • pro_name,文件名称;
  • pro_id, 通过指定的项目id读取对应的pdf资源;
  • pro_types,项目类型;
# 读取对应的PDF文件
def get_pdf(dir_name, pro_name, pro_id, pro_types):
    send_headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36",
        "Connection": "keep-alive",
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
        "Accept-Language": "zh-CN,zh;q=0.8"}
    url_file = 'http://test.com?m=Surveyor&a=surveyorDetail&act=preview&pro_id={}&pro_types={}'.format(pro_id, pro_types)
    req = requests.get(url_file, headers=send_headers)  # 通过访问互联网得到文件内容
    bytes_io = io.BytesIO(req.content)  # 转换为字节流
    with open(r'{}/{}.pdf'.format(dir_name, pro_name), 'wb') as file:
        file.write(bytes_io.getvalue())  # 保存到本地
    print('{}已保存...'.format(pro_name))
    # 延迟2秒
    time.sleep(2)

time.sleep(2),在开发时,建议做好获取时间的限制,防止过度占用宽带。

4.核心代码

domain_url = 'http://test.com/api/api.php?act=getAllProject&token=3cab7ce4142608c0f40c785b5ab5ca24'
re = requests.get(url=domain_url)
# print(re.status_code)
if re.status_code == 200:
    print("已对接API...")
    r = re.json()
    # print(type(r['data']))
    for item in r['data']:
        # 自动生成对应的目录
        if item['pro_audit'] == '2':
            save_dir = check_dir('city')
        elif item['pro_audit'] == '3':
            save_dir = check_dir('county')
        elif item['pro_audit'] == '4':
            save_dir = check_dir('province')
        elif item['pro_audit'] == '5':
            save_dir = check_dir('complete')
        # print(save_dir)
        # 遍历文件
        get_pdf(save_dir, item['pro_name'], item['pro_id'], item['pro_types'])
else:
    print("无法获取API数据")


@漏刻有时

相关文章
|
3天前
|
数据可视化 数据挖掘 DataX
Python 数据可视化的完整指南
Python 数据可视化在数据分析和科学研究中至关重要,它能帮助我们理解数据、发现规律并以直观方式呈现复杂信息。Python 提供了丰富的可视化库,如 Matplotlib、Seaborn、Plotly 和 Pandas 的绘图功能,使得图表生成简单高效。本文通过具体代码示例和案例,介绍了折线图、柱状图、饼图、散点图、箱形图、热力图和小提琴图等常用图表类型,并讲解了自定义样式和高级技巧,帮助读者更好地掌握 Python 数据可视化工具的应用。
20 3
|
16天前
|
存储 运维 安全
《VERICUT 9.X电脑配置要求与安装说明(官方)》—— PDF文档
本文档详细介绍了 CGTech Vericut 9.X 的安装指南,涵盖安装前准备、安装流程、系统要求、故障排除、许可证配置及多种接口配置等内容,为用户提供全面的软件安装与配置指导。
39 2
|
30天前
|
数据可视化 Python
使用Python进行数据可视化的初学者指南
在数据的海洋里,我们如何能够不迷失方向?通过数据可视化的力量,我们可以将复杂的数据集转化为易于理解的图形和图表。本文旨在为初学者提供一份简明的入门手册,介绍如何使用Python中的Matplotlib库来揭示数据背后的故事。我们将从基础的图表开始,逐步深入到更高级的可视化技术,确保每个步骤都清晰易懂,让初学者也能轻松上手。让我们开始绘制属于你自己的数据图谱吧!
|
2月前
|
机器学习/深度学习 人工智能 数据可视化
使用Python进行数据可视化:探索与实践
在数字时代的浪潮中,数据可视化成为了沟通复杂信息和洞察数据背后故事的重要工具。本文将引导读者通过Python这一强大的编程语言,利用其丰富的库函数,轻松入门并掌握数据可视化的基础技能。我们将从简单的图表创建开始,逐步深入到交互式图表的制作,最终实现复杂数据的动态呈现。无论你是数据分析新手,还是希望提升报告吸引力的专业人士,这篇文章都将是你的理想指南。
56 9
|
2月前
|
数据可视化 数据处理 Python
Python编程中的数据可视化技术
在Python编程中,数据可视化是一项强大的工具,它能够将复杂的数据集转化为易于理解的图形。本文将介绍如何使用matplotlib和pandas这两个流行的Python库来实现数据可视化,并展示一些实用的代码示例。通过这些示例,读者将学会如何创建各种图表,包括折线图、柱状图和散点图等,以便更好地理解和呈现数据。
|
2月前
|
数据可视化 数据挖掘 定位技术
Python和Geopandas进行地理数据可视化
【10月更文挑战第22天】本文介绍了如何使用Python和Geopandas进行地理数据可视化和分析,涵盖从准备工作、加载数据、数据探索与处理、地理数据可视化、空间分析与查询到交互式地理数据可视化等内容。通过丰富的代码示例和案例演示,帮助读者掌握地理数据分析的基本方法,为实际应用提供支持。
122 19
|
2月前
|
移动开发 数据可视化 数据挖掘
利用Python实现数据可视化:以Matplotlib和Seaborn为例
【10月更文挑战第37天】本文旨在引导读者理解并掌握使用Python进行数据可视化的基本方法。通过深入浅出的介绍,我们将探索如何使用两个流行的库——Matplotlib和Seaborn,来创建引人入胜的图表。文章将通过具体示例展示如何从简单的图表开始,逐步过渡到更复杂的可视化技术,帮助初学者构建起强大的数据呈现能力。
|
2月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
利用Python和TensorFlow构建简单神经网络进行图像分类
利用Python和TensorFlow构建简单神经网络进行图像分类
65 3
|
3月前
|
数据可视化 数据挖掘 Python
使用Python进行数据可视化:探索与实践
【10月更文挑战第21天】本文旨在通过Python编程,介绍如何利用数据可视化技术来揭示数据背后的信息和趋势。我们将从基础的图表创建开始,逐步深入到高级可视化技巧,包括交互式图表和动态展示。文章将引导读者理解不同图表类型适用的场景,并教授如何使用流行的库如Matplotlib和Seaborn来制作美观且具有洞察力的可视化作品。
51 7
|
2月前
|
数据可视化 定位技术 Python
使用Python进行数据可视化
【10月更文挑战第22天】在这篇文章中,我们将深入探讨如何使用Python进行数据可视化。我们将从基础的图表开始,然后逐步进入更复杂的可视化技术。我们将通过实例代码来展示如何实现这些可视化,以便读者能够更好地理解和应用这些技术。
43 5