Python爬取招标信息并生成可视化分析报告

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: Python爬取招标信息并生成可视化分析报告

引言
在当今的商业环境中,招标信息是企业获取商机的重要来源之一。对于投标企业而言,及时获取和分析招标信息至关重要。传统的人工收集方式效率低下,难以应对海量数据。本文将介绍如何使用Python技术栈构建一个完整的招标信息采集与分析系统,包括数据爬取、存储、清洗和可视化分析全流程。
一、准备工作
在开始之前,我们需要安装一些必要的 Python 库。这些库包括用于网络请求的 requests,用于解析 HTML 的 BeautifulSoup,用于数据处理的 pandas,以及用于可视化的 matplotlib 和 seaborn。
二、爬取招标信息
招标信息通常存储在一些专门的招标网站上,例如中国招标网等。这些网站的页面结构可能会有所不同,但基本原理是相似的。我们需要分析网页的结构,找到招标信息所在的标签和属性,然后编写爬虫代码来提取这些信息。
以下是一个简单的示例代码,用于爬取某个招标网站的招标信息:
```import requests
from bs4 import BeautifulSoup
import pandas as pd

代理配置

proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

定义爬虫函数

def crawl_tender_info(url):

# 设置代理
proxyMeta = f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"
proxies = {
    "http": proxyMeta,
    "https": proxyMeta,
}

# 设置请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

try:
    # 发送 HTTP 请求(带代理)
    response = requests.get(url, proxies=proxies, headers=headers, timeout=10)

    # 检查请求是否成功
    if response.status_code == 200:
        # 解析 HTML 内容
        soup = BeautifulSoup(response.text, 'html.parser')
        # 找到招标信息所在的标签
        tender_list = soup.find_all('div', class_='tender-item')
        # 初始化一个列表来存储招标信息
        tender_info = []
        # 遍历招标信息列表
        for tender in tender_list:
            # 提取招标信息
            title = tender.find('h2').text.strip()
            date = tender.find('span', class_='date').text.strip()
            link = tender.find('a')['href']
            # 将招标信息存储为字典
            tender_info.append({
                'title': title,
                'date': date,
                'link': link
            })
        return tender_info
    else:
        print(f"请求失败,状态码:{response.status_code}")
        return []

except requests.exceptions.RequestException as e:
    print(f"请求发生异常: {e}")
    return []

调用爬虫函数

url = 'https://example.com/tenders' # 替换为实际的招标网站 URL
tender_info = crawl_tender_info(url)

将招标信息存储为 DataFrame

if tender_info:
df = pd.DataFrame(tender_info)
print(df)
else:
print("未能获取招标信息")

三、数据清洗与预处理
爬取到的招标信息可能存在一些问题,例如重复数据、缺失值或格式不一致等。我们需要对数据进行清洗和预处理,以便后续的分析。
以下是一些常见的数据清洗和预处理步骤:
```# 删除重复数据
df.drop_duplicates(inplace=True)

# 处理缺失值
df.dropna(inplace=True)

# 转换日期格式
df['date'] = pd.to_datetime(df['date'])

# 对招标信息进行分类
# 假设我们根据标题中的关键词进行分类
df['category'] = df['title'].apply(lambda x: '工程类' if '工程' in x else '其他')

print(df)

四、可视化分析
数据清洗和预处理完成后,我们可以使用可视化工具对招标信息进行分析。可视化可以帮助我们更直观地了解数据的分布和趋势。
以下是一些常见的可视化分析方法:
```import matplotlib.pyplot as plt
import seaborn as sns

设置中文显示

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

招标信息数量随时间的变化趋势

plt.figure(figsize=(10, 6))
sns.countplot(x='date', data=df)
plt.title('招标信息数量随时间的变化趋势')
plt.xlabel('日期')
plt.ylabel('数量')
plt.xticks(rotation=45)
plt.show()

不同类别招标信息的数量分布

plt.figure(figsize=(8, 6))
sns.countplot(x='category', data=df)
plt.title('不同类别招标信息的数量分布')
plt.xlabel('类别')
plt.ylabel('数量')
plt.show()

招标信息的地区分布(假设我们有地区信息)

plt.figure(figsize=(12, 8))

sns.countplot(y='region', data=df)

plt.title('招标信息的地区分布')

plt.xlabel('数量')

plt.ylabel('地区')

plt.show()

五、生成可视化分析报告
最后,我们可以将可视化分析的结果整合成一个报告,以便向他人展示。报告可以包括文字描述、图表和结论等内容。
以下是一个简单的报告示例:
```# 生成报告
report = """
# 招标信息分析报告
## 一、招标信息数量随时间的变化趋势
![数量随时间变化](数量随时间变化.png)

## 二、不同类别招标信息的数量分布
![类别数量分布](类别数量分布.png)

## 三、招标信息的地区分布
![地区分布](地区分布.png)
"""

# 将报告保存为 Markdown 文件
with open('tender_analysis_report.md', 'w', encoding='utf-8') as f:
    f.write(report)

总结
通过以上步骤,我们成功地使用 Python 爬取了招标信息,并进行了可视化分析。这个过程不仅可以帮助我们快速获取大量招标信息,还可以通过可视化分析直观地了解数据的分布和趋势。当然,实际应用中招标网站的结构可能会更加复杂,可能需要进一步的分析和优化。此外,我们还可以根据需求进一步扩展分析内容,例如对招标金额进行分析、对招标单位进行分析等,以满足不同的业务需求。总之,Python 爬虫和数据可视化技术为我们提供了强大的工具,可以帮助我们更好地理解和利用招标信息,从而为企业决策提供有力支持。

相关文章
|
5月前
|
存储 算法 API
【01】整体试验思路,如何在有UID的情况下获得用户手机号信息,python开发之理论研究试验,如何通过抖音视频下方的用户的UID获得抖音用户的手机号-本系列文章仅供学习研究-禁止用于任何商业用途-仅供学习交流-优雅草卓伊凡
【01】整体试验思路,如何在有UID的情况下获得用户手机号信息,python开发之理论研究试验,如何通过抖音视频下方的用户的UID获得抖音用户的手机号-本系列文章仅供学习研究-禁止用于任何商业用途-仅供学习交流-优雅草卓伊凡
600 82
|
3月前
|
存储 监控 API
【Azure App Service】分享使用Python Code获取App Service的服务器日志记录管理配置信息
本文介绍了如何通过Python代码获取App Service中“Web服务器日志记录”的配置状态。借助`azure-mgmt-web` SDK,可通过初始化`WebSiteManagementClient`对象、调用`get_configuration`方法来查看`http_logging_enabled`的值,从而判断日志记录是否启用及存储方式(关闭、存储或文件系统)。示例代码详细展示了实现步骤,并附有执行结果与官方文档参考链接,帮助开发者快速定位和解决问题。
118 23
|
9月前
|
Python
Python编程获取当前日期的所属周日期信息
Python编程获取当前日期的所属周日期信息
128 1
|
7月前
|
JavaScript API C#
【Azure Developer】Python代码调用Graph API将外部用户添加到组,结果无效,也无错误信息
根据Graph API文档,在单个请求中将多个成员添加到组时,Python代码示例中的`members@odata.bind`被错误写为`members@odata_bind`,导致用户未成功添加。
91 10
|
8月前
|
缓存 监控 Linux
Python 实时获取Linux服务器信息
Python 实时获取Linux服务器信息
|
8月前
|
存储 数据采集 数据库
用 Python 爬取淘宝商品价格信息时需要注意什么?
使用 Python 爬取淘宝商品价格信息时,需注意法律和道德规范,遵守法律法规和平台规定,避免非法用途。技术上,可选择 Selenium 和 Requests 库,处理反爬措施如 IP 限制、验证码识别和请求频率控制。解析页面数据时,确定数据位置并清洗格式。数据存储可选择 CSV、Excel、JSON 或数据库,定期更新并去重。还需进行错误处理和日志记录,确保爬虫稳定运行。
|
8月前
|
数据采集 Web App开发 iOS开发
如何利用 Python 的爬虫技术获取淘宝天猫商品的价格信息?
本文介绍了使用 Python 爬虫技术获取淘宝天猫商品价格信息的两种方法。方法一使用 Selenium 模拟浏览器操作,通过定位页面元素获取价格;方法二使用 Requests 和正则表达式直接请求页面内容并提取价格。每种方法都有详细步骤和代码示例,但需注意反爬措施和法律法规。
|
9月前
|
小程序 Python
利用Python编程提取身份证的信息
利用Python编程提取身份证的信息
129 2
|
9月前
|
IDE 开发工具 数据安全/隐私保护
Python编程--实现用户注册信息写入excel文件
Python编程--实现用户注册信息写入excel文件
60 1
|
10月前
|
Kubernetes API 开发工具
【Azure Developer】通过SDK(for python)获取Azure服务生命周期信息
需要通过Python SDK获取Azure服务的一些通知信息,如:K8S版本需要更新到指定的版本,Azure服务的维护通知,服务处于不健康状态时的通知,及相关的操作建议等内容。
104 18

推荐镜像

更多