引言
在当今的商业环境中,招标信息是企业获取商机的重要来源之一。对于投标企业而言,及时获取和分析招标信息至关重要。传统的人工收集方式效率低下,难以应对海量数据。本文将介绍如何使用Python技术栈构建一个完整的招标信息采集与分析系统,包括数据爬取、存储、清洗和可视化分析全流程。
一、准备工作
在开始之前,我们需要安装一些必要的 Python 库。这些库包括用于网络请求的 requests,用于解析 HTML 的 BeautifulSoup,用于数据处理的 pandas,以及用于可视化的 matplotlib 和 seaborn。
二、爬取招标信息
招标信息通常存储在一些专门的招标网站上,例如中国招标网等。这些网站的页面结构可能会有所不同,但基本原理是相似的。我们需要分析网页的结构,找到招标信息所在的标签和属性,然后编写爬虫代码来提取这些信息。
以下是一个简单的示例代码,用于爬取某个招标网站的招标信息:
```import requests
from bs4 import BeautifulSoup
import pandas as pd
代理配置
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"
定义爬虫函数
def crawl_tender_info(url):
# 设置代理
proxyMeta = f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"
proxies = {
"http": proxyMeta,
"https": proxyMeta,
}
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
try:
# 发送 HTTP 请求(带代理)
response = requests.get(url, proxies=proxies, headers=headers, timeout=10)
# 检查请求是否成功
if response.status_code == 200:
# 解析 HTML 内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到招标信息所在的标签
tender_list = soup.find_all('div', class_='tender-item')
# 初始化一个列表来存储招标信息
tender_info = []
# 遍历招标信息列表
for tender in tender_list:
# 提取招标信息
title = tender.find('h2').text.strip()
date = tender.find('span', class_='date').text.strip()
link = tender.find('a')['href']
# 将招标信息存储为字典
tender_info.append({
'title': title,
'date': date,
'link': link
})
return tender_info
else:
print(f"请求失败,状态码:{response.status_code}")
return []
except requests.exceptions.RequestException as e:
print(f"请求发生异常: {e}")
return []
调用爬虫函数
url = 'https://example.com/tenders' # 替换为实际的招标网站 URL
tender_info = crawl_tender_info(url)
将招标信息存储为 DataFrame
if tender_info:
df = pd.DataFrame(tender_info)
print(df)
else:
print("未能获取招标信息")
三、数据清洗与预处理
爬取到的招标信息可能存在一些问题,例如重复数据、缺失值或格式不一致等。我们需要对数据进行清洗和预处理,以便后续的分析。
以下是一些常见的数据清洗和预处理步骤:
```# 删除重复数据
df.drop_duplicates(inplace=True)
# 处理缺失值
df.dropna(inplace=True)
# 转换日期格式
df['date'] = pd.to_datetime(df['date'])
# 对招标信息进行分类
# 假设我们根据标题中的关键词进行分类
df['category'] = df['title'].apply(lambda x: '工程类' if '工程' in x else '其他')
print(df)
四、可视化分析
数据清洗和预处理完成后,我们可以使用可视化工具对招标信息进行分析。可视化可以帮助我们更直观地了解数据的分布和趋势。
以下是一些常见的可视化分析方法:
```import matplotlib.pyplot as plt
import seaborn as sns
设置中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
招标信息数量随时间的变化趋势
plt.figure(figsize=(10, 6))
sns.countplot(x='date', data=df)
plt.title('招标信息数量随时间的变化趋势')
plt.xlabel('日期')
plt.ylabel('数量')
plt.xticks(rotation=45)
plt.show()
不同类别招标信息的数量分布
plt.figure(figsize=(8, 6))
sns.countplot(x='category', data=df)
plt.title('不同类别招标信息的数量分布')
plt.xlabel('类别')
plt.ylabel('数量')
plt.show()
招标信息的地区分布(假设我们有地区信息)
plt.figure(figsize=(12, 8))
sns.countplot(y='region', data=df)
plt.title('招标信息的地区分布')
plt.xlabel('数量')
plt.ylabel('地区')
plt.show()
五、生成可视化分析报告
最后,我们可以将可视化分析的结果整合成一个报告,以便向他人展示。报告可以包括文字描述、图表和结论等内容。
以下是一个简单的报告示例:
```# 生成报告
report = """
# 招标信息分析报告
## 一、招标信息数量随时间的变化趋势

## 二、不同类别招标信息的数量分布

## 三、招标信息的地区分布

"""
# 将报告保存为 Markdown 文件
with open('tender_analysis_report.md', 'w', encoding='utf-8') as f:
f.write(report)
总结
通过以上步骤,我们成功地使用 Python 爬取了招标信息,并进行了可视化分析。这个过程不仅可以帮助我们快速获取大量招标信息,还可以通过可视化分析直观地了解数据的分布和趋势。当然,实际应用中招标网站的结构可能会更加复杂,可能需要进一步的分析和优化。此外,我们还可以根据需求进一步扩展分析内容,例如对招标金额进行分析、对招标单位进行分析等,以满足不同的业务需求。总之,Python 爬虫和数据可视化技术为我们提供了强大的工具,可以帮助我们更好地理解和利用招标信息,从而为企业决策提供有力支持。