自动根据数据生成降雨量实况Word报告

简介: 自动根据数据生成降雨量实况Word报告
作者:小小明

最近遇到一个有点烧脑的需求,其实也不算烧脑,主要是判断条件过多,对于我这种记忆力差,内存小的人来说容易出现内存溢出导致大脑宕机。也可能是因为我还没有找到能减小大脑内存压力的写法。
若读者有啥更好解决方案,欢迎评论噢!

先看看需求吧:

image-20210103105704976

主要就是要根据左侧的表格自动生成右侧的word统计报告,实际的各种可能性情况远比图中展示的要更加复杂。

好了,直接开始干代码吧:

数据读取

import pandas as pd

df = pd.read_csv("11月份数据.csv", encoding='gbk')
# 当前统计月份
month = 11
df = df.query('月份==@month')
df

数据:

区域 月份 降雨量(mm) 降雨距平(mm) 观测站
0 6e63e 11 2.9 -0.70 A站
1 1b8dd 11 1.0 -3.40 A站
2 7c6a0 11 2.3 -3.04 A站
3 548ad 11 8.5 0.10 A站
4 1bafe 11 8.7 2.20 A站
5 51a45 11 16.0 7.41 A站
6 53f42 11 6.8 1.10 A站
7 4f644 11 1.8 -0.60 A站
8 60a75 11 0.0 -2.60 A站
9 4319d 11 1.4 -2.20 A站
10 62464 11 2.2 -1.00 A站
11 65cb4 11 2.0 -1.00 A站
12 e68da 11 1.2 -1.40 A站
13 4156e 11 3.1 -0.40 A站
14 1cc6d 11 3.3 -2.00 A站
15 16d40 11 0.0 -0.50 B站
16 54ac3 11 3.2 0.00 B站
17 592ac 11 4.1 -0.20 B站
18 32046 11 5.3 1.10 B站
19 4e6f0 11 1.2 0.50 B站
20 3722c 11 3.5 1.40 C站
21 5379c 11 1.3 -2.90 C站
22 51eed 11 3.2 -0.60 C站
23 2d91d 11 2.8 0.90 D站
24 78896 11 5.1 1.60 D站
25 25464 11 5.5 1.50 D站
26 66955 11 0.3 -3.10 D站
27 7639e 11 0.0 -1.10 D站
28 1c5ff 11 0.6 -0.90 D站
29 ec456 11 12.2 NaN E站
30 29b6b 11 7.3 4.00 E站
31 220de 11 12.2 9.10 E站
32 3b5f0 11 13.6 7.25 E站

异常数据过滤

查看缺失值数量:

pd.isnull(df).sum()

结果:

区域          0
月份          0
降雨量(mm)     0
降雨距平(mm)    1
观测站         0
dtype: int64

仅一个缺失值数据,可直接删除:

df.dropna(inplace=True)

计算所有观测站降雨量相对往年的比较

计算降雨量比往年高,跟往年比无变化,以及比往年低的次数分别是多少:

rainfall_high = df.eval('`降雨距平(mm)` > 0').value_counts().get(True, 0)
rainfall_equal = df.eval('`降雨距平(mm)` == 0').value_counts().get(True, 0)
rainfall_low = df.eval('`降雨距平(mm)` < 0').value_counts().get(True, 0)
print(rainfall_high, rainfall_equal, rainfall_low)
13 1 18

上面的结果中rainfall_high表示降雨量比往年平均水平高的次数,rainfall_equal表示降雨量比往年平均水平持平的次数,rainfall_low表示降雨量比往年平均水平低的次数。

于是分情况讨论生成第一段的报告:

p1 = f"{month}月份"
if rainfall_low == 0 or rainfall_high == 0:
    if rainfall_equal != 0:
        p1 += f"除{rainfall_equal}个观测站降雨量较往年无变化外,"
    if rainfall_high == 0:
        p1 += f"各气象观测站降雨量较往年均偏低。"
    elif rainfall_low == 0:
        p1 += f"各气象观测站降雨量较往年均偏高。"
else:
    #  10%以内差异认为是持平
    if rainfall_high > rainfall_low*1.1:
        p1 += f"大部分气象观测站降雨量较往年偏高。"
    elif rainfall_low > rainfall_high*1.1:
        p1 += f"大部分气象观测站降雨量较往年偏低。"
    else:
        p1 += f"各气象观测站降雨量较往年整体持平。"
p1

结果:

'11月份大部分气象观测站降雨量较往年偏低。'


计算各区域降雨量的极值

再生成第二段的报告:

p2 = ""
t = df['降雨量(mm)']
p2 += f"各区域降雨量在{t.min()}~{t.max()}mm之间,其中{df.loc[t.argmax(), '区域']}区域的降雨量最大,为{t.max()}mm。"
p2

结果:

'各区域降雨量在0.0~16.0mm之间,其中51a45区域的降雨量最大,为16.0mm。'


分观测站统计

让我脑袋疼的地方就是从这里的代码开始的,后面还有更复杂蛋疼的需求就不公布了。

对每个观测站分别统计哪些区域偏高,哪些区域持平,哪些区域偏低:

p3s = []
for station, tmp in df.groupby('观测站'):
    t = tmp['降雨量(mm)']
    p3 = f"各区域降雨量在{t.min()}~{t.max()}mm之间,"
    rainfall_high_mask = tmp.eval('`降雨距平(mm)` > 0')
    rainfall_equal_mask = tmp.eval('`降雨距平(mm)` == 0')
    rainfall_low_mask = tmp.eval('`降雨距平(mm)` < 0')

    rainfall_high = rainfall_high_mask.value_counts().get(True, 0)
    rainfall_equal = rainfall_equal_mask.value_counts().get(True, 0)
    rainfall_low = rainfall_low_mask.value_counts().get(True, 0)
#     print(rainfall_high, rainfall_equal, rainfall_low)

    if rainfall_low == 0 or rainfall_high == 0:
        if rainfall_equal != 0:
            p3 += '除'
            p3 += '、'.join(tmp.loc[rainfall_equal_mask, '区域']+'区域')
            p3 += "降雨量较往年无变化外,"
        if rainfall_high == 0:
            p3 += f"各区域降雨量均较往年偏低"
        elif rainfall_low == 0:
            p3 += f"各区域降雨量均较往年偏高"
        t = tmp['降雨距平(mm)'].abs()
        p3 += f"{t.min()}~{t.max()}mm;"
    else:
        if rainfall_equal != 0:
            p3 += '除'
            p3 += '、'.join(tmp.loc[rainfall_equal_mask, '区域']+'区域')
            p3 += "降雨量较往年无变化,"
        #  10%以内差异认为是持平
        if rainfall_high > rainfall_low*1.1:
            if rainfall_equal == 0:
                p3 += '除'
            p3 += '、'.join(tmp.loc[rainfall_low_mask, '区域']+'区域')
            p3 += "降雨量较往年偏低"
            t = tmp.loc[rainfall_low_mask, '降雨距平(mm)'].abs()
            if t.shape[0] > 1:
                p3 += f"{t.min()}~{t.max()}mm"
            else:
                p3 += f"{t.min()}mm"
            p3 += "外,"
            t = tmp.loc[rainfall_high_mask, '降雨距平(mm)'].abs()
            p3 += f"其余各区域降雨量较往年偏高{t.min()}~{t.max()}mm;"
        elif rainfall_low > rainfall_high*1.1:
            if rainfall_equal == 0:
                p3 += '除'
            p3 += '、'.join(tmp.loc[rainfall_high_mask, '区域']+'区域')
            p3 += "降雨量较往年偏高"
            t = tmp.loc[rainfall_high_mask, '降雨距平(mm)'].abs()
            if t.shape[0] > 1:
                p3 += f"{t.min()}~{t.max()}mm"
            else:
                p3 += f"{t.min()}mm"
            p3 += "外,"
            t = tmp.loc[rainfall_low_mask, '降雨距平(mm)'].abs()
            p3 += f"其余各区域降雨量较往年偏低{t.min()}~{t.max()}mm;"
        else:
            if rainfall_equal != 0:
                p3 = p3[:-1]+'外,'
            p3 += f"各区域降雨量较往年偏高和偏低的数量持平,其中"
            p3 += '、'.join(tmp.loc[rainfall_low_mask, '区域']+'区域')
            p3 += "降雨量较往年偏低"
            t = tmp.loc[rainfall_low_mask, '降雨距平(mm)'].abs()
            if t.shape[0] > 1:
                p3 += f"{t.min()}~{t.max()}mm,"
            else:
                p3 += f"{t.min()}mm,"
            p3 += '、'.join(tmp.loc[rainfall_high_mask, '区域']+'区域')
            p3 += "降雨量较往年偏高"
            t = tmp.loc[rainfall_high_mask, '降雨距平(mm)'].abs()
            if t.shape[0] > 1:
                p3 += f"{t.min()}~{t.max()}mm;"
            else:
                p3 += f"{t.min()}mm;"
    p3s.append([station, p3])
p3s[-1][-1] = p3s[-1][-1][:-1]+"。"
p3s

结果:

[['A站',
  '各区域降雨量在0.0~16.0mm之间,除548ad区域、1bafe区域、51a45区域、53f42区域降雨量较往年偏高0.1~7.41mm外,其余各区域降雨量较往年偏低0.4~3.4mm;'],
 ['B站',
  '各区域降雨量在0.0~5.3mm之间,除54ac3区域降雨量较往年无变化外,各区域降雨量较往年偏高和偏低的数量持平,其中16d40区域、592ac区域降雨量较往年偏低0.2~0.5mm,32046区域、4e6f0区域降雨量较往年偏高0.5~1.1mm;'],
 ['C站', '各区域降雨量在1.3~3.5mm之间,除3722c区域降雨量较往年偏高1.4mm外,其余各区域降雨量较往年偏低0.6~2.9mm;'],
 ['D站',
  '各区域降雨量在0.0~5.5mm之间,各区域降雨量较往年偏高和偏低的数量持平,其中66955区域、7639e区域、1c5ff区域降雨量较往年偏低0.9~3.1mm,2d91d区域、78896区域、25464区域降雨量较往年偏高0.9~1.6mm;'],
 ['E站', '各区域降雨量在7.3~13.6mm之间,各区域降雨量均较往年偏高4.0~9.1mm。']]

可能是我还没有想出较好的封装方式导致代码变得这么复杂,如果有巧妙解决这个问题方法的朋友,希望能够一起探讨。

将组织好的文本写入到word文档中

word模板文件docxtemplate.docx的内容:

一、{{ month }}月各气象观测站降雨量实况
(一)降水
{{ p1 }}
{{ p2 }}
{%p for station,p3 in p3s %}
{{ station }}:{{ p3 }}
{%p endfor %}

即:

image-20210103110456765

python渲染代码:

from docxtpl import DocxTemplate

tpl = DocxTemplate("docxtemplate.docx")
context = {
    'month': month,
    'p1': p1,
    'p2': p2,
    'p3s': p3s,
}
tpl.render(context)
tpl.save("11月降雨量报告.docx")

执行完毕,得到word报告:

image-20210103110602273

相关文章
|
2月前
|
存储 测试技术 定位技术
需要统计出轨迹点出入某个区域的信息,包括:驶入时间、驶出时间
Lindorm Ganos 通过内置的 `ST_TrajectoryProfile` 算子高效统计轨迹的出入信息,利用时空索引技术减少扫描量和内存使用,降低计算成本。它通过空间索引+过滤下推减少扫描量,聚合加速提升效率,并在聚合算子内部完成进出点判断和轨迹信息提取。然而,该算子受限于时间阈值设定,可能在轨迹点不均匀采集时产生误差。测试环境下,查询耗时在20秒内,具体表现取决于过滤后的数据量和空间范围复杂度。
14 0
|
5月前
|
自然语言处理 安全 数据安全/隐私保护
不影响输出质量还能追踪溯源,大模型无偏水印入选ICLR 2024 Spotlight
【6月更文挑战第7天】研究人员提出了一种无偏水印技术,能在不降低大型语言模型(LLMs)输出质量的情况下实现追踪和归属。此方法被ICLR 2024选为Spotlight论文,保证水印不影响模型性能,保护知识产权,防止滥用。无偏水印的挑战包括设计无损模型质量的实现、有效检测及安全防范措施。[论文链接: https://openreview.net/pdf?id=uWVC5FVidc]
63 2
|
6月前
|
数据采集 数据可视化 定位技术
R语言空气污染数据的地理空间可视化和分析:颗粒物2.5(PM2.5)和空气质量指数(AQI)
R语言空气污染数据的地理空间可视化和分析:颗粒物2.5(PM2.5)和空气质量指数(AQI)
Transformer的交通流量预测 完整数据代码 整合了时间天气等多方面信息
Transformer的交通流量预测 完整数据代码 整合了时间天气等多方面信息
214 0
|
开发框架 前端开发 NoSQL
医学实验室云LIS源码 医院LIS系统源码 实现检验申请、样本采集、样本核收、联机检验、质量控制、报告审核
基于B/S架构的实验室管理系统,整个系统的运行基于WEB层面,只需要在对应的工作台安装一个浏览器软件有外网即可访问。 技术架构:Asp.NET CORE 3.1 MVC + SQLserver + Redis等.
339 0
医学实验室云LIS源码 医院LIS系统源码 实现检验申请、样本采集、样本核收、联机检验、质量控制、报告审核
|
自然语言处理
两份数据基于文本和住房信息的分词统计 tfidf 数分作业
两份数据基于文本和住房信息的分词统计 tfidf 数分作业
75 0
两份数据基于文本和住房信息的分词统计 tfidf 数分作业
实时显示日期、时间、城市天气(HTML+JS)
实时显示日期、时间、城市天气(HTML+JS)
994 0
实时显示日期、时间、城市天气(HTML+JS)
|
编解码
中秋节祝福程序源代码分享:土地分类数据阈值筛选和重投影分类
中秋节祝福程序源代码分享:土地分类数据阈值筛选和重投影分类
141 0
中秋节祝福程序源代码分享:土地分类数据阈值筛选和重投影分类
|
算法
Google Earth Engine——TRMM/3B43在每个日历月执行一次,通过将3小时合并的高质量/红外估计值(3B42)与每月累积的全球降水气候学中心(GPCC)雨量计分析相结合降水预测
Google Earth Engine——TRMM/3B43在每个日历月执行一次,通过将3小时合并的高质量/红外估计值(3B42)与每月累积的全球降水气候学中心(GPCC)雨量计分析相结合降水预测
242 0
Google Earth Engine——TRMM/3B43在每个日历月执行一次,通过将3小时合并的高质量/红外估计值(3B42)与每月累积的全球降水气候学中心(GPCC)雨量计分析相结合降水预测
|
编解码
Google Earth Engine——臭氧总量绘图分光仪(TOMS)数据集代表了过去25年中可用于监测全球和区域臭氧总量趋势的主要长期、连续的卫星观测记录
Google Earth Engine——臭氧总量绘图分光仪(TOMS)数据集代表了过去25年中可用于监测全球和区域臭氧总量趋势的主要长期、连续的卫星观测记录
532 0
Google Earth Engine——臭氧总量绘图分光仪(TOMS)数据集代表了过去25年中可用于监测全球和区域臭氧总量趋势的主要长期、连续的卫星观测记录
下一篇
无影云桌面