基于数加分析政府工作报告

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 摘要:3月5日,第十二届全国人民代表大会第五次会议在北京人民大会堂开幕,两会期间的“部长通道”是每年两会的一个亮点,李克强总理多次强调要让部长们当“第一新闻发言人”,积极回应舆论关切,给社会各界一个稳定预期。

摘要:3月5日,第十二届全国人民代表大会第五次会议在北京人民大会堂开幕,两会期间的“部长通道”是每年两会的一个亮点,李克强总理多次强调要让部长们当“第一新闻发言人”,积极回应舆论关切,给社会各界一个稳定预期。笔者从新浪、搜狐、网易等各大门户网站上爬取部长答记者问的相关新闻数据导入到阿里数加平台,基于阿里数加算法平台与Maxcomputer,采用分词、TFIDF、LDA、聚类等文本分析算法,分析两会部长通道都回答了哪些热点问题,都有哪些主题。另外分析了40年《政府工作报告》中关注焦点的变化,以及在2017年的《政府工作报告》又出现了哪些新词汇与热词。


一、文本分析架构


文本分析架构图



1.数据源:主要为互联网各大网站上的文本数据;

2.数据采集:采用爬虫技术,获取网站的文本数据;

3.数据同步至阿里云: 使用DataX工具将文本数据导入到在ODPS建立的表中;

4.流程计算:阿里云建立算法分析流程;

5.分析结果:对计算出的词频以及主题存储于表;

6.数据可视化展示:从数据库中读取结果数据进行可视化展示。


二、分析方法


文本分析算法流程图

  1. 本文中部长通道答记者问的数据,主要来源对新浪、搜狐等各大新闻网站所爬取的数据。1978年至2017年《政府工作报告》从中国政府网中爬取。数据的获取采用python脚本,应用urllib2与bs4两个包,其中bs4调用BeautifulSoup类select方法,分析网页的HTML结构,找到所需内容的id与class,获取其中的文本数据。

  1. 获取的文本数据,导入到阿里数加平台,数据表包括三个字段,id,title,content,分别代表文本编号,标题以及文本内容。

  1. 在数加的算法平台建立文本分析算法流程,流程如上图所示。

  1. 采用数加组件中文本分析的split word对获取的文本进行分词,分词结果均去掉数字、单字、标点符号。

  1. 为了提高分词的精确程度,这里引入了自定义词典,自定义词典主要包含了往年人民网和新华网统计的两会热词。

  1. 分词后调用停用词过滤算法,过滤停用词。停用词表从网上下载,笔者再进行了一些补充。

  1. 计算文档词频矩阵,调用词频统计算法,主要用于计算文档单词出现的次数(词频),得到分词与文档的稀疏矩阵,该稀疏矩阵同时也为LDA模型的输入。

  1. 在分词基础上,采用TF-IDF算法。词语的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。可以得到每篇文档的特征词以及特征词矩阵。

  1. 对于词频统计的结果,采用LDA模型,调用文本分析中的pLDA算法,从文本数据中提取潜在的主题信息,LDA 模型主要用于识别文档中的主题分布情况,是一种无监督式的学习方法。通过LDA我们可以得到所有文档的主题数量,每篇文档所属主题的概率以及每个主题下的关键词。

  1. 可视化展示。将流程计算的结果数据,进行可视化展示。


三、部长通道新闻分析

1、部长通道新闻数量与舆情分析

         分析30天的新闻对两会部长通道报道数量走势,3月7日,3月15日达到了两个峰值。对新闻报道的舆情统计,72.6%的新闻表示中立,有4.1%的舆情为负面。


部长通道新闻数量趋势图


新闻舆论统计图

2、部长通道新闻主题

         在人民大会堂“两会部长通道”上,教育部部长、商务部部长、科技部部长、央行行长等部位领导分别就记者提出的问题进行回答,听听都有哪些部长发声,都说了些什么。通过对获取的新闻数据建立主题模型,提取如下主题,以及每个主题下的关键词:

主题0 主题1 主题2 主题5 主题7 主题8 主题9 主题10 主题12 主题13
企业 中国 预算 校园 增长 产能 监管 地方 质量 污染
改革 发展 中国 欺凌 服务业 煤炭 风险 改革 农业 全国
市场 企业 王毅 教育 统计 生产 金融 企业 韩长赋 陈吉宁
中央 产业 审查 机制 同比 价格 银行 政府 转基因 环保
资本 制造 人大代表 解决 数据 煤矿 市场 财政 推进 治理
重组 苗圩 关系 陈宝生 百分点 市场 发展 报告 耕地 企业
肖亚庆 政策 翻译 力量 投资 措施 周小川 政策 生产 解决
主任 产品 意见建议 学校 市场 企业 投资 预算 国家 天气
公司 部长 听取 发展 房地产 供应 郭树清 记者 管理 人大代表
谢谢 工业 合作 香港 经济 目标 资金 财政部 保护 大气污染
国资委 机器人 工作 事件 价格 退出 业务 项目 记者 主任
监管 支持 国际 发生 上涨 减量化 机构 债务 部长 公立医院
国有企业 制定 半岛 炫耀 电力 国家 企业 改增 发展 环境
发展 技术 初步 之间 下降 情况 实体经济 肖捷 土地 河北
过程 推进 张璐 学生 情况 保障 行业 减税 农民 实施
所有制 实施 国家 重点 工业 相关 公司 基金 新闻 改善
混合 工作 委员会 这是 交易 增加 管理 资金 农药 情况
工作 报告 监督 防范 国家统计局 实施 资产 支出 玉米 排放
上市公司 中心 意见 乡村 城市 供需 支付 工作 城市 环境保护
国企改革 需求 代表 一种 企业 过剩 贷款 税收 回答 药品


         设置LDA模型的主题数量为15,得到15个主题以及每个主题下的关键词,这里展示了其中的10个主题。可以明显看出在10个主题分别表示了国资委、工信部、外交部、教育部、国家统计局、中国人民银行等各个10部委领导的发声,并从关键词可以知道部长通道中就那些问题进行了回答。如,国资委主任肖亚庆重点就国企改革以及混合所有制问题进行了回答;工信部部长苗圩主要回答了智能制造、机器人以及相关证词制定等问题;环保部部长陈吉宁就民众关心的大气污染以及如何进行污染治理进行了回答。


新闻主题分布图

        从上图新闻属于主题分布可以看出,主题4,主题9,主题14为报道最多的主题。主题9为中国人民银行行长周小川对金融风险等问题的回答。主题14为商务部部长对外汇储备、汇率等问题的回答。


3、热点话题

        对新闻数据中涉及的部门进行词频统计,如下图所示 ,共有21个部委领导在两会期间进行了发声。其中国资委、财政部、证监会、保监会、银监会为被提到最多的部门。


发声部门的词频统计图 下表展示各个部委领导回答的热点问题:

序号 部门 标题 关键词
1 外交部 王毅谈美韩部署“萨德”:敦促韩方悬崖勒马 “萨德”部署
2 国资委 国资委主任:今年将继续推动中央企业重组 央企改革
3 财政部 肖捷谈营改增成效:实现所有行业税负只减不增 财政工作、财税改革
4 证监会 推进资本市场改革发展情况 资本市场
5 商务部 一带一路合作成果超预期 已和50多个国家签署协议 一带一路
6 科技部 人工智能将引领社会发展 正制定发展规划 人工智能、第五代移动通信
7 工信部 深入实施智能制造工程 智能制造
8 人民银行 央行行长周小川:今年房贷增速会适当放慢 住房贷款
9 环境保护部 “重污染天气出现原因是什么?” 雾霾
10 国家卫计委 二孩政策初显成效符合预判 二孩


4、新闻地域分布


新闻数量排名前十的省份


新闻地域分布图

        部长通道答记者问新闻地域分布如上图所示。广东、北京、上海、山东、江苏、湖南、浙江、辽宁、河南、重庆等地等对两会答记者问关注度较高。


四、40年《政府工作报告》分析


40年《政府工作报告》常驻热词

        分析40年政府工作报告,分析关键词及所占比例,其中“发展”为最关键词,占最大比例;“发展”、“深化”、“改革”、“加快”、“推动”、“经济”等词为40年政府工作报告的常住词汇。


常驻热词的词频统计图

        分析2017年政府工作报告关键词,按照关键词的权重进行排序可以看出,“发展”、“深化”、“改革”、“加快”、“推动”、“经济”、“建设”、“全面”、“创新”、“加强”仍然占较大比重。



《政府工作报告》中的喇叭形词语

        自2015年后部分词语愈发频繁地出现在《政府工作报告》中,曲线展示这些词汇更加频繁的被提及,可称为喇叭形词语。回顾一下喇叭形词语的原文:

1.新动能

四是依靠创新推动新旧动能转换和结构优化升级。我国发展到现在这个阶段,不靠改革创新没有出路。我们拥有世界上数量最多、素质较高的劳动力,有最大规模的科技和专业技能人才队伍,蕴藏着巨大的创新潜能。要坚持以改革开放为动力、以人力人才资源为支撑,加快创新发展,培育壮大新动能、改造提升传统动能,推动经济保持中高速增长、产业迈向中高端水平。

2.涉企收费

二是取消或停征中央涉企行政事业性收费35项,收费项目再减少一半以上,保留的项目要尽可能降低收费标准。各地也要削减涉企行政事业性收费。三是减少政府定价的涉企经营性收费,清理取消行政审批中介服务违规收费,推动降低金融、铁路货运等领域涉企经营性收费,加强对市场调节类经营服务性收费的监管。

3.工匠精神

要大力弘扬工匠精神,厚植工匠文化,恪尽职业操守,崇尚精益求精,完善激励机制,培育众多“中国工匠”,打造更多享誉世界的“中国品牌”,推动中国经济发展进入质量时代。

4.双创

四是强化创新引领,新动能快速成长。深入推进“互联网+”行动和国家大数据战略,全面实施《中国制造2025》,落实和完善“双创”政策措施。


2017年《政府工作报告》新词汇


        本次《政府工作报告》出现了多个新词,网民对哪些词更偏爱呢?数据统计,发现“河长制”“人工智能”“数字经济”“两孩”等广受关注。让我们回顾一下热词出现的原文:

1.发明专利

国内有效发明专利拥有量突破100万件,技术交易额超过1万亿元。科技进步贡献率上升到56.2%,创新对发展的支撑作用明显增强。

2.河长制

制定自然资源统一确权登记办法,开展省以下环保机构监测监察执法垂直管理、耕地轮作休耕改革等试点,全面推行河长制,健全生态保护补偿机制。改革为经济社会发展增添了新动力。

3.两学一做

扎实开展“两学一做”学习教育,认真落实党中央八项规定精神,坚决纠正“四风”,严格执行国务院“约法三章”。依法惩处一批腐败分子,反腐败斗争形成压倒性态势。

4.两孩

 适应实施全面两孩政策,加强生育医疗保健服务。支持中医药、民族医药事业发展。食品药品安全事关人民健康,必须管得严而又严。要完善监管体制机制,充实基层监管力量,夯实各方责任,坚持源头控制、产管并重、重典治乱,坚决把好人民群众饮食用药安全的每一道关口。

5.人工智能

加快培育壮大新兴产业。全面实施战略性新兴产业发展规划,加快新材料、人工智能、集成电路、生物制药、第五代移动通信等技术研发和转化,做大做强产业集群。

6.数字经济

今年网络提速降费要迈出更大步伐,年内全部取消手机国内长途和漫游费,大幅降低中小企业互联网专线接入资费,降低国际长途电话费,推动“互联网+”深入发展、促进数字经济加快成长,让企业广泛受益、群众普遍受惠。



致力攻克企业大数据信息化难题,提供专业服务和解决方案,更多案例可进入官网详细了解:www.blueintelligence.com


-END-

蓝智云海

云计算丨数据分析丨机器学习丨云服务


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
数据采集 城市大脑 运维
数智洞察|“云上数字政府”与背后的科技
数智洞察|“云上数字政府”与背后的科技
380 0
|
数据采集 城市大脑 监控
数字政府 | 政府行业数据中台
本文介绍了数字政府 | 政府行业数据中台的方案概述,方案价值及优势以及最佳实践。
数字政府 | 政府行业数据中台
|
分布式计算 算法 大数据