NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据


随着网民规模的不断扩大,互联网不仅是传统媒体和生活方式的补充,也是民意凸显的地带。领导干部参与网络问政的制度化正在成为一种发展趋势,这种趋势与互联网发展的时代需求是分不开的点击文末“阅读原文”获取完整代码数据


相关视频

image.png

人民网《地方领导留言板》是备受百姓瞩目的民生栏目,也是人民网品牌栏目,被称为“社情民意的集散地、亲民爱民的回音壁”。

基于以上背景,tecdat研究人员对北京留言板里面的留言数据进行分析,探索网民们在呼吁什么。



数量与情感

朝阳区群众最活跃


图表


从上图可以看出不同地区留言板的情感倾向分布,总的来说,负面情感留言数目和积极情感相差不多,负面情感留言较多,占比46%,积极情感留言占比42%,中立情感的留言占比11%。

从地区来看,活跃在各大媒体的“朝阳区群众”留言数目也是最多的,其次是海淀区,昌平区。因此,从情感分布来看大部分留言还是在反应存在的问题,而不是一味赞美或者灌水。



点击标题查阅往期内容



python主题建模可视化LDA和T-SNE交互式可视化



左右滑动查看更多






主题分析

外地户口问题呼声最高


接下来,我们对于语料进行LDA建模,就是从语料库中挖掘出不同主题并进行分析,换言之,LDA提供了一种较为方便地量化研究主题的机器学习方法。

我们使用最大似然估计进行最优化主题个数的选取。当主题个数定为20的时候,似然估计数最大,即留言板数据分为20个主题的可能性比较大。将模型生成的20个主题中的前五个高频词取出,如下表所示。

图表


然后我们将占比最高的前六个主题与它们的情感倾向进行分析。

图表

从上图可以看出大家关于6大主题的讨论:

主题1反应孩子,外地户口办理的问题是最多的,反应了外地落户北京相关的难题(e.g.父母在京工作20多年,儿女上学却因户口问题不能进入好的高校就读)。

主题2是反应环境改造及棚户改造(e.g.棚户房屋破旧、墙面潮湿、上下水管道老化腐烂现象严重经常造成跑冒滴漏,遇到雨雪天气,道路积水、泥泞不堪,大院居民尤其是老人小孩出行非常不便)。

主题3是反应高考和医保(e.g.外地人衷心的希望政府能关注一下孩子在北京的高考问题)。

主题4是汽车摇号政策(e.g.现行的摇号方案是不可行,治标不治本.有的摇号是一个人摇不上,全家人都出动;有的是想买车根本摇不号;有的是不想买车就摇上了)。

主题5是反应工资和租房问题(e.g.我是外地退休教师。因为孩子在北京工作,故到北京帮助孩子料理家务,以支持孩子工作。因为北京房价昂贵,我们买不起大房,三代人只能挤着住。我想问问市长,我们是否也能住公租房)。

主题6是违法建筑(e.g.XX雅苑许多一层业主私搭乱建成风,且物业无能,造成极大的安全隐患)。



地区、主题与情感得分


接下来我们分析了不同主题和地区的情感倾向分布。从下图可以看出,主题3高考和医保、主题6 违法建筑、主题13教育拆迁的留言内容中积极情感占较大比例。

图表

我们发现在不同主题中情感得分最高的地区中海淀区最多,其次是朝阳区和大兴区。同时也可以发现,情感得分最高的是在主题11居民生活下的朝阳区留言内容。总的来说,根据积极情感的内容分布来看,主题3高考和医保、主题6 违法建筑、主题13教育拆迁的留言内容中表现出较好的反馈。

相关文章
|
21天前
|
机器学习/深度学习 存储 人工智能
大数据中自然语言处理 (NLP)
【10月更文挑战第19天】
115 60
|
14天前
|
机器学习/深度学习 自然语言处理 知识图谱
GraphRAG在自然语言处理中的应用:从问答系统到文本生成
【10月更文挑战第28天】作为一名自然语言处理(NLP)和图神经网络(GNN)的研究者,我一直在探索如何将GraphRAG(Graph Retrieval-Augmented Generation)模型应用于各种NLP任务。GraphRAG结合了图检索和序列生成技术,能够有效地处理复杂的语言理解和生成任务。本文将从个人角度出发,探讨GraphRAG在构建问答系统、文本摘要、情感分析和自动文本生成等任务中的具体方法和案例研究。
36 5
|
16天前
|
自然语言处理 Python
如何使用自然语言处理库`nltk`进行文本的基本处理
这段Python代码展示了如何使用`nltk`库进行文本的基本处理,包括分词和词频统计。首先需要安装`nltk`库,然后通过`word_tokenize`方法将文本拆分为单词,并使用`FreqDist`类统计每个单词的出现频率。运行代码后,会输出每个词的出现次数,帮助理解文本的结构和常用词。
|
19天前
|
人工智能 自然语言处理 语音技术
利用Python进行自然语言处理(NLP)
利用Python进行自然语言处理(NLP)
32 1
|
30天前
|
人工智能 自然语言处理 语音技术
利用Python进行自然语言处理(NLP)
利用Python进行自然语言处理(NLP)
28 3
|
1月前
|
自然语言处理 算法 数据挖掘
探讨如何利用Python中的NLP工具,从被动收集到主动分析文本数据的过程
【10月更文挑战第11天】本文介绍了自然语言处理(NLP)在文本分析中的应用,从被动收集到主动分析的过程。通过Python代码示例,详细展示了文本预处理、特征提取、情感分析和主题建模等关键技术,帮助读者理解如何有效利用NLP工具进行文本数据分析。
46 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用与挑战
【10月更文挑战第3天】本文将探讨AI技术在自然语言处理(NLP)领域的应用及其面临的挑战。我们将分析NLP的基本原理,介绍AI技术如何推动NLP的发展,并讨论当前的挑战和未来的趋势。通过本文,读者将了解AI技术在NLP中的重要性,以及如何利用这些技术解决实际问题。
|
2月前
|
机器学习/深度学习 数据采集 自然语言处理
深度学习在自然语言处理中的应用与挑战
本文探讨了深度学习技术在自然语言处理(NLP)领域的应用,包括机器翻译、情感分析和文本生成等方面。同时,讨论了数据质量、模型复杂性和伦理问题等挑战,并提出了未来的研究方向和解决方案。通过综合分析,本文旨在为NLP领域的研究人员和从业者提供有价值的参考。
|
1月前
|
自然语言处理 算法 Python
自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
【10月更文挑战第9天】自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
47 4
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI在自然语言处理中的创新应用
【10月更文挑战第7天】本文将深入探讨人工智能在自然语言处理领域的最新进展,揭示AI技术如何改变我们与机器的互动方式,并展示通过实际代码示例实现的具体应用。
38 1

热门文章

最新文章