MaxCompute在网络舆情监控系统中的应用

简介: 基于阿里云MaxCompute和其他云服务自建网络舆情监控平台的一些分享

背景介绍

根据中国互联网络信息中心(CNNIC)报告显示,我国的网民规模增长迅猛,截至2016年12月,我国网民规模达7.31亿,较2015年底提升了6.52个百分点。互联网成为反映社会舆情的一个重要载体。随着以社交媒体为主的互联网应用的普及和深入,网络舆情热点层出不穷,特别是当前微博、微信、新闻客户端等新媒体发展极为迅猛,其强大的舆论号召力与传播力让任何人都无法轻视。互联网已经成为政府了解民情的直接渠道,同时也成为企业接触客户、宣传营销的重要阵地。

国内某汽车企业所搭建的网络舆情监控平台,通过建设互联网媒体舆情综合监测分析系统,对新闻、论坛、博客、微博、视频、APP、传统纸媒等进行全面的覆盖,客户可以及时获取与自己关心的网络舆情信息,及时挖掘出网络舆情热点信息和背后的网络推手并进行持续的监控和跟踪,对舆情信息进行深度挖掘,发现潜在的舆情热点,对于特定的舆情事件可以及时提供分析报告。

需求概要

业务部门对舆情监控平台要求的高实时性(刷新频率在5分钟以内),方便的自行添加监控内容,能监控媒体及不同编辑对品牌和产品的友好度,并且内快速的形成相关的舆情报告。基于业务部门的要求情况,系统没有采用阿里云现有的舆情监控服务,而是使用阿里云ECS和MaxCompute服务搭建了一套基于爬虫和自然语言分析的舆情系统,已满足业务部门个性化的需求。

系统设计

3177bf1d1f1e9722f40e9acc034fec53a5e5a084

系统架构图

02fdc6e9eeac304330c8274f90c2777e1c4ce36a

业务架构

8a4731b36b55dfe0fef3eb649c568559c7b2db20

系统拓扑图

前端请求SLB进行负载均衡,下发到2个Web子系统,主要的数据处理工作由MaxCompute完成,搜索引擎使用3台ECS部署了ES来承载,数据收集则由多个爬虫系统完成,同时也有一台ECS用户自然语言处理,相关的结构化数据存储则由RDS提供。

爬虫系统和自然语言处理不在本文中详细介绍,主要介绍MaxCompute中数据处理的相关内容。

 

相关MaxCompute任务根据功能分为几类:模型训练、竞品分析、舆情监控、媒体分析、预警中心和事件分析等。

相关任务截图:

f3e9dc3ad5d31db81f15982f17b6680786438ebb

主要的几类任务介绍

模型训练任务

关键词监控:主要是通过使用MR任务使用TF-IDF的统计方法,同时使用MR进行去过滤。

计算词向量:通过数加平台的机器学习功能,将相关关键字进行数字化的工作。

6af808434aeea1460df01e2528c9998d46187d32

关键词监控工作流

舆情监控任务

包含信息去重、去水军信息、计算统计数据等任务

9115822ee13823694e4fd3f7c60bf28c06af50db

计算统计数据工作流

媒体分析类:活跃媒体统计、媒体品牌统计、去重过滤类等任务,其他任务包括热词统计、关键词同步、热点新闻统计等,通过DataIDE进行自动调度

938db842022ee414034ef995c487369545df3100

任务运行概览

监控结果

6c706eb93d5fc76c2806efe624ef8671d7dea55b

监控概览

c74aeb7bcd4a4d27040080173e084e39e1d6e3bc

舆情监控

bc3f2bea6cbcdda1e6ba3c6080dc354e72fe49df

媒体分析

目前该系统已上线3个月,满足的业务部门目前的监控需求,而且在时效性和精准性方面明显优于第三方监测公司的报告。

 

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
5月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
5月前
|
机器学习/深度学习 PyTorch TensorFlow
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic,深度学习探索者。深耕TensorFlow与PyTorch,分享框架对比、性能优化与实战经验,助力技术进阶。
|
5月前
|
Ubuntu 网络协议 网络安全
解决Ubuntu系统的网络连接问题
以上步骤通常可以帮助解决大多数Ubuntu系统的网络连接问题。如果问题仍然存在,可能需要更深入的诊断,或考虑联系网络管理员或专业技术人员。
1353 18
|
5月前
|
监控 安全 网络协议
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
620 1
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
|
5月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
5月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
6月前
|
分布式计算 安全 大数据
别等被黑客敲门才醒悟:大数据如何帮你防住网络攻击?
别等被黑客敲门才醒悟:大数据如何帮你防住网络攻击?
304 32