MaxCompute在网络舆情监控系统中的应用

简介: 基于阿里云MaxCompute和其他云服务自建网络舆情监控平台的一些分享

背景介绍

根据中国互联网络信息中心(CNNIC)报告显示,我国的网民规模增长迅猛,截至2016年12月,我国网民规模达7.31亿,较2015年底提升了6.52个百分点。互联网成为反映社会舆情的一个重要载体。随着以社交媒体为主的互联网应用的普及和深入,网络舆情热点层出不穷,特别是当前微博、微信、新闻客户端等新媒体发展极为迅猛,其强大的舆论号召力与传播力让任何人都无法轻视。互联网已经成为政府了解民情的直接渠道,同时也成为企业接触客户、宣传营销的重要阵地。

国内某汽车企业所搭建的网络舆情监控平台,通过建设互联网媒体舆情综合监测分析系统,对新闻、论坛、博客、微博、视频、APP、传统纸媒等进行全面的覆盖,客户可以及时获取与自己关心的网络舆情信息,及时挖掘出网络舆情热点信息和背后的网络推手并进行持续的监控和跟踪,对舆情信息进行深度挖掘,发现潜在的舆情热点,对于特定的舆情事件可以及时提供分析报告。

需求概要

业务部门对舆情监控平台要求的高实时性(刷新频率在5分钟以内),方便的自行添加监控内容,能监控媒体及不同编辑对品牌和产品的友好度,并且内快速的形成相关的舆情报告。基于业务部门的要求情况,系统没有采用阿里云现有的舆情监控服务,而是使用阿里云ECS和MaxCompute服务搭建了一套基于爬虫和自然语言分析的舆情系统,已满足业务部门个性化的需求。

系统设计

3177bf1d1f1e9722f40e9acc034fec53a5e5a084

系统架构图

02fdc6e9eeac304330c8274f90c2777e1c4ce36a

业务架构

8a4731b36b55dfe0fef3eb649c568559c7b2db20

系统拓扑图

前端请求SLB进行负载均衡,下发到2个Web子系统,主要的数据处理工作由MaxCompute完成,搜索引擎使用3台ECS部署了ES来承载,数据收集则由多个爬虫系统完成,同时也有一台ECS用户自然语言处理,相关的结构化数据存储则由RDS提供。

爬虫系统和自然语言处理不在本文中详细介绍,主要介绍MaxCompute中数据处理的相关内容。

 

相关MaxCompute任务根据功能分为几类:模型训练、竞品分析、舆情监控、媒体分析、预警中心和事件分析等。

相关任务截图:

f3e9dc3ad5d31db81f15982f17b6680786438ebb

主要的几类任务介绍

模型训练任务

关键词监控:主要是通过使用MR任务使用TF-IDF的统计方法,同时使用MR进行去过滤。

计算词向量:通过数加平台的机器学习功能,将相关关键字进行数字化的工作。

6af808434aeea1460df01e2528c9998d46187d32

关键词监控工作流

舆情监控任务

包含信息去重、去水军信息、计算统计数据等任务

9115822ee13823694e4fd3f7c60bf28c06af50db

计算统计数据工作流

媒体分析类:活跃媒体统计、媒体品牌统计、去重过滤类等任务,其他任务包括热词统计、关键词同步、热点新闻统计等,通过DataIDE进行自动调度

938db842022ee414034ef995c487369545df3100

任务运行概览

监控结果

6c706eb93d5fc76c2806efe624ef8671d7dea55b

监控概览

c74aeb7bcd4a4d27040080173e084e39e1d6e3bc

舆情监控

bc3f2bea6cbcdda1e6ba3c6080dc354e72fe49df

媒体分析

目前该系统已上线3个月,满足的业务部门目前的监控需求,而且在时效性和精准性方面明显优于第三方监测公司的报告。

 

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
8月前
|
机器学习/深度学习 PyTorch TensorFlow
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic,深度学习探索者。深耕TensorFlow与PyTorch,分享框架对比、性能优化与实战经验,助力技术进阶。
|
10月前
|
监控 安全 Shell
管道符在渗透测试与网络安全中的全面应用指南
管道符是渗透测试与网络安全中的关键工具,既可用于高效系统管理,也可能被攻击者利用实施命令注入、权限提升、数据外泄等攻击。本文全面解析管道符的基础原理、实战应用与防御策略,涵盖Windows与Linux系统差异、攻击技术示例及检测手段,帮助安全人员掌握其利用方式与防护措施,提升系统安全性。
436 6
|
8月前
|
Ubuntu 网络协议 网络安全
解决Ubuntu系统的网络连接问题
以上步骤通常可以帮助解决大多数Ubuntu系统的网络连接问题。如果问题仍然存在,可能需要更深入的诊断,或考虑联系网络管理员或专业技术人员。
2045 18
|
8月前
|
监控 安全 网络协议
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
814 1
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
|
8月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
8月前
|
存储 机器学习/深度学习 监控
网络管理监控软件的 C# 区间树性能阈值查询算法
针对网络管理监控软件的高效区间查询需求,本文提出基于区间树的优化方案。传统线性遍历效率低,10万条数据查询超800ms,难以满足实时性要求。区间树以平衡二叉搜索树结构,结合节点最大值剪枝策略,将查询复杂度从O(N)降至O(logN+K),显著提升性能。通过C#实现,支持按指标类型分组建树、增量插入与多维度联合查询,在10万记录下查询耗时仅约2.8ms,内存占用降低35%。测试表明,该方案有效解决高负载场景下的响应延迟问题,助力管理员快速定位异常设备,提升运维效率与系统稳定性。
360 4
|
10月前
|
安全 KVM 虚拟化
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统
589 2
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统
|
9月前
|
机器学习/深度学习 人工智能 算法
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic带你深入卷积神经网络(CNN)核心技术,从生物启发到数学原理,详解ResNet、注意力机制与模型优化,探索视觉智能的演进之路。
787 11
|
9月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
613 2
|
10月前
|
运维 Linux 开发者
Linux系统中使用Python的ping3库进行网络连通性测试
以上步骤展示了如何利用 Python 的 `ping3` 库来检测网络连通性,并且提供了基本错误处理方法以确保程序能够优雅地处理各种意外情形。通过简洁明快、易读易懂、实操性强等特点使得该方法非常适合开发者或系统管理员快速集成至自动化工具链之内进行日常运维任务之需求满足。
675 18