开发者社区> 小小树啊> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

MaxCompute在网络舆情监控系统中的应用

简介: 基于阿里云MaxCompute和其他云服务自建网络舆情监控平台的一些分享
+关注继续查看

背景介绍

根据中国互联网络信息中心(CNNIC)报告显示,我国的网民规模增长迅猛,截至2016年12月,我国网民规模达7.31亿,较2015年底提升了6.52个百分点。互联网成为反映社会舆情的一个重要载体。随着以社交媒体为主的互联网应用的普及和深入,网络舆情热点层出不穷,特别是当前微博、微信、新闻客户端等新媒体发展极为迅猛,其强大的舆论号召力与传播力让任何人都无法轻视。互联网已经成为政府了解民情的直接渠道,同时也成为企业接触客户、宣传营销的重要阵地。

国内某汽车企业所搭建的网络舆情监控平台,通过建设互联网媒体舆情综合监测分析系统,对新闻、论坛、博客、微博、视频、APP、传统纸媒等进行全面的覆盖,客户可以及时获取与自己关心的网络舆情信息,及时挖掘出网络舆情热点信息和背后的网络推手并进行持续的监控和跟踪,对舆情信息进行深度挖掘,发现潜在的舆情热点,对于特定的舆情事件可以及时提供分析报告。

需求概要

业务部门对舆情监控平台要求的高实时性(刷新频率在5分钟以内),方便的自行添加监控内容,能监控媒体及不同编辑对品牌和产品的友好度,并且内快速的形成相关的舆情报告。基于业务部门的要求情况,系统没有采用阿里云现有的舆情监控服务,而是使用阿里云ECS和MaxCompute服务搭建了一套基于爬虫和自然语言分析的舆情系统,已满足业务部门个性化的需求。

系统设计

3177bf1d1f1e9722f40e9acc034fec53a5e5a084

系统架构图

02fdc6e9eeac304330c8274f90c2777e1c4ce36a

业务架构

8a4731b36b55dfe0fef3eb649c568559c7b2db20

系统拓扑图

前端请求SLB进行负载均衡,下发到2个Web子系统,主要的数据处理工作由MaxCompute完成,搜索引擎使用3台ECS部署了ES来承载,数据收集则由多个爬虫系统完成,同时也有一台ECS用户自然语言处理,相关的结构化数据存储则由RDS提供。

爬虫系统和自然语言处理不在本文中详细介绍,主要介绍MaxCompute中数据处理的相关内容。

 

相关MaxCompute任务根据功能分为几类:模型训练、竞品分析、舆情监控、媒体分析、预警中心和事件分析等。

相关任务截图:

f3e9dc3ad5d31db81f15982f17b6680786438ebb

主要的几类任务介绍

模型训练任务

关键词监控:主要是通过使用MR任务使用TF-IDF的统计方法,同时使用MR进行去过滤。

计算词向量:通过数加平台的机器学习功能,将相关关键字进行数字化的工作。

6af808434aeea1460df01e2528c9998d46187d32

关键词监控工作流

舆情监控任务

包含信息去重、去水军信息、计算统计数据等任务

9115822ee13823694e4fd3f7c60bf28c06af50db

计算统计数据工作流

媒体分析类:活跃媒体统计、媒体品牌统计、去重过滤类等任务,其他任务包括热词统计、关键词同步、热点新闻统计等,通过DataIDE进行自动调度

938db842022ee414034ef995c487369545df3100

任务运行概览

监控结果

6c706eb93d5fc76c2806efe624ef8671d7dea55b

监控概览

c74aeb7bcd4a4d27040080173e084e39e1d6e3bc

舆情监控

bc3f2bea6cbcdda1e6ba3c6080dc354e72fe49df

媒体分析

目前该系统已上线3个月,满足的业务部门目前的监控需求,而且在时效性和精准性方面明显优于第三方监测公司的报告。

 

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
怎么从传统的Linux网络视角理解容器网络?《一》
使用容器总是感觉像使用魔法一样。对于那些理解底层原理的人来说容器很好用,但是对于不理解的人来说就是个噩梦。很幸运的是,我们已经研究容器技术很久了,甚至成功揭秘容器只是隔离并受限的Linux进程,运行容器并不需要镜像,以及另一个方面,构建镜像需要运行一些容器。 现在是时候解决容器网络问题了。或者更准确地说,单主机容器网络问题。本文会回答这些问题: 如何虚拟化网络资源,让容器认为自己拥有独占网络? 如何让容器们和平共处,之间不会互相干扰,并且能够互相通信? 从容器内部如何访问外部网络? 从外部世界如何访问某台机器上的容器呢(比如,端口发布)? 最终结果很明显
70925 0
怎么从传统的Linux网络视角理解容器网络?《二》
因为问题较多,关注我查看第一篇内容即可
46 0
Linux 网络
本文整理了 Linux 内核中网络的相关知识
59 0
Linux 网络驱动 phy 读写寄存器调试方法
Linux 网络驱动 phy 读写寄存器调试方法
287 0
Linux下3种常用的网络测速工具
不管你用的是什么操作系统,网速都是你非常关心的一个性能指标,毕竟,谁都不想看个视频结果网速卡到你怀疑人生。本文介绍三个 Linux 命令行下的网络测速工具,让你随时随地知道你的网络状况。 fast fast 是 Netflix 提供的一项服务,它不仅可以通过命令行来使用,而且可以直接在 Web 端使用:fast.com。 我们可以通过以下命令来安装这个工具: $ npm install --global fast-cli 不管是网页端还是命令行,它都提供了最基本的网络下载测速。命令行下最简单的使用方法如下: $ fast 93 Mbps ↓ 从以上结果可以看出,直接使用 fa
433 0
【CentOS】配置linux bridge网络
配置案例:将ens37网卡配置为网桥
945 0
《Linux高性能服务器编程》——1.4 测试网络
本节书摘来自华章计算机《Linux高性能服务器编程》一书中的第1章,第1.4节,作者 游双,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1153 0
+关注
文章
问答
文章排行榜
最热
最新
相关电子书
更多
基于MaxCompute构建Noxmobi全球化精准营销系统_多点_杨洋
立即下载
云端大规模视频分析:MaxCompute在视觉计算中的应用
立即下载
商业流量的精准在线分配
立即下载