MaxCompute在网络舆情监控系统中的应用

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 基于阿里云MaxCompute和其他云服务自建网络舆情监控平台的一些分享

背景介绍

根据中国互联网络信息中心(CNNIC)报告显示,我国的网民规模增长迅猛,截至2016年12月,我国网民规模达7.31亿,较2015年底提升了6.52个百分点。互联网成为反映社会舆情的一个重要载体。随着以社交媒体为主的互联网应用的普及和深入,网络舆情热点层出不穷,特别是当前微博、微信、新闻客户端等新媒体发展极为迅猛,其强大的舆论号召力与传播力让任何人都无法轻视。互联网已经成为政府了解民情的直接渠道,同时也成为企业接触客户、宣传营销的重要阵地。

国内某汽车企业所搭建的网络舆情监控平台,通过建设互联网媒体舆情综合监测分析系统,对新闻、论坛、博客、微博、视频、APP、传统纸媒等进行全面的覆盖,客户可以及时获取与自己关心的网络舆情信息,及时挖掘出网络舆情热点信息和背后的网络推手并进行持续的监控和跟踪,对舆情信息进行深度挖掘,发现潜在的舆情热点,对于特定的舆情事件可以及时提供分析报告。

需求概要

业务部门对舆情监控平台要求的高实时性(刷新频率在5分钟以内),方便的自行添加监控内容,能监控媒体及不同编辑对品牌和产品的友好度,并且内快速的形成相关的舆情报告。基于业务部门的要求情况,系统没有采用阿里云现有的舆情监控服务,而是使用阿里云ECS和MaxCompute服务搭建了一套基于爬虫和自然语言分析的舆情系统,已满足业务部门个性化的需求。

系统设计

3177bf1d1f1e9722f40e9acc034fec53a5e5a084

系统架构图

02fdc6e9eeac304330c8274f90c2777e1c4ce36a

业务架构

8a4731b36b55dfe0fef3eb649c568559c7b2db20

系统拓扑图

前端请求SLB进行负载均衡,下发到2个Web子系统,主要的数据处理工作由MaxCompute完成,搜索引擎使用3台ECS部署了ES来承载,数据收集则由多个爬虫系统完成,同时也有一台ECS用户自然语言处理,相关的结构化数据存储则由RDS提供。

爬虫系统和自然语言处理不在本文中详细介绍,主要介绍MaxCompute中数据处理的相关内容。

 

相关MaxCompute任务根据功能分为几类:模型训练、竞品分析、舆情监控、媒体分析、预警中心和事件分析等。

相关任务截图:

f3e9dc3ad5d31db81f15982f17b6680786438ebb

主要的几类任务介绍

模型训练任务

关键词监控:主要是通过使用MR任务使用TF-IDF的统计方法,同时使用MR进行去过滤。

计算词向量:通过数加平台的机器学习功能,将相关关键字进行数字化的工作。

6af808434aeea1460df01e2528c9998d46187d32

关键词监控工作流

舆情监控任务

包含信息去重、去水军信息、计算统计数据等任务

9115822ee13823694e4fd3f7c60bf28c06af50db

计算统计数据工作流

媒体分析类:活跃媒体统计、媒体品牌统计、去重过滤类等任务,其他任务包括热词统计、关键词同步、热点新闻统计等,通过DataIDE进行自动调度

938db842022ee414034ef995c487369545df3100

任务运行概览

监控结果

6c706eb93d5fc76c2806efe624ef8671d7dea55b

监控概览

c74aeb7bcd4a4d27040080173e084e39e1d6e3bc

舆情监控

bc3f2bea6cbcdda1e6ba3c6080dc354e72fe49df

媒体分析

目前该系统已上线3个月,满足的业务部门目前的监控需求,而且在时效性和精准性方面明显优于第三方监测公司的报告。

 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
9天前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
49 6
|
18天前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
44 2
|
3天前
|
监控 安全
公司上网监控:Mercury 在网络监控高级逻辑编程中的应用
在数字化办公环境中,公司对员工上网行为的监控至关重要。Mercury 作为一种强大的编程工具,展示了在公司上网监控领域的独特优势。本文介绍了使用 Mercury 实现网络连接监听、数据解析和日志记录的功能,帮助公司确保信息安全和工作效率。
70 51
|
11天前
|
监控 安全 测试技术
网络信息系统的整个生命周期
网络信息系统规划、设计、集成与实现、运行维护及废弃各阶段介绍。从企业需求出发,经过可行性研究和技术评估,详细设计系统架构,完成设备安装调试和系统集成测试,确保稳定运行,最终安全退役。
24 1
网络信息系统的整个生命周期
|
2天前
|
机器学习/深度学习 监控 数据可视化
企业上网监控:Kibana 在网络监控数据可视化
在网络监控中,Kibana 作为一款强大的数据可视化工具,与 Elasticsearch 配合使用,可处理大量日志数据,提供丰富的可视化组件,帮助企业高效管理网络活动,保障信息安全。通过索引模式和数据映射,Kibana 能够组织和分类原始数据,支持深入分析和异常检测,助力企业识别潜在安全威胁。
15 5
|
8天前
|
数据采集 监控 数据可视化
Fortran 在单位网络监控软件数据处理中的应用
在数字化办公环境中,Fortran 语言凭借其高效性和强大的数值计算能力,在单位网络监控软件的数据处理中展现出独特优势。本文介绍了 Fortran 在数据采集、预处理和分析可视化三个阶段的应用,展示了其在保障网络安全稳定运行和有效管理方面的价值。
37 10
|
4天前
|
机器学习/深度学习 移动开发 自然语言处理
HTML5与神经网络技术的结合有哪些其他应用
HTML5与神经网络技术的结合有哪些其他应用
17 3
|
10天前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
33 4
|
11天前
|
机器学习/深度学习 存储 运维
图神经网络在复杂系统中的应用
图神经网络(Graph Neural Networks, GNNs)是一类专门处理图结构数据的深度学习模型,近年来在复杂系统的研究和应用中展现了强大的潜力。复杂系统通常涉及多个相互关联的组件,其行为和特性难以通过传统方法进行建模和分析。
36 3
|
11天前
|
编解码 安全 Linux
网络空间安全之一个WH的超前沿全栈技术深入学习之路(10-2):保姆级别教会你如何搭建白帽黑客渗透测试系统环境Kali——Liinux-Debian:就怕你学成黑客啦!)作者——LJS
保姆级别教会你如何搭建白帽黑客渗透测试系统环境Kali以及常见的报错及对应解决方案、常用Kali功能简便化以及详解如何具体实现
下一篇
无影云桌面