MaxCompute在网络舆情监控系统中的应用

简介: 基于阿里云MaxCompute和其他云服务自建网络舆情监控平台的一些分享

背景介绍

根据中国互联网络信息中心(CNNIC)报告显示,我国的网民规模增长迅猛,截至2016年12月,我国网民规模达7.31亿,较2015年底提升了6.52个百分点。互联网成为反映社会舆情的一个重要载体。随着以社交媒体为主的互联网应用的普及和深入,网络舆情热点层出不穷,特别是当前微博、微信、新闻客户端等新媒体发展极为迅猛,其强大的舆论号召力与传播力让任何人都无法轻视。互联网已经成为政府了解民情的直接渠道,同时也成为企业接触客户、宣传营销的重要阵地。

国内某汽车企业所搭建的网络舆情监控平台,通过建设互联网媒体舆情综合监测分析系统,对新闻、论坛、博客、微博、视频、APP、传统纸媒等进行全面的覆盖,客户可以及时获取与自己关心的网络舆情信息,及时挖掘出网络舆情热点信息和背后的网络推手并进行持续的监控和跟踪,对舆情信息进行深度挖掘,发现潜在的舆情热点,对于特定的舆情事件可以及时提供分析报告。

需求概要

业务部门对舆情监控平台要求的高实时性(刷新频率在5分钟以内),方便的自行添加监控内容,能监控媒体及不同编辑对品牌和产品的友好度,并且内快速的形成相关的舆情报告。基于业务部门的要求情况,系统没有采用阿里云现有的舆情监控服务,而是使用阿里云ECS和MaxCompute服务搭建了一套基于爬虫和自然语言分析的舆情系统,已满足业务部门个性化的需求。

系统设计

3177bf1d1f1e9722f40e9acc034fec53a5e5a084

系统架构图

02fdc6e9eeac304330c8274f90c2777e1c4ce36a

业务架构

8a4731b36b55dfe0fef3eb649c568559c7b2db20

系统拓扑图

前端请求SLB进行负载均衡,下发到2个Web子系统,主要的数据处理工作由MaxCompute完成,搜索引擎使用3台ECS部署了ES来承载,数据收集则由多个爬虫系统完成,同时也有一台ECS用户自然语言处理,相关的结构化数据存储则由RDS提供。

爬虫系统和自然语言处理不在本文中详细介绍,主要介绍MaxCompute中数据处理的相关内容。

 

相关MaxCompute任务根据功能分为几类:模型训练、竞品分析、舆情监控、媒体分析、预警中心和事件分析等。

相关任务截图:

f3e9dc3ad5d31db81f15982f17b6680786438ebb

主要的几类任务介绍

模型训练任务

关键词监控:主要是通过使用MR任务使用TF-IDF的统计方法,同时使用MR进行去过滤。

计算词向量:通过数加平台的机器学习功能,将相关关键字进行数字化的工作。

6af808434aeea1460df01e2528c9998d46187d32

关键词监控工作流

舆情监控任务

包含信息去重、去水军信息、计算统计数据等任务

9115822ee13823694e4fd3f7c60bf28c06af50db

计算统计数据工作流

媒体分析类:活跃媒体统计、媒体品牌统计、去重过滤类等任务,其他任务包括热词统计、关键词同步、热点新闻统计等,通过DataIDE进行自动调度

938db842022ee414034ef995c487369545df3100

任务运行概览

监控结果

6c706eb93d5fc76c2806efe624ef8671d7dea55b

监控概览

c74aeb7bcd4a4d27040080173e084e39e1d6e3bc

舆情监控

bc3f2bea6cbcdda1e6ba3c6080dc354e72fe49df

媒体分析

目前该系统已上线3个月,满足的业务部门目前的监控需求,而且在时效性和精准性方面明显优于第三方监测公司的报告。

 

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2天前
|
机器学习/深度学习 传感器 算法
LabVIEW开发基于神经网络的自动汽车制动系统
LabVIEW开发基于神经网络的自动汽车制动系统
|
2天前
|
存储 NoSQL 大数据
【MongoDB 专栏】MongoDB 在大数据场景下的应用
【5月更文挑战第11天】MongoDB,适用于大数据时代,以其灵活数据模型、高可扩展性和快速性能在大数据场景中脱颖而出。它处理海量、多类型数据,支持高并发,并在数据分析、日志处理、内容管理和物联网应用中广泛应用。电商和互联网公司的案例展示了其在扩展性和业务适应性上的优势,但同时也面临数据一致性、资源管理、数据安全和性能优化的挑战。
【MongoDB 专栏】MongoDB 在大数据场景下的应用
|
3天前
|
机器学习/深度学习 人工智能 算法
构建未来:AI驱动的自适应网络安全防御系统
【5月更文挑战第11天】在数字时代的风口浪尖,网络安全问题日益凸显。传统的安全防御手段在应对不断进化的网络威胁时显得力不从心。本文提出了一个基于人工智能技术的自适应网络安全防御系统框架,旨在通过实时分析、学习和预测网络行为,自动调整防御策略以抵御未知攻击。系统采用先进的机器学习算法和大数据分析技术,能够在保持高效性能的同时,最小化误报率。文章详细阐述了系统的设计理念、关键技术组件以及预期效果,为网络安全的未来发展方向提供新思路。
|
3天前
|
网络协议 网络安全 数据库
LabVIEW中MAX在我的网络上不显示“远程系统”选项卡或设备
LabVIEW中MAX在我的网络上不显示“远程系统”选项卡或设备
|
3天前
|
存储 安全 算法
网络安全与信息安全:防范漏洞、应用加密技术与培养安全意识
【5月更文挑战第10天】在数字化时代,网络安全与信息安全已成为维护社会稳定、保障个人隐私和确保企业资产的关键。面对日益复杂的网络威胁,本文深入探讨了网络安全漏洞的成因与影响、加密技术的基本原理与应用,以及提升全民网络安全意识的必要性和方法。通过分析当前网络安全形势,提供了一系列针对性的技术解决方案和管理策略,旨在为读者构建一个全方位的网络安全防护体系。
10 1
|
5天前
|
安全
AC/DC电源模块在通信与网络设备中的应用的研究
AC/DC电源模块在通信与网络设备中的应用的研究
AC/DC电源模块在通信与网络设备中的应用的研究
|
5天前
BOSHIDA AC/DC电源模块在通信与网络设备中的应用研究
BOSHIDA AC/DC电源模块在通信与网络设备中的应用研究
BOSHIDA AC/DC电源模块在通信与网络设备中的应用研究
|
5天前
|
监控 安全 算法
网络安全与信息安全:防范漏洞、应用加密技术及提升安全意识
【5月更文挑战第8天】 在数字化时代,网络安全与信息安全已成为我们不可忽视的问题。本文将深入探讨网络安全漏洞的产生原因及其危害,加密技术的种类和应用,以及提升个人和企业的安全意识的重要性。通过对这些方面的知识分享,旨在帮助读者更好地理解网络安全的重要性,提高防范意识,保护个人信息和数据安全。
|
6天前
|
机器学习/深度学习 人工智能 安全
构建未来:AI驱动的自适应网络安全防御系统
【5月更文挑战第8天】 随着网络攻击的不断演变,传统的安全措施已不足以应对日益复杂的威胁。本文提出了一种基于人工智能(AI)的自适应网络安全防御系统,旨在通过实时分析网络流量和行为模式来自动调整安全策略。系统利用深度学习算法识别潜在威胁,并通过强化学习优化防御机制。初步实验表明,该系统能够有效提高检测率,减少误报,并在未知攻击面前展现出较强的适应性。
17 1
|
6天前
|
分布式计算 监控 数据挖掘
MaxCompute的应用
【5月更文挑战第7天】MaxCompute的应用
25 8

热门文章

最新文章