文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 文章正文

基于实时计算（flink）打造舆情分析平台——新华智云

2019-02-26 5854

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 基于实时计算打造舆情分析平台——新华智云 1.客户&产品简介：新华智云是一家致力于通过大数据技术驱动媒体变革的公司，数芯是新华智云推出的实时舆情分析平台，旨在满足用户一系列舆情分析需求。

案例与解决方案汇总页：
阿里云实时计算产品案例&解决方案汇总

产品介绍

新华智云是一家致力于通过大数据技术驱动媒体变革的公司，数芯是新华智云推出的实时舆情分析平台，旨在满足用户一系列舆情分析需求。包括：对事件、新闻、媒体、人物、地域、机构、行业，甚至关键词、热门话题等的抓取、识别、聚合、热度分析以及可视化展示等。

总览

事件跟踪

系统设计

网络舆情是社会舆论的一种表现形式，通俗的说是人们通过网络表达对某些社会事件的看法和态度。网络舆情以事件为载体，以事件为核心，是广大网民情感、态度、观点的表达、传播、互动以及后续影响力的总和。

一个舆情分析分析系统，主要解决的问题包括：发现事件、跟踪事件、发掘观点、评估影响力等。

系统挑战

舆情分析系统需要对接多个上下游

数据上游：爬虫数据和采购数据。爬虫采集不同数据结构类型的平台数据。

数据下游：写入不同的存储系统。如统计结果写入RDS，清洗后数据写到OTS中，文章存储到ES中做索引等等。

如果设计不合理，多上下游将会极大影响系统复杂度。

数据处理过程包括数据清洗和数据统计

清洗过程既有基于规则的信息抽取，又有基于算法的实体识别。

统计过程需要先把数据结构化拼装，然后按照各种维度进行灵活的统计。

具有自我迭代的能力
设计良好的舆情分析系统应该具有自我迭代的能力，能够根据历史数据进行优化，不断提供系统效能。

系统架构
大数据舆情分析系统架构图如下。

舆情规划是整个系统的控制器，控制着舆情发现的目标、信息源等；

信息获取是舆情分析的基础，能够快速、准确的获取足量信息是系统成功的前提；

信息处理与算法部分是舆情分析的关键，担负着把原始数据加工成信息与知识的重任，并且对归档后的数据进一步分析能够发现系统问题、发现新的事件和新的模型，能够进一步提升系统效果；

最终的信息要服务的形式的暴露出来，为人所用；

信息处理
数芯平台的信息处理部分如下图所示。

数据来源（注：数据采集成功后统一发布到DataHub中）

爬虫：实时的去各大网站、微博、微信等内容平台抓取数据。

从其他机构采集数据。

数据处理
实时计算订阅DataHub然后进行数据处理。数据处理包括两个重要的部分：实时数据流和算法服务API。

实时数据流
通过实时计算串起整个实时数据流，总体包括对数据进行清洗、提取目标，整理成结构化的数据，然后按照所需维度对结构化的数据进行聚合。并且要把原始数据、结构化的数据、汇总的结果都发布到下游存储系统中。

数据清洗：对爬虫抓取的数据进行清洗，比如垃圾过滤、文本去重等。这一步通过实时计算提供的UDX（自定义函数）来调用算法服务API来完成；

目标提取：从已经完成清洗的数据中抽取出感兴趣的目标，比如抽取实体（人物、地点、事件等），对内容的情感评分，抽取文章关键词等，这一步的目标是从非结构化的文本中抽取结构化的信息；

结果聚合：对已经结构化的数据按维度聚合，比如某事件的按天计数，某新闻的传播热度等。最终把这些聚合信息联合原始信息分别写到下游存储中去。

算法服务API
预先训练好模型，把垃圾过滤、文本去重、实体提取、情感打分、关键词提取等暴露成API服务，供实时计算调用。

数据存储与服务
RDS保存聚合数据，OTS保存原始新闻，ES对新闻建立索引，提供搜索服务，这三个数据存储直接为最终产品服务。

总结

数芯之前数据处理部分使用的是自建的spark，需要自行运维和对接各种上下游系统，迁移到了阿里云实时计算平台，整体收益包括：

运维成本：免运维，阿里云提供高保障。

对接上下游：直接注册，免开发。

开发成本：SQL开发，效率高，门槛低。

数据流：一个产品串起整个数据流，ETL用UDX，统计用SQL。

从更高的维度上看，这个案例属于实时ETL场景，实时ETL的目标把数据从a投递到b，中间进行清洗、格式转化、信息抽取等。如果对吞吐、实时性有一定要求，可以在方案阶段优先考虑实时计算产品。

注：本文部分内容来自新华智云工程师杨丛聿的分享，特此感谢。

如果您有需求，欢迎联系付空。

文章标签：

实时计算 Flink版

流计算

算法

存储

大数据

数据挖掘

关键词：

实时计算 Flink版平台

实时计算 Flink版flink

实时计算 Flink版实时计算

实时计算 Flink版新华智云

实时计算实时计算 Flink版平台

相关实践学习

基于Hologres+Flink搭建GitHub实时数据大屏

通过使用Flink、Hologres构建实时数仓，并通过Hologres对接BI分析工具（以DataV为例），实现海量数据实时分析.

实时计算 Flink 实战课程

如何使用实时计算 Flink 搞定数据处理难题？实时计算 Flink 极客训练营产品、技术专家齐上阵，从开源 Flink功能介绍到实时计算 Flink 优势详解，现场实操，5天即可上手！欢迎开通实时计算 Flink 版： https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍： Flink Forward 是由 Apache 官方授权，Apache Flink Community China 支持的会议，通过参会不仅可以了解到 Flink 社区的最新动态和发展计划，还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验，是 Flink 开发者和使用者不可错过的盛会。去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与，一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况，Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。

付空

目录

相关文章

灵杰开发者

|

11月前

|

存储消息中间件人工智能

Lazada 如何用实时计算 Flink + Hologres 构建实时商品选品平台

本文整理自 Lazada Group EVP 及供应链技术负责人陈立群在 Flink Forward Asia 2025 新加坡实时分析专场的分享。作为东南亚领先的电商平台，Lazada 面临在六国管理数十亿商品 SKU 的挑战。为实现毫秒级数据驱动决策，Lazada 基于阿里云实时计算 Flink 和 Hologres 打造端到端实时商品选品平台，支撑日常运营与大促期间分钟级响应。本文深入解析该平台如何通过流式处理与实时分析技术重构电商数据架构，实现从“事后分析”到“事中调控”的跃迁。

灵杰开发者

858 55 56

Lazada 如何用实时计算 Flink + Hologres 构建实时商品选品平台

灵杰开发者

|

消息中间件运维 Kafka

直播预告｜Kafka+Flink双引擎实战：手把手带你搭建分布式实时分析平台！

在数字化转型中，企业亟需从海量数据中快速提取价值并转化为业务增长动力。5月15日19:00-21:00，阿里云三位技术专家将讲解Kafka与Flink的强强联合方案，帮助企业零门槛构建分布式实时分析平台。此组合广泛应用于实时风控、用户行为追踪等场景，具备高吞吐、弹性扩缩容及亚秒级响应优势。直播适合初学者、开发者和数据工程师，参与还有机会领取定制好礼！扫描海报二维码或点击链接预约直播：[https://developer.aliyun.com/live/255088](https://developer.aliyun.com/live/255088)

灵杰开发者

758 35 35

直播预告｜Kafka+Flink双引擎实战：手把手带你搭建分布式实时分析平台！

阿里云云原生

|

消息中间件运维 Kafka

直播预告｜Kafka+Flink 双引擎实战：手把手带你搭建分布式实时分析平台！

直播预告｜Kafka+Flink 双引擎实战：手把手带你搭建分布式实时分析平台！

阿里云云原生

373 11 11

云技术达人

|

9月前

|

存储消息中间件人工智能

云栖实录｜实时计算 Flink 全新升级 - 全栈流处理平台助力实时智能

本文根据 2025 云栖大会演讲整理而成，演讲信息如下演讲人：黄鹏程阿里云智能集团计算平台事业部实时计算Flink版产品负责人

云技术达人

609 1 1

云栖实录｜实时计算 Flink 全新升级 - 全栈流处理平台助力实时智能

灵杰开发者

|

11月前

|

存储分布式计算数据处理

「48小时极速反馈」阿里云实时计算Flink广招天下英雄

阿里云实时计算Flink团队，全球领先的流计算引擎缔造者，支撑双11万亿级数据处理，推动Apache Flink技术发展。现招募Flink执行引擎、存储引擎、数据通道、平台管控及产品经理人才，地点覆盖北京、杭州、上海。技术深度参与开源核心，打造企业级实时计算解决方案，助力全球企业实现毫秒洞察。

灵杰开发者

919 0 0

「48小时极速反馈」阿里云实时计算Flink广招天下英雄

灵杰开发者

|

SQL 消息中间件 Kafka

Flink+Paimon+Hologres，面向未来的一体化实时湖仓平台架构设计

本文介绍了阿里云实时数仓Hologres负责人姜伟华在Flink Forward Asia 2024上的分享，涵盖实时数仓的发展历程、从实时数仓到实时湖仓的演进，以及总结。文章通过三代实时数仓架构的演变，详细解析了Lambda架构、Kafka实时数仓分层+OLAP、Hologres实时数仓分层复用等方案，并探讨了未来从实时数仓到实时湖仓的演进方向。最后，结合实际案例和Demo展示了Hologres + Flink + Paimon在实时湖仓中的应用，帮助用户根据业务需求选择合适的方案。

灵杰开发者

2016 20 21

Flink+Paimon+Hologres，面向未来的一体化实时湖仓平台架构设计

灵杰开发者

|

SQL 存储 HIVE

鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目

本文整理自鹰角网络大数据开发工程师朱正军在Flink Forward Asia 2024上的分享，主要涵盖四个方面：鹰角数据平台架构、数据湖选型、湖仓一体建设及未来展望。文章详细介绍了鹰角如何构建基于Paimon的数据湖，解决了Hudi入湖的痛点，并通过Trino引擎和Ranger权限管理实现高效的数据查询与管控。此外，还探讨了湖仓一体平台的落地效果及未来技术发展方向，包括Trino与Paimon的集成增强、StarRocks的应用以及Paimon全面替换Hive的计划。

灵杰开发者

2044 1 1

鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目

技术小达人

|

SQL 消息中间件 Serverless

Flink+Paimon+Hologres，面向未来的一体化实时湖仓平台架构设计

Flink+Paimon+Hologres，面向未来的一体化实时湖仓平台架构设计

技术小达人

509 4 4

大数据与机器学习

实时计算 Flink

热门文章

最新文章

数据仓库介绍与实时数仓案例

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

如何在 PyFlink 1.10 中自定义 Python UDF？

使用 Kafka 和 Flink 构建实时数据处理系统

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

【对话科技】Flink技术介绍和新功能展望

Apache Flink 漫谈系列(05) - Fault Tolerance

【阿里内部应用】利用blink+MQ实现流计算中的超时统计问题

基于实时计算（flink）打造舆情分析平台——新华智云

最新消息！Cloudera 全球发行版正式集成 Apache Flink

Skill即服务：用Agent安全玩转云上Flink

Flink Forward Asia 2026 官宣深圳｜From Cloud Native to AI Native

Flink Agents 0.3 Roadmap解读

相约深圳，全球征集｜Flink Forward Asia 2026 演讲议题征集正式启动

Flink CDC 3.6.0：支持 Flink 1.20/2.2, MySQL/PostgreSQL入湖入流支持Schema Evolution

Apache Flink Agents 0.2.1 发布公告

（二）走进阿里云实时计算Flink版-场景案例篇

（一）走进阿里云实时计算Flink版-产品能力篇

Flink 实时计算 x SLS 存储下推：阿里云 OpenAPI 网关监控平台实践

基于Flink CDC的企业级日志实时入湖入流解决方案

相关产品

实时计算 Flink版

文档详情产品详情

相关课程

更多

大数据Flink实时旅游平台环境篇 2020版

Apache Flink 入门到实战 - Flink开源社区出品

实时计算 Flink 版产品入门与实操

开源 Flink 极速上手教程

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Flink峰会 - 李佳林

Flink峰会 - 徐榜江

Flink CDC Meetup PPT - 龚中强

相关实验场景

更多

基于Hologres+Flink搭建GitHub实时数据大屏

基于Flink+Kafka实现订单评论实时分析

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！