【行业应用】阿里云实时计算 Flink 版内容资讯解决方案

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 在日益激烈的行业竞争态势下,各个主流内容资讯提供商都在探索 AI+大数据的解决方案,来进行精细化运营,助力业务发展新模式

行业挑战

2017 年 6 月,PC 端的新闻资讯月度覆盖人数达到 4.8 亿(在 PC 网民中的渗透率同比上升 1.8% 至 90.1%);移动端新闻资讯服务月覆盖独立设备数达到 6.2 亿,同比增长 34.8%(在移动网民中的渗透率同比上升 10.5% 至 55.5%)。

因此,移动端互联网使得获取资讯服务的门槛和成本都大大降低,也使得用户的资讯消费行为更频繁和多元化。虽然移动网络新闻行业渗透率仍然较低(55.5%),但市场整体增速较快(2017 年月覆盖人数同比增长 34.8%,渗透率同比增长 10.5%),发展潜能巨大。

移动内容资讯行业已进入下半场,**精细化运营是主调。

  1. 伴随着移动流量增长,门户网站先后推出了移动客户端,同时,一些聚合类资讯平台也开始出现在移动端。
  2. 移动新闻资讯用户增多,市场力量显现,为了寻求差异化优势,各平台纷纷探索直播、短视频、语音等多元内容输出形式,同时结合个性化推荐提升运营效率;在这个阶段,传统新闻机构也开始了移动化布局。
  3. 在技术的加持下,移动新闻资讯行业获得了资本关注,竞争趋势明显,各大平台都开始通过打造自媒体生态和富媒体内容布局来提高产品壁垒。
  4. 伴随着行业热度的持续发酵,精细化运营将成为移动新闻资讯行业下半场的主调。一方面,平台的内容价值将显现;另一方面,技术迭代将成为平台新鲜活力的来源。

因此,在日益激烈的行业竞争态势下,各个主流内容资讯提供商都在探索 AI+大数据的解决方案,来进行精细化运营,助力业务发展新模式,从业务需求上来讲,在大数据方面遇到的挑战如下:

  1. 数据量大,增速迅猛:主流内容分享平台在新增用户数、日均 UV/PV 等核心指标上,产品初期每年都会有翻倍的增长。
  2. 业务形态复杂:大量内容分享产品的母公司都在探索新的内容输出方式,如新闻类、短视频类、直播类等。各种业务形态差异大,对平台的通用化要求高。
  3. 实时性要求高:内容分享平台的核心系统有个性化推荐、广告计费、风控等业务,业务上要实现精细化运营,对数据的实时性要求更高。

解决方案

1 内容.jpg

在内容资讯行业,实时计算 Flink 版的典型使用场景:

  1. 实时数仓:数据 ETL 及实时指标计算,Flink Batch 提供异构数据源互导功能。Flink SQL,大大简化计算模型,降低用户使用 Flink 的门槛。
  2. 实时机器学习平台:实时特征处理,样本拼接,为下游机器学习模型训练准备数据。
  3. 实时风控和实时安全:Flink CEP 提供基于 Event 的规则配置功能,简单易上手。
  4. 广告系统:广告平台实时数仓建设,广告实时计费系统以及广告算法部分的数据预处理。
  5. 运营团队:活动运营监控,如实时监控红包发放状态来调整发放策略。

成功案例

字节跳动

客户简介

北京字节跳动科技有限公司成立于 2012 年 3 月,是最早将人工智能应用于移动互联网场景的科技企业之一。公司以建设“全球创作与交流平台”为愿景,是目前国内最大的内容分享平台,其应用程序包括:

  • 今日头条
  • 抖音短视频(抖音短视频火山版)
  • Tiktok
  • 西瓜视频
  • 懂车帝

分布于多个行业领域,发展势头非常迅猛。

业务需求

在字节跳动内部,实时计算的使用场景:

  1. 实时数仓:

    1. 用户行为日志清洗和解析
    2. 用 Flink SQL 构建实时数仓,实时指标计算
    3. 使用 Flink Batch 进行异构数据源导入导出
  2. 风控和安全团队:

    1. 使用 Flink CEP 进行规则判断
  3. 机器学习

    1. 数据预处理
    2. 正负样本拼接
    3. 模型训练的资源调度
  4. 广告:

    1. 广告算法部分使用场景包括数据预处理、样本拼接
    2. 广告平台,使用 Flink 构建实时数仓
  5. 视频团队

    1. 实时指标监控系统
    2. 运营活动监控(控制红包发放等)

技术架构

2.jpg

业务结果

字节跳动引入 Flink 已经有3年时间,支持了核心业务的实时需求,目前字节跳动内部 Flink 应用规模:

  • 5+ Yarn 集群,机器规模达到 10000+
  • 作业数 2000+
  • 用户 300+
  • 支持数十个产品,包括今日头条,抖音,火山小视频等核心产品

未来展望

Flink 在字节跳动数据处理链路的作用将会越来越大,为了更好的支持各类业务方,未来我们对 Flink 的规划:

  1. Flink Streaming:推动 Flink 作业 Docker 化,支持 Flink Job 横向扩展
  2. Flink SQL:

    1. 未来一年,推动 Flink SQL 任务达到 50%
    2. 探索 Streaming/Batch 新的使用场景
  3. Flink Batch:

    1. 推测执行,提升稳定性
    2. Flink Gelly 支持全图离线计算应用场景

实时计算 Flink 版产品交流群

test

阿里云实时计算Flink - 解决方案:
https://developer.aliyun.com/article/765097
阿里云实时计算Flink - 场景案例:
https://ververica.cn/corporate-practice
阿里云实时计算Flink - 产品详情页:
https://www.aliyun.com/product/bigdata/product/sc

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
1月前
|
Linux 开发工具 C语言
Centos8下编译安装最新版ffmpeg解决方案(含Centos8换源阿里云)
Centos8下编译安装最新版ffmpeg解决方案(含Centos8换源阿里云)
144 3
|
22天前
|
SQL 存储 API
阿里云实时计算Flink的产品化思考与实践【下】
本文整理自阿里云高级产品专家黄鹏程和阿里云技术专家陈婧敏在 FFA 2023 平台建设专场中的分享。
110414 10
阿里云实时计算Flink的产品化思考与实践【下】
|
1月前
|
弹性计算 运维 安全
2024年阿里云一键搭建部署幻兽帕鲁服务器解决方案
幻兽帕鲁火了,为了确保畅快体验游戏,构建高效、稳定的游戏服务器至关重要。幸运的是,阿里云为您提供了快速、简便的服务器搭建解决方案,即使您对技术知识了解有限,也能在短短一分钟内轻松完成《幻兽帕鲁》游戏的联机服务器搭建!
1450 4
|
7天前
|
机器学习/深度学习 分布式计算 BI
Flink实时流处理框架原理与应用:面试经验与必备知识点解析
【4月更文挑战第9天】本文详尽探讨了Flink实时流处理框架的原理,包括运行时架构、数据流模型、状态管理和容错机制、资源调度与优化以及与外部系统的集成。此外,还介绍了Flink在实时数据管道、分析、数仓与BI、机器学习等领域的应用实践。同时,文章提供了面试经验与常见问题解析,如Flink与其他系统的对比、实际项目挑战及解决方案,并展望了Flink的未来发展趋势。附带Java DataStream API代码样例,为学习和面试准备提供了实用素材。
25 0
|
1月前
|
分布式计算 关系型数据库 OLAP
阿里云AnalyticDB基于Flink CDC+Hudi实现多表全增量入湖实践
阿里云AnalyticDB基于Flink CDC+Hudi实现多表全增量入湖实践
71 0
|
2月前
|
资源调度 Kubernetes Java
Flink--day02、Flink部署(Yarn集群搭建下的会话模式部署、单作业模式部署、应用模式部署)
Flink--day022、Flink部署(Yarn集群搭建下的会话模式部署、单作业模式部署、应用模式部署)
134 5
|
2月前
|
机器学习/深度学习 消息中间件 算法
Flink ML的新特性解析与应用
本文整理自阿里巴巴算法专家赵伟波,在 Flink Forward Asia 2023 AI特征工程专场的分享。
129257 4
Flink ML的新特性解析与应用
|
2月前
|
SQL 存储 人工智能
Flink 在蚂蚁实时特征平台的深度应用
本文整理自蚂蚁集团高级技术专家赵亮星云,在 Flink Forward Asia 2023 AI 特征工程专场的分享。
491 3
Flink 在蚂蚁实时特征平台的深度应用
|
3月前
|
存储 NoSQL MongoDB
阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference
本文整理自阿里云 Flink 团队归源老师关于阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference 的研究。
46939 2
阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference
|
25天前
|
Ubuntu JavaScript 关系型数据库
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客
在阿里云Ubuntu 20.04服务器上部署Ghost博客的步骤包括创建新用户、安装Nginx、MySQL和Node.js 18.x。首先,通过`adduser`命令创建非root用户,然后安装Nginx和MySQL。接着,设置Node.js环境,下载Nodesource GPG密钥并安装Node.js 18.x。之后,使用`npm`安装Ghost-CLI,创建Ghost安装目录并进行安装。配置过程中需提供博客URL、数据库连接信息等。最后,测试访问前台首页和后台管理页面。确保DNS设置正确,并根据提示完成Ghost博客的配置。
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客

相关产品

  • 实时计算 Flink版