【行业应用】阿里云实时计算 Flink 版内容资讯解决方案-阿里云开发者社区

开发者社区> 阿里云实时计算Flink> 正文

【行业应用】阿里云实时计算 Flink 版内容资讯解决方案

简介: 在日益激烈的行业竞争态势下,各个主流内容资讯提供商都在探索 AI+大数据的解决方案,来进行精细化运营,助力业务发展新模式

行业挑战

2017 年 6 月,PC 端的新闻资讯月度覆盖人数达到 4.8 亿(在 PC 网民中的渗透率同比上升 1.8% 至 90.1%);移动端新闻资讯服务月覆盖独立设备数达到 6.2 亿,同比增长 34.8%(在移动网民中的渗透率同比上升 10.5% 至 55.5%)。

因此,移动端互联网使得获取资讯服务的门槛和成本都大大降低,也使得用户的资讯消费行为更频繁和多元化。虽然移动网络新闻行业渗透率仍然较低(55.5%),但市场整体增速较快(2017 年月覆盖人数同比增长 34.8%,渗透率同比增长 10.5%),发展潜能巨大。

移动内容资讯行业已进入下半场,**精细化运营是主调。

  1. 伴随着移动流量增长,门户网站先后推出了移动客户端,同时,一些聚合类资讯平台也开始出现在移动端。
  2. 移动新闻资讯用户增多,市场力量显现,为了寻求差异化优势,各平台纷纷探索直播、短视频、语音等多元内容输出形式,同时结合个性化推荐提升运营效率;在这个阶段,传统新闻机构也开始了移动化布局。
  3. 在技术的加持下,移动新闻资讯行业获得了资本关注,竞争趋势明显,各大平台都开始通过打造自媒体生态和富媒体内容布局来提高产品壁垒。
  4. 伴随着行业热度的持续发酵,精细化运营将成为移动新闻资讯行业下半场的主调。一方面,平台的内容价值将显现;另一方面,技术迭代将成为平台新鲜活力的来源。

因此,在日益激烈的行业竞争态势下,各个主流内容资讯提供商都在探索 AI+大数据的解决方案,来进行精细化运营,助力业务发展新模式,从业务需求上来讲,在大数据方面遇到的挑战如下:

  1. 数据量大,增速迅猛:主流内容分享平台在新增用户数、日均 UV/PV 等核心指标上,产品初期每年都会有翻倍的增长。
  2. 业务形态复杂:大量内容分享产品的母公司都在探索新的内容输出方式,如新闻类、短视频类、直播类等。各种业务形态差异大,对平台的通用化要求高。
  3. 实时性要求高:内容分享平台的核心系统有个性化推荐、广告计费、风控等业务,业务上要实现精细化运营,对数据的实时性要求更高。

解决方案

1 内容.jpg

在内容资讯行业,实时计算 Flink 版的典型使用场景:

  1. 实时数仓:数据 ETL 及实时指标计算,Flink Batch 提供异构数据源互导功能。Flink SQL,大大简化计算模型,降低用户使用 Flink 的门槛。
  2. 实时机器学习平台:实时特征处理,样本拼接,为下游机器学习模型训练准备数据。
  3. 实时风控和实时安全:Flink CEP 提供基于 Event 的规则配置功能,简单易上手。
  4. 广告系统:广告平台实时数仓建设,广告实时计费系统以及广告算法部分的数据预处理。
  5. 运营团队:活动运营监控,如实时监控红包发放状态来调整发放策略。

成功案例

字节跳动

客户简介

北京字节跳动科技有限公司成立于 2012 年 3 月,是最早将人工智能应用于移动互联网场景的科技企业之一。公司以建设“全球创作与交流平台”为愿景,是目前国内最大的内容分享平台,其应用程序包括:

  • 今日头条
  • 抖音短视频(抖音短视频火山版)
  • Tiktok
  • 西瓜视频
  • 懂车帝

分布于多个行业领域,发展势头非常迅猛。

业务需求

在字节跳动内部,实时计算的使用场景:

  1. 实时数仓:

    1. 用户行为日志清洗和解析
    2. 用 Flink SQL 构建实时数仓,实时指标计算
    3. 使用 Flink Batch 进行异构数据源导入导出
  2. 风控和安全团队:

    1. 使用 Flink CEP 进行规则判断
  3. 机器学习

    1. 数据预处理
    2. 正负样本拼接
    3. 模型训练的资源调度
  4. 广告:

    1. 广告算法部分使用场景包括数据预处理、样本拼接
    2. 广告平台,使用 Flink 构建实时数仓
  5. 视频团队

    1. 实时指标监控系统
    2. 运营活动监控(控制红包发放等)

技术架构

2.jpg

业务结果

字节跳动引入 Flink 已经有3年时间,支持了核心业务的实时需求,目前字节跳动内部 Flink 应用规模:

  • 5+ Yarn 集群,机器规模达到 10000+
  • 作业数 2000+
  • 用户 300+
  • 支持数十个产品,包括今日头条,抖音,火山小视频等核心产品

未来展望

Flink 在字节跳动数据处理链路的作用将会越来越大,为了更好的支持各类业务方,未来我们对 Flink 的规划:

  1. Flink Streaming:推动 Flink 作业 Docker 化,支持 Flink Job 横向扩展
  2. Flink SQL:

    1. 未来一年,推动 Flink SQL 任务达到 50%
    2. 探索 Streaming/Batch 新的使用场景
  3. Flink Batch:

    1. 推测执行,提升稳定性
    2. Flink Gelly 支持全图离线计算应用场景

实时计算 Flink 版产品交流群

test

阿里云实时计算Flink - 解决方案:
https://developer.aliyun.com/article/765097
阿里云实时计算Flink - 场景案例:
https://ververica.cn/corporate-practice
阿里云实时计算Flink - 产品详情页:
https://www.aliyun.com/product/bigdata/product/sc

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

一套基于Apache Flink构建的一站式、高性能实时大数据处理平台,广泛适用于流式数据处理、离线数据处理、DataLake计算等场景。

官方博客
链接