2022云栖精选—AnalyticDB MySQL 湖仓版在B站的最佳实践

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,8核32GB 100GB 1个月
简介: 陈浩哔哩哔哩Bilibili资深数据开发专家

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

一、公司及业务介绍

image.png

猫耳FM是哔哩哔哩旗下专注于二次元ACG音频赛道的一款APP应用,对标喜马拉雅、网易云音乐、荔枝FM。平台内容包括中日广播剧、有声漫画、有声小说、电台、声优直播、配音活动等二次元及泛二次元音频内容。

其主要业务是与相关作品版权方合作,将国内市场火热的IP制作成广播剧、火山漫画等音频形式,最后由用户在平台上进行付费收听,完成商业闭环。

image.png

目前,该平台每月数据增长量将近8TB。平台通过数据为产品及运营决策提供支持。例如,运营部门需要客户活跃、留存率、 APP停留时长、付费转化率等指标指导日常运营决策;财务部门需要月度、年度的周期性支出及营收情况,用于对账、审计;产品部门则需要数据进行A/B测试,评估不同产品方案效果。

其次,搭建推荐系统需要基于用户的搜索、点击、收听、付费等行为构建用户画像,并向用户推荐广播剧、主播等。

最后,在业务运行过程中还会经常会遇到一些用户恶意行为,需要进行风控拦截,比如IOS用户充值退款问题,账号出租共享行为以及活动期间的刷榜行为等。

直接在业务路上进行分析会导致业务库CPU飙升,影响业务,造成请求响应超时,页面加载不出来等问题。

随着数据量的增长、报表需求的增多,直接在业务路上进行聚合分析的方式已经行不通,需要搭建专门的OA系统作为技术支撑。


二、历史架构及挑战

image.png

2018 年,该平台搭建了离线数仓,并使用该数仓进行实时在线分析。但由于是首次构建,技术能力有限,该数仓处于摸索阶段,暂时解决了短期爆款输出的问题。

该历史架构存在的问题比较明显,一是分析时效性差,部分离线ETL任务无法在T+1内运行完成,依赖这些任务的下游节点报表产出也发生滞后。另外一些日志数据导入到离线数仓的过程中,数据的拷贝超过24小时。

另外资源无弹性。凌晨时段是任务运行高峰期,但由于机器人数量固定,大量任务推进等待程序调动,CPU处于满负荷运行状态,任务无法及时运行完成。统计用户年度收听报告期间,统计用户最长收音时段数据的任务运行超过24小时,产品验收测试进度滞后。

最后运维成本高。服务故障时,需要进行数据排查报重并进行修复。其维护过程中数据开发及BI系统中断需要一个小时以上,遇到比较异常的主线问题时,系统不可用往往会持续一天以上的时间。


三、湖仓版架构及优势

image.png

将离线数仓迁移到ADB湖仓版主要基于以下几个优势。

首先,ADB湖仓版可以根据任务繁忙程度对资源进行弹性伸缩。离线ETL任务主要发生在0点到5点,这段时间资源需求高,资源弹性可以使资源更充足,避免任务因为等待资源而大量堆积。另外进行临时的修复数据时,根据资源需求进行弹性伸缩,及时释放资源,降低使用成本。

另外,测试分析、收益统计,需要实时反映最新的收益情况。但由于合作方的分成模式比较复杂,会有按固定比例分成按订单量梯度分成按时间梯度分成。使用离线数仓处理达不到实时要求,在线分析性能存在统计的瓶颈。

ADB通过DTS数据传输服务,数据入仓后可以实现一份数据同时在线分析和离线处理的需求,订单数据可以实现毫秒级增删改,面对查询时能在数秒内完成响应,极大提高时效性。

最后,ADB可根据数据扫描量自动优化执行模式,智能选择执行模式,加速任务的运行。

image.png

ADB时效性高,可用于在线特性。猫耳FM业务中,除收益统计后台需要实时分析反映最新的交易情况,在广播剧的打赏主板中也用到了这一特性。

在广播剧打赏主板,基于ADB应对复杂查询的特性,榜单的更新周期从小时级别提高到秒级,提高客户参与积极性,提升用户的停留时长及付费转化率。

另外,在直播业务中,平台可以对中奖概率进行实时监控。如果中奖的概率超出预设值,运营可以及时收到报警的通知,进行调整或下架,控制成本收益。

这一特性也用于监测活动期间的刷榜行为,直播间管理人员可以及时予以处置,避免榜单排名的异常变动。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
16天前
|
SQL 分布式计算 关系型数据库
实时数仓 Hologres产品使用合集之湖仓加速版查询maxcompute外部表,有什么优化途径吗
实时数仓Hologres的基本概念和特点:1.一站式实时数仓引擎:Hologres集成了数据仓库、在线分析处理(OLAP)和在线服务(Serving)能力于一体,适合实时数据分析和决策支持场景。2.兼容PostgreSQL协议:Hologres支持标准SQL(兼容PostgreSQL协议和语法),使得迁移和集成变得简单。3.海量数据处理能力:能够处理PB级数据的多维分析和即席查询,支持高并发低延迟查询。4.实时性:支持数据的实时写入、实时更新和实时分析,满足对数据新鲜度要求高的业务场景。5.与大数据生态集成:与MaxCompute、Flink、DataWorks等阿里云产品深度融合,提供离在线
|
15天前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库AnalyticDB产品使用合集之如何修改云ADB MySQL版的默认LIMIT
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
52 21
|
11天前
|
SQL 存储 关系型数据库
精通MySQL:从基础到高级应用与最佳实践
第一章:MySQL基础入门 1.1 MySQL概述 介绍MySQL的历史、发展、优势以及应用领域
|
15天前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库AnalyticDB产品使用合集之是否支持mysql_fdw 和clickhousedb_fdw外部数据包装器
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
112 4
|
15天前
|
监控 Cloud Native 关系型数据库
云原生数据仓库AnalyticDB产品使用合集之如何更新、删除和导入AnalyticDBMySQL数据
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
28天前
|
存储 关系型数据库 MySQL
AnalyticDB MySQL新购页面融合升级,提供企业版购买选项
AnalyticDB MySQL新购页面升级,现推出企业版和基础版,不再区分湖仓版和数仓版。企业版(集群模式)和基础版(单机模式)融合了弹性模式和预留模式的功能,提供资源隔离、弹性扩展及高性能查询,适合开发测试和生产环境,而基础版适用于小规模测试,不推荐用于生产环境。
AnalyticDB MySQL新购页面融合升级,提供企业版购买选项
|
11天前
|
关系型数据库 MySQL 数据库
精通MySQL:数据库管理、性能优化与最佳实践
h3> 一、引言 MySQL是一个功能强大的开源关系型数据库管理系统,广泛应用于各种Web应用、企业级应用和数据分析等领域
|
14天前
|
消息中间件 关系型数据库 MySQL
Flink CDC 最佳实践(以 MySQL 为例)
Flink CDC 最佳实践(以 MySQL 为例)
|
1月前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之在DataWorks中,查看ODPS表的OSS对象如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
43 1
|
1月前
|
分布式计算 DataWorks MaxCompute
DataWorks产品使用合集之在DataWorks中,将数据集成功能将AnalyticDB for MySQL中的数据实时同步到MaxCompute中如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
44 0

热门文章

最新文章

相关产品

  • 云原生数据仓库AnalyticDB MySQL版