TiDB 助力一面数据实现消费领域的决策分析平台

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介:
+关注继续查看

2017年架构师最重要的48个小时 | 8折倒计时

深圳市一面网络技术有限公司(下称:一面数据)是一家为消费领域的领导企业提供实时、精准、全面的数据洞察和决策指导的创新型企业,利用人工智能和算法,进行自然语言处理,语义情感分析,回归预测模型等,帮助客户实现精准产品运营和预测市场变化。一面数据服务于国内外一流企业,包括世界最大的对冲基金、国际一线汽车品牌、快消品龙头厂商,以及时尚鞋服大牌等。

一、改造前系统架构

一面数据的核心 IT 系统覆盖了从数据获取、数据清洗处理、数据建模到数据可视化的全套数据分析流程。核心系统每天有海量从互联网采集的公开数据和来自企业内部的数据,对数据存储的容量、扩展性和可用性都有很高的要求。

起初,一面数据的核心系统采用的是多个 MySQL 实例和一个 Cassandra 集群。MySQL 多实例集群主要存储指定特征的爬虫数据,Cassandra 主要存储数据量大、不适合存储 MySQL 的全页面缓存的数据。在数据量/请求量小的时候系统运行正常。下图为:一面数据改造前系统构架图

一面数据改造前系统构架图

随着数据量的增长,逐渐暴露出很多问题:

  • MySQL:随着数据增长,存储容量接近单机的磁盘极限,单机的磁盘 IO 繁忙且易阻塞,查询性能难以满足业务增长的需求。数据量大了以后,传统的 MySQL 水平扩展能力弱,性能和稳定性容易产生问题,在数据量和访问量增长到一定阶段将无法满足常见的 OLAP 场景分析需求。技术团队通过诊断系统性能问题,认识到现有数据库已经成为瓶颈。
  • Cassandra:Cassandra 对磁盘 IO 和内存要求高,添加一个实例,需要从其他实例迁数据,对网络带宽、 磁盘要求特别高。另外 CQL 支持的特性太少,业务开发麻烦,例如不能联表,不支持主键之外的索引,对主键以外的查询比较困难,虽然有 Secondary Index,但是使用限制大。生态圈不完善,例如很难找到好用的监控。

二、改造后的系统架构 - 引入 TiDB 替换 MySQL 和 Cassandra

为从根本上解决以上问题,一面数据的技术团队决定通过增加部署一套高性能的数据库系统,以解决当前业务的痛点。 在评估和验证了 MySQL Sharding 和 MongoDB 等传统技术手段之后,团队认识到:基于 MySQL Sharding (即利用 MySQL 中间件分库分表) 架构在高可用安全能力,业务和查询的灵活支持以及运维管理难度和成本上都不尽如人意,有着诸多架构上和技术上的缺陷;而 MongoDB 比较适合存储爬虫数据,但迁移成本高,不管是数据还是应用程序都需要做侵入性修改和调整,难度和开发成本骤升。另外,作为 NoSQL 数据库,MongoDB 不支持 SQL 和 JOIN ,对 BI 工具的支持也不完善,数据分析师们无法直接使用。 最终从满足业务需求、降低切换成本和减少运维成本等角度考虑,一面数据选择了分布式关系型数据库-TiDB 作为业务的首选事务型数据库。

TiDB 支持包括跨行事务,JOIN 及子查询在内的绝大多数 MySQL 的语法,用户可以直接使用现有的 MySQL 客户端连接。如果现有的业务已经基于 MySQL 开发,大多数情况不需要修改代码即可直接替换单机的 MySQL。同时现有的大多数 MySQL 运维工具(如 PHPMyAdmin, Navicat, MySQL Workbench 等),以及备份恢复工具(如 mysqldump, mydumper / myloader)等都可以在 TiDB 直接使用,这也让开发运维人员不用关注数据库 scale 的细节问题,专注于业务开发,极大的提升研发的生产力。下图为:一面数据改造后系统构架图

一面数据改造后系统构架图

一面数据的生产环境部署了数十个 TiKV 节点及几个 TiDB 节点。迁移原有 MySQL 集群数据时使用 Percona 的 mydumper 以及 TiDB 专有优化的 loader 工具,逐个爬虫进行迁移。目前 TiDB 集群存储了接近数十 TB 的数据,把另外几个应用迁移完成后将会每日新增近亿条记录。

完成迁移以后,系统不再需要维护多个 MySQL 实例以及 Cassandra 集群,运维成本大幅缩减,监控使用 Prometheus/Grafana,并且可以通过 Prometheus 的 AlertManager 定制规则复杂的报警规则。这些改变都让一面数据的爬虫存储侧的工作便利许多,可以让一面数据的研发把精力更多放在业务研发而不是运维多个不同技术栈的复杂集群。

三、未来的架构规划

目前 TiDB 新增了 TiSpark 组件,并且在 TiKV 层实现了 Spark 的下推算子,使得可以直接在 TiDB 集群上跑 Spark 程序,这样可以省去 ETL 的步骤。后续一面数据也考虑深入使用 TiSpark 组件,让一面数据的整个系统增加一定的实时复杂查询的能力。长远来看,可以把现在 ElasticSearch,Impala,Hive 的业务都迁移到 Spark 集群上,这样一方面统一了分析侧的技术栈,另一方面连接了 Spark 丰富庞大的生态。下图为:一面数据未来系统构架图

一面数据未来系统构架图

在一面数据 CTO 张锦杰看来:“ TiDB 水平扩展性、兼容 MySQL 是非常好的特性,对需要使用关系型数据库作为存储方案的业务有极大的诱惑力,避免了传统分表、分库方案带来的上层应用的复杂性,解决了我们目前迫切的关系型数据存储的需求。”


本文作者:申砾

来源:51CTO

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
3月前
|
存储 Cloud Native 数据可视化
定义现代化实时数据仓库,SelectDB 全新产品形态全面发布
飞轮科技与阿里云瑶池数据库已经达成战略合作关系,飞轮科技在9月25日的线上发布会上正式发布 SelectDB 全新产品形态
|
12月前
|
人工智能 数据可视化 物联网
实现数据驱动的消费场景 一云多端应用引擎发布
重新构建线下消费的“人、货、场”,全新的技术带来全新的体验。
202 1
实现数据驱动的消费场景 一云多端应用引擎发布
|
SQL 存储 运维
诺亚财富 X Hologres : 统一OLAP分析引擎,全面打造金融数字化分析平台
本文将会介绍诺亚财富从自建CDH迁移上阿里云,统一OLAP分析引擎,打造金融数字化分析平台的最佳实践
1778 0
诺亚财富 X Hologres : 统一OLAP分析引擎,全面打造金融数字化分析平台
|
SQL 存储 缓存
应用实践 | 10 亿数据秒级关联,货拉拉基于 Apache Doris 的 OLAP 体系演进
货拉拉成立于 2013 年,成长于粤港澳大湾区,是一家从事同城、跨城货运、企业版物流服务、搬家、汽车销售及车后市场服务的互联网物流公司。截至 2022 年 4 月,货拉拉的业务范围已经覆盖了国内 352 座城市,月活司机达到 58 万,月活用户达到 760 万,包含 8 条以上的业务线。 货拉拉大数据体系为支撑公司业务,现在已经成立三个 IDC 集群、拥有上千台规模的机器数量,存储量达到了 20PB、日均任务数达到了 20k 以上,并且还处在快速增长的过程中
571 0
|
SQL 存储 分布式计算
Hologres共享集群助力淘宝订阅极致精细化运营
通过本文我们将会介绍,Hologres共享集群如何助力淘宝订阅系统进行精细化运营。
574 0
Hologres共享集群助力淘宝订阅极致精细化运营
|
存储 SQL 分布式计算
小迈科技 X Hologres:高可用的百亿级广告实时数仓建设
通过本文,我们将会介绍小迈科技如何通过Hologres搭建高可用的实时数仓。
小迈科技 X Hologres:高可用的百亿级广告实时数仓建设
|
存储 SQL 运维
从阿里核心场景看实时数仓的发展趋势
随着2021年双11的完美落幕,实时数仓技术在阿里双11场景也经历了多年的实践和发展。从早期的基于不同作业的烟囱式开发,到基于领域分层建模的数仓引入,再到分析服务一体化的新型融合式一站式架构,开发效率逐步提升,数据质量更有保证,也沉淀了更多技术创新,让我们看到了一些未来数仓开发、应用的可能性和趋势。下面我们来聊聊从阿里双11看到的实时数仓发展的一些趋势。
从阿里核心场景看实时数仓的发展趋势
|
存储 运维 监控
CCO x Hologres:实时数仓高可用架构再次升级,双11大规模落地
CCO x Hologres:实时数仓高可用架构再次升级,双11大规模落地
1090 0
CCO x Hologres:实时数仓高可用架构再次升级,双11大规模落地
|
SQL 分布式计算 搜索推荐
基于 MaxCompute 构建 Noxmobi 全球化精准营销系统| 学习笔记
快速学习基于 MaxCompute 构建 Noxmobi 全球化精准营销系统
126 0
|
存储 Cloud Native 关系型数据库
金融数据智能峰会 | 数据规模爆炸性增长,企业如何进行精准决策?云原生数据仓库数据化运营实战分享
在日前的2021阿里云金融数据智能峰会——《云原生驱动数智化运营的“增长黑马”》专场上,阿里云数据库资深技术专家魏闯先 从数据价值链路角度切入,为大家解读云原生数据仓库如何支撑数据化运营、全链路营销和阿里集团双11业务,并展示金融客户最佳实践案例和应用场景。本文内容根据演讲录音及PPT整理而成。
545 0
金融数据智能峰会 | 数据规模爆炸性增长,企业如何进行精准决策?云原生数据仓库数据化运营实战分享
推荐文章
更多