让拆库拆表见鬼去吧! MySQL 扩展新玩法

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: 随着数据量的激增,单机数据库存不下了,怎么办?这几乎是所有互联网公司都会遇到的问题。在过去,一直没有一个优雅的解决方案从根本上解决传统关系型数据库扩展性问题,而通常的做法是业务层要把代码改个遍,如果业务上已经用了 MySQL ,没有办法,只能去拆库拆表,动中间件,而这个过程对 DBA 是痛苦的,就算不死也要脱层皮。最近,一款国人主导开发的开源数据库项目在国内外混的风生水起,不仅在 GitHub 上被推到了 Go Trending 的头条,并且累积 Star 数已近 10000。而在国内,它在被技术爱好者模仿 DB-Engine 制作出的国产数据库排行榜中,位居第二,它就是开源分布式关系型数据

随着数据量的激增,单机数据库存不下了,怎么办?这几乎是所有互联网公司都会遇到的问题。在过去,一直没有一个优雅的解决方案从根本上解决传统关系型数据库扩展性问题,而通常的做法是业务层要把代码改个遍,如果业务上已经用了 MySQL ,没有办法,只能去拆库拆表,动中间件,而这个过程对 DBA 是痛苦的,就算不死也要脱层皮。
最近,一款国人主导开发的开源数据库项目在国内外混的风生水起,不仅在 GitHub 上被推到了 Go Trending 的头条,并且累积 Star 数已近 10000。而在国内,它在被技术爱好者模仿 DB-Engine 制作出的国产数据库排行榜中,位居第二,它就是开源分布式关系型数据库TiDB 。

▲ PingCAP 联合创始人兼 CTO 黄东旭

本期访谈嘉宾: PingCAP 联合创始人兼 CTO 黄东旭。热爱画画,美剧,摇滚乐,但更爱写代码的狂热开源爱好者,知名开源软件作者,代表作品分布式 Redis 缓存方案 Codis ,以及分布式关系型数据库 TiDB 。

  与黄东旭的会面一波三折,因为各自时间原因及突发事件,最终采访约定在了 PingCAP驻地,东升科技园晚上 19 点。其实,因为 DTCC 大会的关系,虽然很早,我就与作为大会嘉宾的他互添了微信,但与他真正见面,这却是头一次。

  夜幕下的园区少了些许喧嚣,清静了许多。刚走进入 PingCAP 公司的大门,我一眼就看到了横躺在地下摆弄手中平板电脑的他,身为 CTO 的他,似乎并不太在自己的形象,反而和员工打成一片。长发、T恤、牛仔裤,与微信中的照片一模一样,似乎任何时候,他都是这副打扮,识别率非常高。

  PingCAP 公司并不大,工位也不多,虽然已经是晚上 7 点早该下班了,但还有些工位上依然还有人在办公,脸上还洋溢着笑容,丝毫看不出加班的郁闷与不爽,有的小声交谈,有的敲击键盘,有的在拨打电话订餐,似乎在家中办公那样轻松自在,一股非常纯粹浓郁的工程师文化向我扑面而来。

  黄东旭告诉我,公司目前大概有 50 多人,其中八成是工程师,并有三分之一的同事是分散在祖国各地,公司在北京、上海、广州均有办公室。作为崇尚开源精神的公司,上班不需要打卡,并允许员工在家办公,远程办公,氛围自由而开放。两个小时的采访过程中,爱写程序技术出身的他,在谈到数据库技术时,眼中充满了狂热的光芒。

TiDB 诞生源自 MySQL 扩展的切肤之痛

  事实上,无论是在前东家微软、网易,还是豌豆荚,黄东旭一直都在从事与基础软件领域相关的工作,如分布式存储和分布式系统,在这个过程中他敏锐的观察到,传统关系型数据库扩展性痛点,而这源自经常拆库拆表的他,有着切肤之痛。

  随着数据量的激增,单机数据库存不下了,怎么办?这几乎是所有互联网公司都会遇到的问题。但在过去,一直没有一个优雅的解决方案从根本上解决传统关系型数据库扩展性问题,通常的做法是业务层要把代码改个遍,如果业务上已经用了 MySQL ,没有办法,只能去拆库拆表,动中间件,而这个过程对 DBA 是痛苦的,就算不死也要脱层皮。既然没有优雅的解决方案,那为什么我们不做一个?黄东旭反问自己。创业的动机由此而生,

  并与另外两个创始人刘奇、崔秋一拍即合,

  PingCAP 的 TiDB 在此基础上诞生了。

  TiDB 最初的灵感来自于 Google Spanner/F1 论文, 有了理论基础,想法很快就落地成产品,并取名 TiDB ,Ti 是元素周期表中的一种元素,高端金属材料,既轻又结实。在黄东旭看来,Ti能充分体现数据库很多特点,而且还很轻,不像 Hadoop 那样重。

  TiDB 与 MySQL 完全兼容,MySQL 应用无需修改便可直接运行。支持包括传统 RDBMS 和 NoSQL 的特性,可以随着数据增长而无缝水平扩展,只需要通过增加更多的机器来满足业务增长需求,应用层可以不用关心存储的容量和吞吐。用他的话说就是“会自生长”。

TiDB火爆开源社区,定位决定高度!

  技术出身的黄东旭,同时也具备产业判断的视野和格局。中国不缺好的工程师,中国人一样可以做出世界一流的产品。而其中的关键,在于切入方向的选择,而不是工程师的问题。他认为,眼光,一定要放眼全球。而最触动我的一句话:“定位,决定了你能达到的高度,当在这个领域已经有了很多非常强壮的竞争对手,而且成为了一个事实标准,你是很难搬搬倒对方的,先入为主,先得天下为王。”

  大数据时代到来,随着数据量爆发式的增长,数据库这层的基础设施却并没有跟上,这给了 PingCAP 一个很好的机会。分布式数据库技术由于其优良的线性横向扩展能力和良好的故障隔离性,近几年也受到了普遍关注。市场上不仅出现了很多新兴的分布式数据库引擎,老牌的数据库也在分布式技术上投入重兵,加紧部署。但这些分布式解决方案都是商业的,并且这一领域还没有形成一个事实的标准,除了积累外,这是 PingCAP 切入这一领域的主要理由,更为关键的是,优雅的开源分布式关系型数据库解决方案目前一个都没有,这在黄东旭看来就是填补空白的机会。

  而他与他的团队坚信,TiDB 具备成为一个事实标准的潜质,其次是这个方向的用户足够多。他直言不讳道, MySQL 的用户理论上都会是其客户,这个天花板足够高,市场足够大。

开源才是基础软件出路

  选择开源这条路,并不是赶时髦也不是一时冲动,黄东旭有着自己的理解和洞察,在谈到为何 TiDB 会选择开源这种方式时,他说。基础软件领域闭源并不是最好的选择,如果是闭源的,需要铺很大的销售团队,去让客户了解你。开源能让客户更容易了解你,更多地 touch 到你的用户,并在生产环境中去磨练你的产品。他特别强调,开源并不是等于免费,开源只是让用户能快速的了解我们的产品。

  TiDB 能成为 GitHub 上的明星项目,似乎在黄东旭意料之中,较为淡然,之所以能在国内国外取得好的反响,他认为,不仅是 TiDB 本身理论比较新,解决了企业及广大传统关系型数据库扩展的痛点,更为关键的是, PingCAP 是在认真的做这件事情。

  在谈到应用案例时,黄东旭说,目前,已经有上市QQ号码卖号平台游戏公司在大规模的采用 TiDB 来作为其游戏端存储和大数据分析的平台,在金融行业,如征信方面,也有客户大数据平台跑在TiDB 上。但他并没有透露具体客户名称。

独家揭秘,TiDB 今年 2 大重要更新!

  在谈到 TiDB 今年计划和重大更新时,黄东旭透露,大的功能特性主要有 2 个:

  一、 TiDB 将会深度对接 Spark SQL , Spark SQL 可以说是目前互联网数据实时分析标准方案,深度对接后,用户就可以用 Spark SQL 在 TiDB 上做数据的查询,这并不是把数据简单的倒腾到 Spark 里面,而是在存储引擎上,让 Spark SQL 把它的执行计划推下来,然后做分布式计算,这的好处在于,一份存储,多个可插拔查询引擎( TiDB / Spark SQL ),既可以用 TiDB 这边 MySQL 协议查询,同时可以用Spark作分析,增强了 TiDB 在 OLAP 上分析场景上的能力。

  二、添加文档型数据的使用接口支持, MySQL 在 5.7.12的 xplugin 里面的 document store ,类似 MongoDB 访问 MySQL ,不需要建表,类似 Schema 特性, TiDB 也将添加了类似的支持。

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
2月前
|
SQL 监控 关系型数据库
MySQL 延迟从库介绍
本文介绍了MySQL中的延迟从库功能,详细解释了其工作原理及配置方法。延迟从库允许从库在主库执行完数据变更后延迟一段时间再同步,主要用于快速恢复误操作的数据。此外,它还可用于备份、离线查询及数据合规性需求。通过合理配置,可显著提升数据库系统的稳定性和可靠性。
126 4
|
2月前
|
SQL 关系型数据库 MySQL
MySQL操作利器——mysql-connector-python库详解
MySQL操作利器——mysql-connector-python库详解
517 0
|
6天前
|
关系型数据库 MySQL
mysql 5.7.x版本查看某张表、库的大小 思路方案说明
mysql 5.7.x版本查看某张表、库的大小 思路方案说明
27 5
|
7天前
|
SQL DataWorks 关系型数据库
阿里云 DataWorks 正式支持 SelectDB & Apache Doris 数据源,实现 MySQL 整库实时同步
阿里云数据库 SelectDB 版是阿里云与飞轮科技联合基于 Apache Doris 内核打造的现代化数据仓库,支持大规模实时数据上的极速查询分析。通过实时、统一、弹性、开放的核心能力,能够为企业提供高性价比、简单易用、安全稳定、低成本的实时大数据分析支持。SelectDB 具备世界领先的实时分析能力,能够实现秒级的数据实时导入与同步,在宽表、复杂多表关联、高并发点查等不同场景下,提供超越一众国际知名的同类产品的优秀性能,多次登顶 ClickBench 全球数据库分析性能排行榜。
|
11天前
|
关系型数据库 MySQL
mysql 5.7.x版本查看某张表、库的大小 思路方案说明
mysql 5.7.x版本查看某张表、库的大小 思路方案说明
22 1
|
24天前
|
存储 关系型数据库 MySQL
PACS系统 中 dicom 文件在mysql 8.0 数据库中的 存储和读取(pydicom 库使用)
PACS系统 中 dicom 文件在mysql 8.0 数据库中的 存储和读取(pydicom 库使用)
20 2
|
1月前
|
Oracle 关系型数据库 MySQL
shell获取多个oracle库mysql库所有的表
请注意,此脚本假设你有足够的权限访问所有提到的数据库。在实际部署前,请确保对脚本中的数据库凭据、主机名和端口进行适当的修改和验证。此外,处理数据库操作时,务必谨慎操作,避免因错误的脚本执行造成数据损坏或服务中断。
38 0
|
3月前
|
监控 关系型数据库 MySQL
mysql误删的performance_schema库
`performance_schema`库是MySQL性能监控的重要工具,误删除后可以通过上述方法尝试恢复。在操作过程中,重启MySQL服务器是最简单的尝试方法。如果这不起作用,可以尝试使用MySQL的初始化选项,但请注意备份数据以防数据丢失。检查MySQL配置也是一个好的步骤,以确保 `performance_schema`没有被禁用。最后,如果有备份,通过恢复备份来恢复 `performance_schema`库是最保险的方法。在操作过程中,确保遵循最佳实践和操作前备份重要数据。
142 5
|
3月前
|
SQL 关系型数据库 MySQL
MySQL主从:延时从库恢复全解
MySQL主从:延时从库恢复全解
|
3月前
|
存储 关系型数据库 MySQL
深入解析 MySQL 中的扩展
【8月更文挑战第31天】
49 0
下一篇
无影云桌面