2022云栖精选—Lindrom多模融合: 让海量数据存得起,看得见

本文涉及的产品
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: 张为阿里巴巴集团研究员/NoSQL产品部负责人

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.pngimage.png

过去20多年,互联网电商业务数据经历了快速增长,从传统处理结构化数据的OLTP数据库时代过渡到处理海量半结构化、非结构化数据的互联网业务平台新时代。新时代对大容量、高性能、低成本的海量数据处理平台的需求急速增长。

针对阿里巴巴电商业务,尤其是双十一数据海量增长和快速处理分析的需求,阿里巴巴开始自研数据库技术。2009年,Tair1.0内存数据库上线,支撑了电商交易的核心企业场景,在数十亿的QPS峰值下时延保持亚毫秒级别;2011年,Lindorm1.0数据库平台上线,支撑了阿里巴巴全系列业务在线大数据场景,在百PB存储下保持毫秒访问和极致低成本。

今天,随着网络技术进步以及对传感器技术的深入使用,各行各业数字化推进使得海量大数据的生产呈现出与以往更不一样的特征,同时对于高性能、低成本、大容量NoSQL数据库系统需求增加。

因此,阿里巴巴将诞生于电商互联网平台的大数据技术,以LindormTair为代表,结合阿里云上计算环境,推出一系列云上NoSQL数据库产品。2019年,阿里云与MongoDB强强联手,推出云上文档数据库;2020年,自研海量多模数据库Lindorm在阿里云正式上线;2022年,自研内存数据库Tair在阿里云正式上线。

image.png

 

Lindorm的诞生记录了数据库针对时代场景的挑战和变迁。

70年代开始,数据库的技术发展经历了三个阶段,第一个阶段以关系型数据库为代表,主要支撑企业和政府的关键业务数据。以处理结构化数据为主,处理的级别在GB级别,OracleDB2MySQL等都是常见的关系数据库产品。

2000年开始,随着互联网技术的发展,更多的业务对数据的管理和分析提出不一样的挑战。日志和文档等不同类型数据的产生,使得存储和处理半结构化数据、非结构化数据的非关系型数据库蓬勃发展,BigtableMongoDBRedisElasticSearch等都是非关系型数据库的典型代表,数据生产达到TB级别。

当下,随着万物数字化和各类传感器飞速发展,IDC预测到2025年全世界90%的数据将是以传感器生产的IoT数据为主。该数据的类型丰富多样,包括各式各样的传感器数据,例如图片、声音、GPS等,数据量可达到EB级别。因此,需要能够融合处理海量异构数据,并且提供极致低成本的原生多模数据库,这就是Lindorm诞生的原因。

image.png


Lindorm具备三个特性:

第一:Lindorm是一种多模超融合的数据,云原生地支持各种异构数据类型,包括半结构化和非结构化数据,如宽表、时序、时空等。Lindorm存储多种异构数据的同时,还能实现数据的在线分析和在线检索,向用户提供统一SQL接口。

第二:性能和成本的极致平衡。Lindorm是云原生的数据模型,它是典型的存储计算分离架构,可以让存储和计算事件实现独立弹性伸缩。Lindorm可无缝集成多种不同类型的存储,如对象存储、云盘存储、本地物理盘存储,还能综合管理不同类型存储服务的IO、性能及成本。针对海量数据在Lindorm的存储,Lindorm通过对数据冷热进行识别和分离,将不同级别的数据自适应到不同类型的存储上。以上特性让Lindorm实现高性能的同时降低了成本。

第三:Lindorm具备开源生态兼容的特性,可全面兼容各种开源体系,用户可零成本适配,支持HBaseCassandraOpenTSDBS3HDFSKafka等多种接口,使云下的大数据负载低成本、无缝地迁移至云上的多模数据库生态。


image.png

Lindorm多模融合架构分为三层。

第一层为存储融合主要解决海量数据在云原生大数据环境下存储效率问题,能够将云上存储能力无缝融合,降低用户对海量数据的管理和存储成本。针对新时代产生海量数据,Lindorm作为云原生模数据库,能够无缝地帮助用户管理多种不同层级存储介质,包括本地盘云盘云上对象存储等,用户可以将多种存储介质无缝呈现在一个存储池里,可根据特性自动多种异构数据分配到不同存储介质上。

同时Lindorm完全云原生的分布式文件系统作为底座,能够独立弹性扩缩存储容量。我们将不同存储介质能力Lindorm数据的负载做了自动适配,能够在不同级别上支持高效压缩与编码。比如,可以通过纠删码EC算法,将副本冗余系数降低至1.25,可以根据自适应压缩算法,最小化数据的存储。

image.png

第二层为结构融合。

用户在管理多组异构IoT或者万物互联网数据时,能够无缝地将多种异构数据通过一个平台系统进行管理,从而解决运维效率复杂度的问题。比如针对时序、时空数据,用户往往需要采用不同大数据系统针对每种负载独立构建数据服务在应用层将多种数据服务交互进行统一管理。Lindorm提供了灵活表格模型,比如Lindorm宽表既能支持传统关系型数据库Schema结构化数据,也可以通过增加动态链,向文档灵活增加Schema结构数据。宽表类型模型之外,Lindorm还支持多种其他异构数据存储引擎,比如支持JSON实时读取与处理,支持时序数据的融合分析,以及支持非结构化数据  Blob类型存储调用

通过将多种异构数据在一个数据库系统进行综合管理用户将无需分别构建多种数据库系统,大幅降低了用户对于海量异构数据运维管理成本,简化了用户系统架构。

image.png

第三层为多种负载计算融合,解决用户在处理分析多种异构数据时需要综合运用到多种计算能力以及开发复杂系统应用问题。

通过Lindorm底下内置多种数据分析引擎,比如传统Lindorm宽表引擎数据搜索引擎时空分析引擎批量离线计算引擎等分别处理不同类型异构数据同时无缝拉齐各种数据链路,使得异构数据可以流转被引擎拉起的多种异构数据进行融合分析。

传统开发模式需要构建多个数据服务,需要与多个数据服务器进行复杂交互,通过Lindorm SQL引擎,用户只需Lindorm一个系统打交道,极大简化开发数据应用成本,大幅提高开发效率。

image.png

Lindorm能够融合多种特性云上存储介质,能够智能识别用户在不同的负载里冷热数据的访问模式。Lindorm能够智能识别用户对于冷热数据的需求,将不同的冷热数据分散到不同存储介质上。可以用快速压缩算法将热数据存储到高性能存储介质上,经过智能识别以后可以实现冷热数据的转换,将数据进行深度压缩,最大化降低用户存储成本同时最大化用户的性能。

以上一切工作均在存储引擎内部完成用户无需手动分别处理冷数据与热数据。

image.png

Lindorm实现了SearchIndex加速检索分析。

数据写入以后进入宽表引擎用户只需经过简单配置,即可启动Lindorm搜索引擎,用户写入数据创建全量与增量索引用户无需再额外构建一套搜索服务,也无需将数据流转,可以在内部完成全局内容检索,大幅简化了用户应用开发流程。

 

image.png

物联网时代最典型应用是车联网数据,无数汽车无时无刻不在向车联网数据中心上传车机数据包括车辆运行状态时空位置车辆摄头以及雷达数据,数据量极大并且具有明显的异构特征而我们可以通过Lindorm提供的不同引擎,在同一个系统中处理与分析不同类型的车联网数据,大幅简化车联网应用的开发流程,开发、运维的效率均有大幅提升。

image.png

可观测场景下的数据包括tracingloggingmetrics等几种不同类型,传统方式下,我们需要使用不同的数据处理系统针对几种不同类型数据进行处理,比如tarcing需要使用宽表数据库,logging使用搜索引擎,metrics使用时序数据库。而有了Lindorm后,通过一个系统即可对三种数据统一进行融合管理与处理并且无需区分三种系统,无需使用三种不同接口与语言交互,只需统一使用SQL即可一站式完成监测场景应用开发。

image.png

Lindorm提供了HBase平滑迁移方案。通过高速数据通道LTS能够将客户已经建立HBase集群双向同步与迁移至云上Lindorm数据库。并且Lindorm支持使用HBase客户端或Lindorm客户端无缝访问迁移到Lindorm的数据,且存储成本降低50%,性能吞吐提高300%

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
6月前
|
存储 人工智能 文件存储
云栖速递,面向大规模数据智能的阿里云存储创新
云栖速递:面向大规模数据智能的阿里云存储创新
1470 2
云栖速递,面向大规模数据智能的阿里云存储创新
|
存储 人工智能 自然语言处理
悦数图数据库:图技术加速行业大模型智能化应用落地|WAIC 2023 精彩回顾
7月8日,以“智联世界,生成未来”为主题的 2023 世界人工智能大会(WAIC)在上海顺利闭幕,悦数图数据库最新版本 v3.5.0在大会上首次亮相,并带来了悦数图数据库与 AI 大模型结合的实践成果分享,获得现场观众及媒体的广泛关注。
悦数图数据库:图技术加速行业大模型智能化应用落地|WAIC 2023 精彩回顾
|
人工智能 编解码 开发工具
专场来袭,深度解读阿里云视频云的全智能进化
7.28,LiveVideoStackCon阿里云视频云专场
264 0
专场来袭,深度解读阿里云视频云的全智能进化
|
存储 SQL 人工智能
贾扬清演讲实录:阿里云一体化大数据智能平台的演进丨2022云栖一体化大数据智能峰会
贾扬清在一体化大数据智能峰会论坛上分享立足于数据这个领域,数据和智能之间创新的火花。
贾扬清演讲实录:阿里云一体化大数据智能平台的演进丨2022云栖一体化大数据智能峰会
|
机器学习/深度学习 人工智能 编解码
火山引擎 技术开年:视频云与AI的两翼齐飞
火山引擎 技术开年:视频云与AI的两翼齐飞
|
存储 人工智能 运维
QCon大会精彩分享:数据湖、可观测、自动驾驶训练,阿里云存储独家技术详解与案例实践!
QCon 全球软件开发大会是由极客邦科技旗下 InfoQ 中国主办的综合性技术盛会,每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。自2007年3月份开始举办以来,已经有超万名有多年从业经验的技术人员参加过QCon大会。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向5年以上工作经验的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。
1085 2
QCon大会精彩分享:数据湖、可观测、自动驾驶训练,阿里云存储独家技术详解与案例实践!
|
物联网 时序数据库 计算机视觉
《物联网数据运营之路-时序数据库物联网模型探究》电子版地址
物联网数据运营之路-时序数据库物联网模型探究
121 0
《物联网数据运营之路-时序数据库物联网模型探究》电子版地址
|
Cloud Native 数据管理 OLAP
|
存储 运维 Cloud Native
阿里云新品发布会周刊第137期 丨 企业级视频制作新范式,重塑生产流程
新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多新品发布会!
482 0
阿里云新品发布会周刊第137期 丨  企业级视频制作新范式,重塑生产流程
|
边缘计算 缓存 Kubernetes
阿里云新品发布会周刊第95期 丨云计算情报局带您解密实时数仓
您是否正面临传统数仓架构复杂、数据同步难、资源消耗大、开发成本高、数据孤岛、人才培养难等问题?云上实时数仓应该如何做技术选型?又应该如何解决现有的数据问题呢? 现在预约直播,看支撑阿里内外部业务场景实时数仓是如何运作的?云计算情报局带您解密实时数仓!
593 0
阿里云新品发布会周刊第95期 丨云计算情报局带您解密实时数仓