2022云栖精选—Lindrom多模融合: 让海量数据存得起,看得见

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介: 张为阿里巴巴集团研究员/NoSQL产品部负责人

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.pngimage.png

过去20多年,互联网电商业务数据经历了快速增长,从传统处理结构化数据的OLTP数据库时代过渡到处理海量半结构化、非结构化数据的互联网业务平台新时代。新时代对大容量、高性能、低成本的海量数据处理平台的需求急速增长。

针对阿里巴巴电商业务,尤其是双十一数据海量增长和快速处理分析的需求,阿里巴巴开始自研数据库技术。2009年,Tair1.0内存数据库上线,支撑了电商交易的核心企业场景,在数十亿的QPS峰值下时延保持亚毫秒级别;2011年,Lindorm1.0数据库平台上线,支撑了阿里巴巴全系列业务在线大数据场景,在百PB存储下保持毫秒访问和极致低成本。

今天,随着网络技术进步以及对传感器技术的深入使用,各行各业数字化推进使得海量大数据的生产呈现出与以往更不一样的特征,同时对于高性能、低成本、大容量NoSQL数据库系统需求增加。

因此,阿里巴巴将诞生于电商互联网平台的大数据技术,以LindormTair为代表,结合阿里云上计算环境,推出一系列云上NoSQL数据库产品。2019年,阿里云与MongoDB强强联手,推出云上文档数据库;2020年,自研海量多模数据库Lindorm在阿里云正式上线;2022年,自研内存数据库Tair在阿里云正式上线。

image.png

 

Lindorm的诞生记录了数据库针对时代场景的挑战和变迁。

70年代开始,数据库的技术发展经历了三个阶段,第一个阶段以关系型数据库为代表,主要支撑企业和政府的关键业务数据。以处理结构化数据为主,处理的级别在GB级别,OracleDB2MySQL等都是常见的关系数据库产品。

2000年开始,随着互联网技术的发展,更多的业务对数据的管理和分析提出不一样的挑战。日志和文档等不同类型数据的产生,使得存储和处理半结构化数据、非结构化数据的非关系型数据库蓬勃发展,BigtableMongoDBRedisElasticSearch等都是非关系型数据库的典型代表,数据生产达到TB级别。

当下,随着万物数字化和各类传感器飞速发展,IDC预测到2025年全世界90%的数据将是以传感器生产的IoT数据为主。该数据的类型丰富多样,包括各式各样的传感器数据,例如图片、声音、GPS等,数据量可达到EB级别。因此,需要能够融合处理海量异构数据,并且提供极致低成本的原生多模数据库,这就是Lindorm诞生的原因。

image.png


Lindorm具备三个特性:

第一:Lindorm是一种多模超融合的数据,云原生地支持各种异构数据类型,包括半结构化和非结构化数据,如宽表、时序、时空等。Lindorm存储多种异构数据的同时,还能实现数据的在线分析和在线检索,向用户提供统一SQL接口。

第二:性能和成本的极致平衡。Lindorm是云原生的数据模型,它是典型的存储计算分离架构,可以让存储和计算事件实现独立弹性伸缩。Lindorm可无缝集成多种不同类型的存储,如对象存储、云盘存储、本地物理盘存储,还能综合管理不同类型存储服务的IO、性能及成本。针对海量数据在Lindorm的存储,Lindorm通过对数据冷热进行识别和分离,将不同级别的数据自适应到不同类型的存储上。以上特性让Lindorm实现高性能的同时降低了成本。

第三:Lindorm具备开源生态兼容的特性,可全面兼容各种开源体系,用户可零成本适配,支持HBaseCassandraOpenTSDBS3HDFSKafka等多种接口,使云下的大数据负载低成本、无缝地迁移至云上的多模数据库生态。


image.png

Lindorm多模融合架构分为三层。

第一层为存储融合主要解决海量数据在云原生大数据环境下存储效率问题,能够将云上存储能力无缝融合,降低用户对海量数据的管理和存储成本。针对新时代产生海量数据,Lindorm作为云原生模数据库,能够无缝地帮助用户管理多种不同层级存储介质,包括本地盘云盘云上对象存储等,用户可以将多种存储介质无缝呈现在一个存储池里,可根据特性自动多种异构数据分配到不同存储介质上。

同时Lindorm完全云原生的分布式文件系统作为底座,能够独立弹性扩缩存储容量。我们将不同存储介质能力Lindorm数据的负载做了自动适配,能够在不同级别上支持高效压缩与编码。比如,可以通过纠删码EC算法,将副本冗余系数降低至1.25,可以根据自适应压缩算法,最小化数据的存储。

image.png

第二层为结构融合。

用户在管理多组异构IoT或者万物互联网数据时,能够无缝地将多种异构数据通过一个平台系统进行管理,从而解决运维效率复杂度的问题。比如针对时序、时空数据,用户往往需要采用不同大数据系统针对每种负载独立构建数据服务在应用层将多种数据服务交互进行统一管理。Lindorm提供了灵活表格模型,比如Lindorm宽表既能支持传统关系型数据库Schema结构化数据,也可以通过增加动态链,向文档灵活增加Schema结构数据。宽表类型模型之外,Lindorm还支持多种其他异构数据存储引擎,比如支持JSON实时读取与处理,支持时序数据的融合分析,以及支持非结构化数据  Blob类型存储调用

通过将多种异构数据在一个数据库系统进行综合管理用户将无需分别构建多种数据库系统,大幅降低了用户对于海量异构数据运维管理成本,简化了用户系统架构。

image.png

第三层为多种负载计算融合,解决用户在处理分析多种异构数据时需要综合运用到多种计算能力以及开发复杂系统应用问题。

通过Lindorm底下内置多种数据分析引擎,比如传统Lindorm宽表引擎数据搜索引擎时空分析引擎批量离线计算引擎等分别处理不同类型异构数据同时无缝拉齐各种数据链路,使得异构数据可以流转被引擎拉起的多种异构数据进行融合分析。

传统开发模式需要构建多个数据服务,需要与多个数据服务器进行复杂交互,通过Lindorm SQL引擎,用户只需Lindorm一个系统打交道,极大简化开发数据应用成本,大幅提高开发效率。

image.png

Lindorm能够融合多种特性云上存储介质,能够智能识别用户在不同的负载里冷热数据的访问模式。Lindorm能够智能识别用户对于冷热数据的需求,将不同的冷热数据分散到不同存储介质上。可以用快速压缩算法将热数据存储到高性能存储介质上,经过智能识别以后可以实现冷热数据的转换,将数据进行深度压缩,最大化降低用户存储成本同时最大化用户的性能。

以上一切工作均在存储引擎内部完成用户无需手动分别处理冷数据与热数据。

image.png

Lindorm实现了SearchIndex加速检索分析。

数据写入以后进入宽表引擎用户只需经过简单配置,即可启动Lindorm搜索引擎,用户写入数据创建全量与增量索引用户无需再额外构建一套搜索服务,也无需将数据流转,可以在内部完成全局内容检索,大幅简化了用户应用开发流程。

 

image.png

物联网时代最典型应用是车联网数据,无数汽车无时无刻不在向车联网数据中心上传车机数据包括车辆运行状态时空位置车辆摄头以及雷达数据,数据量极大并且具有明显的异构特征而我们可以通过Lindorm提供的不同引擎,在同一个系统中处理与分析不同类型的车联网数据,大幅简化车联网应用的开发流程,开发、运维的效率均有大幅提升。

image.png

可观测场景下的数据包括tracingloggingmetrics等几种不同类型,传统方式下,我们需要使用不同的数据处理系统针对几种不同类型数据进行处理,比如tarcing需要使用宽表数据库,logging使用搜索引擎,metrics使用时序数据库。而有了Lindorm后,通过一个系统即可对三种数据统一进行融合管理与处理并且无需区分三种系统,无需使用三种不同接口与语言交互,只需统一使用SQL即可一站式完成监测场景应用开发。

image.png

Lindorm提供了HBase平滑迁移方案。通过高速数据通道LTS能够将客户已经建立HBase集群双向同步与迁移至云上Lindorm数据库。并且Lindorm支持使用HBase客户端或Lindorm客户端无缝访问迁移到Lindorm的数据,且存储成本降低50%,性能吞吐提高300%

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
分布式计算 Kubernetes Spark
米哈游大数据云原生实践
近年来,容器、微服务、Kubernetes 等各项云原生技术的日渐成熟,越来越多的公司开始选择拥抱云原生,并开始将 AI、大数据等类型的企业应用部署运行在云原生之上。以 Spark 为例,在云上运行 Spark 可以充分享有公共云的弹性资源、运维管控和存储服务等,并且业界也涌现了不少 Spark 。
|
存储 Cloud Native 大数据
实时分析、融合统一及云原生,现代化数据仓库未来发展必经之路|专访飞轮科技 CEO 马如悦
Apache Doris 历经近十年的发展,为何还能持续保持竞争力和活力?其背后的核心推动力又是什么?
|
NoSQL 数据库
今日,迈进NoSQL技术自研无人区
阿里云NoSQL数据库峰会,有奖观看,无型无限,无束可能。
今日,迈进NoSQL技术自研无人区
|
Cloud Native 数据管理 OLAP
|
分布式计算 DataWorks Cloud Native
2022阿里云大数据公开课第一季 — 云原生一体化数仓产品新能力解读
为培育专业化、场景化的大数据解决方案,构建多层次的工业互联网平台、建设行业的大数据平台,阿里云整合自研大数据产品MaxCompute、DataWorks、Hologres,提出云原生一体化数仓,为企业提供一站式大数据处理平台。
709 0
2022阿里云大数据公开课第一季 — 云原生一体化数仓产品新能力解读
|
分布式计算 DataWorks Cloud Native
阿里云云原生一体化数仓入选 2022数博会“十佳大数据案例”
2022年5月26日,中国国际大数据产业博览会(以下简称“数博会”)在贵阳召开,数博会“十佳大数据案例”揭晓,阿里云云原生一体化数仓入选。阿里云云原生一体化数仓可以解决企业在建设大数据平台中对时效性、准确性、性价比、非结构化数据处理,通过精简的架构,支撑分析决策、异构大数据平台之上的全域数据分析需求。
|
数据库 Cloud Native
11.19直播预告|市值700亿美金:云上数据仓库snowflake成功之道
介绍snowflake的商业模式和产品架构,分享云上数仓技术趋势,展望云原生数据仓库发展
1548 0
11.19直播预告|市值700亿美金:云上数据仓库snowflake成功之道
|
边缘计算 缓存 Kubernetes
阿里云新品发布会周刊第95期 丨云计算情报局带您解密实时数仓
您是否正面临传统数仓架构复杂、数据同步难、资源消耗大、开发成本高、数据孤岛、人才培养难等问题?云上实时数仓应该如何做技术选型?又应该如何解决现有的数据问题呢? 现在预约直播,看支撑阿里内外部业务场景实时数仓是如何运作的?云计算情报局带您解密实时数仓!
608 0
阿里云新品发布会周刊第95期 丨云计算情报局带您解密实时数仓
|
存储 SQL 机器学习/深度学习
“后红海”时代,大数据体系到底是什么?-中篇
介绍大数据体系的领域九大架构。
|
存储 达摩院 Cloud Native
这次我们憋了一个大招!助力每个企业拥有属于自己的云原生数据仓库!
云原生开启新篇章,未来数据库将迈入云原生时代。
1264 0
这次我们憋了一个大招!助力每个企业拥有属于自己的云原生数据仓库!