当「内容科技企业」遇上多模数据库:新榜采用Lindorm打造全域数据“超级底盘”

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
简介: 新榜业务以数据服务提升内容产业信息流通效率,其数据处理需求聚焦于跨平台实时数据融合处理、实时分析检索、批量更新效率三大维度。Lindorm通过多模超融合架构,提供检索分析一体化、多引擎数据共享,分布式弹性扩展等能力,成为支撑新榜内容服务的核心引擎,助力客户在内容生态竞争中持续领跑。

新榜作为数据驱动的头部内容科技公司,覆盖了全平台、各层级的新媒体资源,提供内容营销、直播电商、培训运营、版权分发等服务,以内容服务新媒体产业。新榜基于微信、抖音、小红书、B站、快手等主流内容平台,提供完善的数据工具,为用户带来实时热门素材、品牌声量、直播电商等全面的数据监测分析能力,同时提供基于多平台新媒体数据的企业级数据服务。


在具体应用上,新榜平台提供了实时内容排行榜、全站内容检索、多标签组合筛选以及热门内容主动推送等功能。面对着多应用的全域数据整合需求、众多新媒体从业者的多样化使用场景,平台需要存储多类型的数据(如作品内容、评论、弹幕、点赞数等),面临着海量数据存储、实时分析处理和高并发批量更新及查询的多重技术挑战。

01.png

图1 新榜平台首页

1. 数据时代的新媒体内容管理痛点

原技术方案解析

02.png

图2 新榜原内容数据管理方案


新榜在原方案中通过搭配Elasticsearch、在线分析库和离线处理库实现业务需求,其中Elasticsearch承接了点查和多维检索需求,在线分析库承接报表生成和聚合查询的需求,离线处理库则负责数据的批量处理。


这套架构承载着作品、创作者、话题等多维度的数据存储,以及多维度的关联查询和聚合查询,并且由于包含了大量的点赞数、评论数等实时内容,还需要每日更新大量数据。

▶︎ 业务核心需求与挑战

在使用原方案的过程中,业务面临着性能瓶颈及成本问题:


  • Elasticsearch入库性能差:业务员系统每日承接4000万+条新作品数据写入和2亿+作品/日的批量拉取和更新需求,面临着显著的写入性能瓶颈,峰值时段时倒排索引构建延迟达5秒。
  • 在线分析库更新能力差:高频更新时延迟极高,大数据量的多表聚合操作依赖预计算临时表。
  • 架构复杂导致数据冗余:同一份数据在多个系统存储多份,存储成本高,资源利用率低。
  • 多组件运维和开发复杂度高:需要运维多组件并完成数据链路的搭建。新业务需求需适配多端接口,开发周期与成本成倍增长。


作为国内领先的新媒体内容平台,新榜的业务存在着以下关键需求:

  • 海量更新与批量分析:支持每秒万行级别数据更新、千万级别数据量和低延迟的实时分析。
  • 灵活查询:
  • 多维过滤,例如查找出粉丝量在1w以上,地域在上海,粉丝标签为母婴的抖音博主;
  • 去重聚合,例如如热度排行版产出时的数值统计;
  • Join分析,例如用户表join作品详情表联合分析;
  • 其他查询需求。
  • 成本优化:降低存储与计算资源消耗,减少数据同步维护的成本。

2. Lindorm多模融合方案应对

03.png

图3 新榜采用Lindorm一体化方案


阿里云瑶池旗下的云原生多模数据库Lindorm作为多模融合的一体化平台,涵盖了宽表、搜索、列存和计算的能力,对标客户原先ES+分析库+离线处理库的架构。

image.png

图4 Lindorm多引擎方案对标原方案


通过使用Lindorm的一体化方案,业务在使用过程中可以做到对下层引擎无感知,只需要通过统一入口查询,命令就会自动解析路由到各引擎,并直接返回结果数据。

客户价值

▶︎ 无痛迁移,灵活开发

Lindorm提供兼容Elasticsearch开源协议和MySQL协议的接口,业务可以灵活选择,搭配使用,从而降低开发成本。

  • 对于新榜平台的新业务,通过统一的Lindorm SQL接口对多个引擎进行调用,实现数据的高效写入和查询,这种方式更加简单易用,降低了开发和维护的复杂度。
  • 对于新榜在Elasticsearch上的存量业务,业务代码可以保留ES API的用法,直接丝滑迁移到Lindorm,无需进行改造。

04.png

图5 Lindorm的统一SQL入口

▶︎ 去除冗余,降低成本

Lindorm的多个引擎使用统一的冷热分离存储层,原始数据只需存一份,同时建立多份索引,支持查询自动回查和整合。新榜使用原方案时,全量数据需要分别在Elasticsearch、在线分析库和离线处理库存一份,造成了200%的冗余数据,存储成本高,而Lindorm的一体化方案仅需存储一份原始数据

  • 完整数据统一存储在宽表引擎内,Lindorm支持按照冷热分割线进行底层数据的自动冷热分离,极致降低存储成本;查询时则会自动查询冷热两边的数据,业务侧无感知。
  • 对于需要进行多维检索和轻量聚合的数据列,建立搜索索引,并存储在搜索引擎内。
  • 对于需要进行分析和大数据量聚合的数据列,建立列存索引,并存储在列存引擎内。

05.png

图6 Lindorm存储层支持自动冷热分离

▶︎ 超高性能,降本增效

Lindorm的宽表引擎由HBase演变而来,经过Lindorm团队的多年打磨,能够支持千万级别并发写入和点查,分担搜索库压力,同时通过深度优化的压缩降低存储成本。

  • Lindorm的宽表引擎能够高效应对频繁更新和大批量数据拉取的场景,与新榜原先使用的Elasticsearh相比,Lindorm宽表的高并发写入能力和点查性能有数量级的提升。Lindorm宽表支持每秒千万级别的并发写入/更新/查询,完全分布式的设计支持架构无限横向扩展,满足了新榜每日大批量数据更新和根据作品id、用户id等主键字段高并发点查的需求。
  • 宽表引擎使用深度优化的ZSTD压缩算法,相较于常见数据库,可以将存储空间降低至50%,从而有效降低存储成本。

06.png

图7 Lindorm通过超高压缩率降低存储成本

▶︎ 多模融合,高效统一

Lindorm打造多模统一的开发体验,业务无需关心各个引擎间的数据链路,Lindorm内部保证引擎间的数据一致性和同步效率。Lindorm帮助新榜免去在原Elasticsearch、在线分析库和离线处理库间的链路搭建和运维工作。

  • 在Lindorm内部,从宽表到搜索、宽表到列存的数据同步链路通过索引建立自动搭建,列存到宽表的数据链路则通过SQL命令完成。业务侧无需关心链路及数据一致性问题,从而降低了日常运维成本,新业务接入更加敏捷快速。
  • 按需建立索引后,客户侧视图为一张大宽表,部分列可点查,部分列可多维检索和全文检索,部分列可进行实时分析和批处理,可直接进行查询和完整结果返回。

07.png

图8 Lindorm提供统一的查询和分析体验

3. Lindorm多模数据库介绍

08.png

图9 Lindorm多模一体架构


Lindorm是面向海量泛时序、半结构化和非结构化数据提供低成本存储、在线查询、搜索分析等一站式数据服务,兼容MySQL协议、HBase、ES、Hive、Spark、HDFS等开源标准。提供宽表、搜索、时序、向量等数据模型,适用于多行业多场景,典型场景有车联网的一站式平台、高并发写入和点查场景(替换HBase)、DB+搜索一站式场景、AI智能搜索场景等。


Lindorm已服务于阿里集团淘宝、支付宝等核心业务十余年,充分打磨了产品稳定性和高性能。目前集团外部深度使用Lindorm的客户有小米、理想、携程、申通、月之暗面、莉莉丝等行业头部客户。

4. 总结

新榜业务以数据服务提升内容产业信息流通效率,其数据处理需求聚焦于跨平台实时数据融合处理、实时分析检索、批量更新效率三大维度。Lindorm通过多模超融合架构,提供检索分析一体化、多引擎数据共享,分布式弹性扩展等能力,成为支撑新榜内容服务的核心引擎,助力客户在内容生态竞争中持续领跑。

相关文章
|
1月前
|
存储 SQL 运维
当「内容科技企业」遇上多模数据库:新榜采用Lindorm打造全域数据“超级底盘”
新榜业务以数据服务提升内容产业信息流通效率,其数据处理需求聚焦于跨平台实时数据融合处理、实时分析检索、批量更新效率三大维度。Lindorm通过多模超融合架构,提供检索分析一体化、多引擎数据共享,分布式弹性扩展等能力,成为支撑新榜内容服务的核心引擎,助力客户在内容生态竞争中持续领跑。
|
1月前
|
SQL 运维 监控
数据库国产化选型?YashanDB 给中大型企业的五个答案
近两年,“国产数据库”成为企业数字化升级的重要议题。YashanDB作为新一代国产关系型数据库,以完整产品矩阵解决企业核心关切:通过图形化工具提升开发效率;提供自动化迁移平台简化数据库切换;云管理工具减轻运维负担;支持复杂业务场景;拥有成熟团队保障企业级服务。YashanDB不仅是“可替代”,更是“更可靠”的选择,助力企业实现高效、可控的数据库升级。
|
1月前
|
Cloud Native 关系型数据库 MySQL
华鼎冷链科技 × 阿里云瑶池数据库,打造全链路协同的智慧冷链新标杆
从 PolarDB 的高性能数据库服务到 AnalyticDB 的强大数据分析,阿里云提供的丰富产品矩阵为华鼎冷链科技构建了全面的解决方案,推动华鼎冷链科技从成本中心向效率中心转型。
|
3月前
|
存储 人工智能 运维
内附源码|头部基模企业信赖之选——DMS+Lindorm智能搜索方案
内附源码|头部基模企业信赖之选——DMS+Lindorm智能搜索方案
|
4月前
|
传感器 安全 物联网
时序数据库TDengine + MQTT :车联网时序数据库如何高效接入
现代新能源汽车配备大量传感器,产生海量数据需上报至车联网平台。TDengine作为时序大数据平台,支持MQTT协议,可轻松实现车辆状态、位置及用户行为数据的实时采集与分析,提升驾驶体验和安全保障。通过简单的Web界面配置,无需编写代码,即可完成从MQTT到TDengine的数据接入。整个过程包括注册TDengine Cloud、创建数据库、安装代理插件、新增数据源、配置解析规则等步骤,快速实现数据同步。
129 2
|
5月前
|
存储 安全 数据管理
时序数据库TDengine 与中移软件达成兼容性互认证,推动虚拟化云平台与时序数据库的深度融合
在数字化转型和智能化升级的浪潮下,企业对数据的需求日益增长,尤其是在物联网、大数据和实时分析等领域。随着设备数量的激增,时序数据的管理和处理变得愈发复杂,企业亟需高效、稳定的数据解决方案来应对这一挑战。时序数据库作为专门处理时间序列数据的工具,正逐渐成为各行业数字化转型的重要支撑。
113 4
|
4月前
|
SQL 数据挖掘 关系型数据库
阿里云百炼|析言GBI全新发布:联合云上数据库,助力企业轻松实现ChatBI
析言GBI是阿里云推出的一款基于AI的智能数据分析产品,通过自然语言处理实现对话式数据分析。用户无需编写代码,即可轻松进行数据查询、分析和可视化。该产品支持多种数据库连接方式(如MySQL、PostgreSQL等),并提供多版本选择以适应不同业务需求。即将发布的动态规划BI分析功能将进一步提升复杂问题的拆解与综合分析能力。欢迎访问阿里云百炼应用广场体验析言GBI,并享受200次免费问题额度。
|
16天前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
2月前
|
关系型数据库 MySQL Java
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
|
16天前
|
存储 关系型数据库 MySQL
大数据新视界 --面向数据分析师的大数据大厂之 MySQL 基础秘籍:轻松创建数据库与表,踏入大数据殿堂
本文详细介绍了在 MySQL 中创建数据库和表的方法。包括安装 MySQL、用命令行和图形化工具创建数据库、选择数据库、创建表(含数据类型介绍与选择建议、案例分析、最佳实践与注意事项)以及查看数据库和表的内容。文章专业、严谨且具可操作性,对数据管理有实际帮助。
大数据新视界 --面向数据分析师的大数据大厂之 MySQL 基础秘籍:轻松创建数据库与表,踏入大数据殿堂