新榜作为数据驱动的头部内容科技公司,覆盖了全平台、各层级的新媒体资源,提供内容营销、直播电商、培训运营、版权分发等服务,以内容服务新媒体产业。新榜基于微信、抖音、小红书、B站、快手等主流内容平台,提供完善的数据工具,为用户带来实时热门素材、品牌声量、直播电商等全面的数据监测分析能力,同时提供基于多平台新媒体数据的企业级数据服务。
在具体应用上,新榜平台提供了实时内容排行榜、全站内容检索、多标签组合筛选以及热门内容主动推送等功能。面对着多应用的全域数据整合需求、众多新媒体从业者的多样化使用场景,平台需要存储多类型的数据(如作品内容、评论、弹幕、点赞数等),面临着海量数据存储、实时分析处理和高并发批量更新及查询的多重技术挑战。
图1 新榜平台首页
1. 数据时代的新媒体内容管理痛点
原技术方案解析
图2 新榜原内容数据管理方案
新榜在原方案中通过搭配Elasticsearch、在线分析库和离线处理库实现业务需求,其中Elasticsearch承接了点查和多维检索需求,在线分析库承接报表生成和聚合查询的需求,离线处理库则负责数据的批量处理。
这套架构承载着作品、创作者、话题等多维度的数据存储,以及多维度的关联查询和聚合查询,并且由于包含了大量的点赞数、评论数等实时内容,还需要每日更新大量数据。
▶︎ 业务核心需求与挑战
在使用原方案的过程中,业务面临着性能瓶颈及成本问题:
- Elasticsearch入库性能差:业务员系统每日承接4000万+条新作品数据写入和2亿+作品/日的批量拉取和更新需求,面临着显著的写入性能瓶颈,峰值时段时倒排索引构建延迟达5秒。
- 在线分析库更新能力差:高频更新时延迟极高,大数据量的多表聚合操作依赖预计算临时表。
- 架构复杂导致数据冗余:同一份数据在多个系统存储多份,存储成本高,资源利用率低。
- 多组件运维和开发复杂度高:需要运维多组件并完成数据链路的搭建。新业务需求需适配多端接口,开发周期与成本成倍增长。
作为国内领先的新媒体内容平台,新榜的业务存在着以下关键需求:
- 海量更新与批量分析:支持每秒万行级别数据更新、千万级别数据量和低延迟的实时分析。
- 灵活查询:
- 多维过滤,例如查找出粉丝量在1w以上,地域在上海,粉丝标签为母婴的抖音博主;
- 去重聚合,例如如热度排行版产出时的数值统计;
- Join分析,例如用户表join作品详情表联合分析;
- 其他查询需求。
- 成本优化:降低存储与计算资源消耗,减少数据同步维护的成本。
2. Lindorm多模融合方案应对
图3 新榜采用Lindorm一体化方案
阿里云瑶池旗下的云原生多模数据库Lindorm作为多模融合的一体化平台,涵盖了宽表、搜索、列存和计算的能力,对标客户原先ES+分析库+离线处理库的架构。
图4 Lindorm多引擎方案对标原方案
通过使用Lindorm的一体化方案,业务在使用过程中可以做到对下层引擎无感知,只需要通过统一入口查询,命令就会自动解析路由到各引擎,并直接返回结果数据。
客户价值
▶︎ 无痛迁移,灵活开发
Lindorm提供兼容Elasticsearch开源协议和MySQL协议的接口,业务可以灵活选择,搭配使用,从而降低开发成本。
- 对于新榜平台的新业务,通过统一的Lindorm SQL接口对多个引擎进行调用,实现数据的高效写入和查询,这种方式更加简单易用,降低了开发和维护的复杂度。
- 对于新榜在Elasticsearch上的存量业务,业务代码可以保留ES API的用法,直接丝滑迁移到Lindorm,无需进行改造。
图5 Lindorm的统一SQL入口
▶︎ 去除冗余,降低成本
Lindorm的多个引擎使用统一的冷热分离存储层,原始数据只需存一份,同时建立多份索引,支持查询自动回查和整合。新榜使用原方案时,全量数据需要分别在Elasticsearch、在线分析库和离线处理库存一份,造成了200%的冗余数据,存储成本高,而Lindorm的一体化方案仅需存储一份原始数据:
- 完整数据统一存储在宽表引擎内,Lindorm支持按照冷热分割线进行底层数据的自动冷热分离,极致降低存储成本;查询时则会自动查询冷热两边的数据,业务侧无感知。
- 对于需要进行多维检索和轻量聚合的数据列,建立搜索索引,并存储在搜索引擎内。
- 对于需要进行分析和大数据量聚合的数据列,建立列存索引,并存储在列存引擎内。
图6 Lindorm存储层支持自动冷热分离
▶︎ 超高性能,降本增效
Lindorm的宽表引擎由HBase演变而来,经过Lindorm团队的多年打磨,能够支持千万级别并发写入和点查,分担搜索库压力,同时通过深度优化的压缩降低存储成本。
- Lindorm的宽表引擎能够高效应对频繁更新和大批量数据拉取的场景,与新榜原先使用的Elasticsearh相比,Lindorm宽表的高并发写入能力和点查性能有数量级的提升。Lindorm宽表支持每秒千万级别的并发写入/更新/查询,完全分布式的设计支持架构无限横向扩展,满足了新榜每日大批量数据更新和根据作品id、用户id等主键字段高并发点查的需求。
- 宽表引擎使用深度优化的ZSTD压缩算法,相较于常见数据库,可以将存储空间降低至50%,从而有效降低存储成本。
图7 Lindorm通过超高压缩率降低存储成本
▶︎ 多模融合,高效统一
Lindorm打造多模统一的开发体验,业务无需关心各个引擎间的数据链路,Lindorm内部保证引擎间的数据一致性和同步效率。Lindorm帮助新榜免去在原Elasticsearch、在线分析库和离线处理库间的链路搭建和运维工作。
- 在Lindorm内部,从宽表到搜索、宽表到列存的数据同步链路通过索引建立自动搭建,列存到宽表的数据链路则通过SQL命令完成。业务侧无需关心链路及数据一致性问题,从而降低了日常运维成本,新业务接入更加敏捷快速。
- 按需建立索引后,客户侧视图为一张大宽表,部分列可点查,部分列可多维检索和全文检索,部分列可进行实时分析和批处理,可直接进行查询和完整结果返回。
图8 Lindorm提供统一的查询和分析体验
3. Lindorm多模数据库介绍
图9 Lindorm多模一体架构
Lindorm是面向海量泛时序、半结构化和非结构化数据提供低成本存储、在线查询、搜索分析等一站式数据服务,兼容MySQL协议、HBase、ES、Hive、Spark、HDFS等开源标准。提供宽表、搜索、时序、向量等数据模型,适用于多行业多场景,典型场景有车联网的一站式平台、高并发写入和点查场景(替换HBase)、DB+搜索一站式场景、AI智能搜索场景等。
Lindorm已服务于阿里集团淘宝、支付宝等核心业务十余年,充分打磨了产品稳定性和高性能。目前集团外部深度使用Lindorm的客户有小米、理想、携程、申通、月之暗面、莉莉丝等行业头部客户。
4. 总结
新榜业务以数据服务提升内容产业信息流通效率,其数据处理需求聚焦于跨平台实时数据融合处理、实时分析检索、批量更新效率三大维度。Lindorm通过多模超融合架构,提供检索分析一体化、多引擎数据共享,分布式弹性扩展等能力,成为支撑新榜内容服务的核心引擎,助力客户在内容生态竞争中持续领跑。