智能分析的所见即所得——基于Lambda架构的实时数据引擎

简介: 在刚刚结束的“2019智能决策峰会”上,观远数据重磅发布了观远智能分析平台2.0版本。高性能实时数据引擎作为备受瞩目的功能,得到了大家的广泛认可。下面就让我们一起来了解下基于Lambda架构的观远实时数据解决方案。

在刚刚结束的“2019智能决策峰会”上,观远数据重磅发布了观远智能分析平台2.0版本。高性能实时数据引擎作为备受瞩目的功能,得到了大家的广泛认可。下面就让我们一起来了解下基于Lambda架构的观远实时数据解决方案

BI与实时数据

随着商业领域中的业务场景越来越复杂,更实时、更大量的数据正在被不断生产出来,如何将这些实时的海量数据高效的进行处理就变成了一个挑战。一般而言,传统BI只能支持T+1天时效延迟的数据决策,数据处理过程以ETL为主,实时数据处理存在天然缺陷;但新一代BI增加了更多样化数据源的导入存储,支持了更灵活的数据处理方式与更敏捷的数据处理时效,在合理规划服务器计算资源的前提下,新一代BI可以支持准实时、甚至分钟级实时数据的更新展示。可见,数据实时化已成为新一代BI的显著优势。

Lambda架构

作为新一代BI的典型代表,观远数据基于Lambda架构设计了一套高性能的实时数据引擎,那么什么是Lambda架构呢?

Lambda架构是一套通用的的实时大数据处理框架,其作者Nathan Marz基于对数据和查询的本质认识,整合了离线计算与实时计算,融合了不可变性、读写分离和复杂性隔离等一系列架构原则,从而设计出能满足实时大数据系统关键特性(如高容错、低延时、可扩展等)的Lambda架构。

Lambda架构的核心思想是将大数据处理系统划分为三层:Batch Layer、 Real-Time(Speed) Layer以及Serving Layer,从而将实时任务与批处理任务很好地结合起来,最终实现对大数据的实时处理。

  • Batch Layer:批处理层。该层可以很好的处理离线数据,在数据集上预先聚合好实时查询所需要数据的历史部分,从而得到Batch View。
  • Real-Time(Speed) Layer:加速层。该层可以处理最新的增量数据流,不断将数据以时间维度增量聚合到Real-Time View。
  • Serving Layer :服务层。用于响应用户的查询请求,可以合并Batch View和Real-time View中的数据到最终的展示结果。

_jpeg

Guandata实时引擎

在观远智能分析平台1.0时代,观远数据可以提供两种准实时数据解决方案,但他们都存在一些不足。

用户在创建直连数据库的数据集时,可选择“支持实时卡片数据”。数据集版本有效时间将会缩小为10分钟,用户基于该数据集进行数据查询展示时,可达到准实时的效果。但这种处理方式对业务库会造成较大压力,且无法实现多源数据融合。

_

Guan-Index类型的数据集可支持最高每天四次的更新频率,按此频率抽取到观远平台上来的数据,通过ETL可以实现与其他数据源的融合。相比于上一种方案,这种方案虽然突破了对于数据来源的限制,但一方面数据更新频率受到限制,另一方面ETL运行也会占掉大量的计算资源从而导致系统性能受到影响。

_

在观远智能分析平台2.0版本中,观远数据推出了最新一代的实时数据引擎,通过汲取Lambda架构的精髓,将历史数据与实时数据进行分开处理,既能够实现多源数据的融合,又可以支持增量更新且占用较少的计算资源。该方案最终不仅可以进行简单的数据实时更新与展示,还可以支持复杂的计算与分析(比如零售场景中常用的同环比指标以及累计指标的实时运算)。

_

下面以门店维度的销售指标监控为例,列举了实时数据分析的典型场景:

  • 门店经理通常需要关注当日每时每刻的业务KPI,但他关注的实时指标很有可能分散在不同的数据来源中(比如销售额、客流量);
  • 除了实时销售额以外,门店经理还会关注销售额的实时累计值,用来衡量本周累计完成的营业额是否已经达标,甚至会关心当前门店在整个区域乃至整个公司目前的销售额排名是什么水平,更复杂一点,如果能随时了解当前销售额到与昨天/上周同一时段相比的同环比变化,那就最好了;
  • 当然,门店经理关注的数据并非都是需要实时更新的,还会有一些相对静态的附加信息,例如门店基础信息、门店当天的目标营业额等。

实时数据的展示与融合

在观远实时数据解决方案中,通过多数据源的融合,对于门店经理关注的销售额以及客流量,都可以实现高频次的聚合与实时展示。

_

实时数据的复杂计算

零售行业中比较关注的累计值、排名、同环比,这些基于实时指标的二次分析与计算,在观远实时数据解决方案中也都可以得到完满的解决。


_
_2
_VS_

附加信息的展示

观远实时引擎同样可以通过数据融合的方式将附加信息添加为实时数据集的静态数据来源,从而进一步在可视化时进行展示。

_

Guandata实时数据引擎突破了观远1.0时代数据更新频率以及运算能力的限制,显著降低了数据从产生到消费的端到端时延,最终完美支持了实时的数据更新响应与极高频次的数据运算。

作为区别于传统BI的一大亮点,观远实时数据解决方案的应用场景还有很多,我们致力于把实时数据对于数据分析的价值发挥到极致。您在使用过程中遇到什么问题、有什么好的想法和建议,也欢迎留言来跟我们沟通探讨!

作者:观远产品部
产品咨询:shopbi2018
免费试用请戳

相关文章
|
3月前
|
机器学习/深度学习 数据采集 人工智能
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
145 66
|
2月前
|
安全 数据处理 数据安全/隐私保护
C/S架构与B/S架构的适用场景分析
C/S架构(客户端/服务器架构)与B/S架构(浏览器/服务器架构)在适用场景上各有特点,主要取决于应用的具体需求、用户群体、系统维护成本、跨平台需求等因素。
171 6
|
3月前
|
存储 边缘计算 运维
实时数仓Hologres发展问题之实时数仓对Lambda架构的问题如何解决
实时数仓Hologres发展问题之实时数仓对Lambda架构的问题如何解决
57 2
|
22小时前
|
存储 SQL Apache
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
Apache Doris 是一个基于 MPP 架构的高性能实时分析数据库,以其极高的速度和易用性著称。它支持高并发点查询和复杂分析场景,适用于报表分析、即席查询、数据仓库和数据湖查询加速等。最新发布的 2.0.2 版本在性能、稳定性和多租户支持方面有显著提升。社区活跃,已广泛应用于电商、广告、用户行为分析等领域。
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
|
2天前
|
运维 NoSQL Java
后端架构演进:微服务架构的优缺点与实战案例分析
【10月更文挑战第28天】本文探讨了微服务架构与单体架构的优缺点,并通过实战案例分析了微服务架构在实际应用中的表现。微服务架构具有高内聚、低耦合、独立部署等优势,但也面临分布式系统的复杂性和较高的运维成本。通过某电商平台的实际案例,展示了微服务架构在提升系统性能和团队协作效率方面的显著效果,同时也指出了其带来的挑战。
17 4
|
20天前
|
存储 SQL 分布式计算
湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
【10月更文挑战第7天】湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
30 1
|
2月前
|
存储 监控 安全
SaaS业务架构:业务能力分析
【9月更文挑战第20天】在数字化时代,软件即服务(SaaS)模式逐渐成为企业软件解决方案的首选。SaaS 业务架构设计对于提供高效、可靠的服务至关重要。其核心业务能力包括:用户管理(注册登录、角色权限)、数据管理(存储备份、安全共享)、业务流程管理(设计定制、工作流自动化)、应用集成(第三方应用、移动应用)及客户服务(支持培训、反馈改进)。通过优化这些能力,可为企业提供更高效、可靠的 SaaS 服务。
53 11
|
3月前
|
人工智能 网络协议 物联网
AIoT智能物联网平台技术架构
AIoT智能物联网平台的技术架构从终端设备到物联网平台可分为边缘侧网关、接入网关层、基础设施层、中台层和应用层。
138 14
|
3月前
|
机器学习/深度学习 人工智能
清华研究登Nature,首创全前向智能光计算训练架构,戴琼海、方璐领衔
【8月更文挑战第30天】清华大学研究人员在《自然》杂志上发表了一项开创性成果,提出了一种全前向智能光计算训练架构,解决了传统光学AI方法依赖电子计算机模拟和优化的问题,实现了光学系统的自学习和自设计。该架构通过将光学系统映射到参数化神经网络中,消除了反向传播需求,展示了在多个领域的广泛应用前景,如深度光学神经网络和高分辨率散射成像等。这一成果为光学AI的发展开辟了新道路,但实际应用中仍需克服一些挑战。论文详情见:https://www.nature.com/articles/s41586-024-07687-4
44 2
|
3月前
|
消息中间件 负载均衡 Kafka
Kafka 实现负载均衡与故障转移:深入分析 Kafka 的架构特点与实践
【8月更文挑战第24天】Apache Kafka是一款专为实时数据处理和流传输设计的高性能消息系统。其核心设计注重高吞吐量、低延迟与可扩展性,并具备出色的容错能力。Kafka采用分布式日志概念,通过数据分区及副本机制确保数据可靠性和持久性。系统包含Producer(消息生产者)、Consumer(消息消费者)和Broker(消息服务器)三大组件。Kafka利用独特的分区机制实现负载均衡,每个Topic可以被划分为多个分区,每个分区可以被复制到多个Broker上,确保数据的高可用性和可靠性。
59 2

热门文章

最新文章