《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》一1.4 基本原理

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本节书摘来自华章出版社《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》一书中的第1章,第1.1节,南森·马茨(Nathan Marz) [美] 詹姆斯·沃伦(JamesWarren) 著 马延辉 向 磊 魏东琦 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.4 基本原理

为了找到正确构建数据系统的方法,你必须先了解基本原理。那么,从最基本的层面上来说,数据系统是做什么的呢?
下面以一个直观的定义切入正题—数据[系统基于过去到现在的信息来回答问题。例如,社交网络资料回答诸如“这个人的名字是什么?”“这个人有多少朋友?”这样的问题;银行账户网页回答诸如“我的当前余额是多少?”“最近我的账户发生了什么交易?”这样的问题。
数据系统不只是记录和重现信息。它们把零碎的信息结合起来生成答案。例如,银行账户余额是结合该账户上的所有交易信息得到的。
另一个重要的观察是:并非所有信息都是平等的,一些信息来自于其他信息。例如,银行账户余额源自历史交易,朋友数源自朋友列表,朋友列表源自用户资料中添加和删除朋友的总次数。
当你一直追踪信息的来源时,最终得到的是并非派生自任何事物的信息。这是最原始的信息,也就是说,你掌握的信息是真实的,只是因为它是存在的。这样的信息就被称为数据。
你也许对数据这个词有着不同的理解。通常数据与信息这个词是可以互换使用的。但在本书的剩余部分,在使用数据这个词时,所指的是一切派生得到的特殊信息。
如果一个数据系统通过查看过去的数据来回答问题,那么最通用的数据系统通过查看整个数据集来回答问题,所以数据系统最通用的定义如下:

  query = function (all data)

换言之,任何所能想象的数据处理都可以表示为一个函数,该函数以接收到的所有数据作为输入。请记住这个等式,因为它是你将学到的所有知识的关键。后文将反复提及这个等式。
Lambda架构提供了一种通用的方法来实现任意数据集上的任意函数,并且让这个函数低延迟地返回结果。这并不意味着每次实现一个数据系统时,你永远使用完全相同的技术。你使用的具体技术可能基于自身需求的改变而改变。但是Lambda架构定义了一个一致性的方法来选择这些技术,并将它们连接在一起以满足你的需求。
下面讨论数据系统必须呈现出的属性。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
机器学习/深度学习 算法 大数据
构建数据中台,为什么“湖仓一体”成了大厂标配?
在大数据时代,数据湖与数据仓库各具优势,但单一架构难以应对复杂业务需求。湖仓一体通过融合数据湖的灵活性与数据仓的规范性,实现数据分层治理、统一调度,既能承载海量多源数据,又能支撑高效分析决策,成为企业构建数据中台、推动智能化转型的关键路径。
|
2月前
|
存储 SQL 分布式计算
MaxCompute 聚簇优化推荐原理
基于历史查询智能推荐Clustered表,显著降低计算成本,提升数仓性能。
255 4
MaxCompute 聚簇优化推荐原理
|
6月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
4月前
|
存储 SQL 分布式计算
MaxCompute x 聚水潭:基于近实时数仓解决方案构建统一增全量一体化数据链路
聚水潭作为中国领先的电商SaaS ERP服务商,致力于为88,400+客户提供全链路数字化解决方案。其核心ERP产品助力企业实现数据驱动的智能决策。为应对业务扩展带来的数据处理挑战,聚水潭采用MaxCompute近实时数仓Delta Table方案,有效提升数据新鲜度和计算效率,提效比例超200%,资源消耗显著降低。未来,聚水潭将进一步优化数据链路,结合MaxQA实现实时分析,赋能商家快速响应市场变化。
235 0
|
6月前
|
Cloud Native 大数据 Java
大数据新视界--大数据大厂之大数据时代的璀璨导航星:Eureka 原理与实践深度探秘
本文深入剖析 Eureka 在大数据时代分布式系统中的关键作用。涵盖其原理,包括服务注册、续约、发现及自我保护机制;详述搭建步骤、两面性;展示在大数据等多领域的应用场景、实战案例及代码演示。Eureka 如璀璨导航星,为分布式系统高效协作指引方向。
|
消息中间件 分布式计算 大数据
大数据-166 Apache Kylin Cube 流式构建 整体流程详细记录
大数据-166 Apache Kylin Cube 流式构建 整体流程详细记录
236 5
|
10月前
|
传感器 人工智能 大数据
高科技生命体征探测器、情绪感受器以及传感器背后的大数据平台在健康监测、生命体征检测领域的设想与系统构建
本系统由健康传感器、大数据云平台和脑机接口设备组成。传感器内置生命体征感应器、全球无线定位、人脸识别摄像头等,搜集超出现有科学认知的生命体征信息。云平台整合大数据、云计算与AI,处理并传输数据至接收者大脑芯片,实现实时健康监测。脑机接口设备通过先进通讯技术,实现对健康信息的实时感知与反馈,确保身份验证与数据安全。
|
存储 SQL 分布式计算
大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录 多图
大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录 多图
216 3
|
9月前
|
存储 分布式计算 物联网
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
759 58