何为大数据架构?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据架构是用以提取和处理海量数据(一般称之为“大数据”)的整体系统,因而能够针对业务目的进行分析整理。该架构可视作基于机构业务需求的大数据解决方案的蓝图。大数据架构旨在处理下列类别的业务:•批量处理大数据源。

大数据架构是用以提取和处理海量数据(一般称之为“大数据”)的整体系统,因而能够针对业务目的进行分析整理。该架构可视作基于机构业务需求的大数据解决方案的蓝图。

大数据架构旨在处理下列类别的业务:

•批量处理大数据源。

•实时处理大数据。

•分析预测和机器学习。

大数据架构的好处

可用以分析的数据量每日都在增长。并且,流媒体资源比过去更多,其中包括流量传感器、健康传感器、事务日志和活动日志中提供的数据。但拥有数据仅是业务成功的一半。公司还必须能够理解数据,并及时应用它来影响重要决策。应用大数据架构能够帮助公司减少财力并做出重要决策,其中包括:

•控制成本。在存储大批量数据时,Hadoop和基于云计算的分析等大数据技术能够明显地节省成本。

•做出更快、更好的决策。应用大数据架构的流组件,公司能够及时做出决策。

•预测未来需求并建立新品。大数据能够协助公司考量客户需求并使用预测分析未来发展趋势。

大数据架构的挑战

假如做得好,大数据架构能够为公司节约资金,并协助分折关键的趋势,但它并不是沒有挑战。在处理大数据时,必须留意下列问题:

(1)数据质量

不论什么时候使用各种数据源,数据质量都是一项挑战。这代表着公司需要做的工作是保障数据格式匹配,而且沒有重复数据或缺失数据将会使分析不可信。公司需要先分析和准备数据,随后才能将其与其它数据一同开展分析。

(2)扩展

大数据的价值在于其数目。可是,这也将会变成一个关键难题。假如公司并未设计架构以进行扩展,则或者会很快碰到问题。最先,假如公司不计划支持基础建设,那样支持基础设施的成本就会增多。这将会会给公司的预决算产生负担。另一方面,假如公司不准备进行扩展,那样其性能将会会明显下降。这两个问题都应当在构建大数据架构的规划环节取得解决。

(3)安全性

尽管大数据能够为公司提供对数据的深层次了解,但保护这些数据依然有着挑战性。欺诈者和黑客或者对公司的数据十分感兴趣,他们或者会试着添加自己的假造数据或浏览公司的数据以获得敏感信息。互联网犯罪嫌疑人能够制做数据并将其导入其数据湖。比如,假定公司追踪网页单击频次以发觉流量中的不正常模式,并在其网页上搜索犯罪活动,互联网犯罪嫌疑人能够渗透公司的系统,在公司的大数据中能够寻找大批量的敏感信息,假如公司沒有保护周围环境,加密数据并努力匿名化数据以清除敏感信息的话,互联网犯罪嫌疑人可能会发掘其数据以获得这些信息。

大数据架构因企业的基础设施和需求而异,但一般包括以下组件:

•数据源。所有大数据架构都从源代码开始。这可以包含来源于数据库的数据、来自实时源(如物联网设备)的数据,及其从应用程序(如Windows日志)生成的静态文件。

•实时消息接收。假如有实时源,则需要在架构中构建一种机制来摄入数据。

•数据存储。公司需要存储将通过大数据架构处理的数据。一般而言,数据将存储在数据湖中,这是一个可以轻松扩展的大型非结构化数据库。

•批处理和实时处理的组合。公司需要同时处理实时数据和静态数据,因而应在大数据架构中内置批量和实时处理的组合。这是由于能够应用批处理有效地处理大批量数据,而实时数据需要立刻处理才能够带来价值。批处理涉及到长期运转的作业,用于筛选、聚合和准备数据开展分析。

•分析数据存储。准备好要分析的数据后,需要将它们放到一个位置,便于对整个数据集开展分析。分析数据储存的必要性在于,公司的全部数据都聚集在一个位置,因而其分析将是全面的,而且针对分析而非事务进行了优化。这可能采用基于云计算的数据仓库或关系数据库的形式,具体取决于公司的需求。

•分析或报告工具。在摄入和处理各类数据源之后,公司需要包含一个分析数据的工具。一般而言,公司将使用BI(商业智能)工具来完成这项工作,而且或者需要数据科学家来探索数据。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
25天前
|
存储 SQL 分布式计算
MaxCompute 近实时增全量处理一体化新架构和使用场景介绍
本文主要介绍基于 MaxCompute 的离线近实时一体化新架构如何来支持这些综合的业务场景,提供基于Delta Table的近实时增全量一体的数据存储和计算解决方案。
|
25天前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
29天前
|
存储 分布式计算 大数据
大数据架构管理规范
8月更文挑战第18天
35 2
|
1月前
|
消息中间件 存储 大数据
大数据-数据仓库-实时数仓架构分析
大数据-数据仓库-实时数仓架构分析
85 1
|
2月前
|
分布式计算 大数据 数据处理
「大数据」Kappa架构
**Kappa架构**聚焦于流处理,用单一处理层应对实时和批量数据,消除Lambda架构的双重系统。通过数据重放保证一致性,简化开发与维护,降低成本,提升灵活性。然而,资源消耗大,复杂查询处理不易。关键技术包括Apache Flink、Spark Streaming、Kafka、DynamoDB等,适合需实时批量数据处理的场景。随着流处理技术进步,其优势日益凸显。
54 0
「大数据」Kappa架构
|
2月前
|
存储 监控 算法
「AIGC算法」大数据架构Lambda和Kappa
**Lambda与Kappa架构对比:** Lambda提供批处理和实时处理,保证数据最终一致性,但维护复杂。Kappa简化为单一流处理,易于维护,适合实时场景,但可能增加实时处理压力,影响稳定性。选择时考虑数据一致性、系统维护、成本和实时性需求。
67 0
「AIGC算法」大数据架构Lambda和Kappa
|
2月前
|
存储 分布式计算 Hadoop
阿里巴巴飞天大数据架构体系与Hadoop生态系统的深度融合:构建高效、可扩展的数据处理平台
技术持续创新:随着新技术的不断涌现和应用场景的复杂化,阿里巴巴将继续投入研发力量推动技术创新和升级换代。 生态系统更加完善:Hadoop生态系统将继续扩展和完善,为用户提供更多元化、更灵活的数据处理工具和服务。
|
2月前
|
分布式计算 关系型数据库 数据处理
美柚与MaxCompute的数据同步架构设计与实践
数据处理与分析 一旦数据同步到MaxCompute后,就可以使用MaxCompute SQL或者MapReduce进行复杂的数据处理和分析。
|
2月前
|
分布式计算 运维 大数据
混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践。
除了资源效率和成本的优势外,混合云模式还为斗鱼带来了可量化的成本、增值服务以及额外的专业服务。阿里云的专业团队可以为斗鱼提供技术咨询和解决方案,帮助斗鱼解决业务难题。此外,计算资源的可量化也使得斗鱼能够清晰地了解资源使用情况,为业务决策提供依据。
|
2月前
|
数据采集 大数据 关系型数据库
数据架构问题之什么是传统大数据架构的数据源
数据架构问题之什么是传统大数据架构的数据源

热门文章

最新文章