从传统架构到云上数据,发生了哪些转变

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介:
  【51CTO.com原创稿件】在数据时代的今天,如何部署企业的大数据平台,充分挖掘数据、分析数据、发挥数据价值,成为摆在企业面前的重要难题。面对爆炸式增长的数据,传统的数据分析平台存在着诸多的问题,已经不能满足需求,借助云计算实现的云上数据分析平台,就能够非常灵活、轻松的实现企业的各种数据分析需求,并能够有效控制成本。这里,笔者就与大家简单的聊一下从传统架构到云上数据,到底发生了哪些转变。

云上大数据分析

首先,来分析一下传统数据分析平台存在的各种问题。

传统大数据分析平台面临的主要挑战

一)多租户支持。从Hadoop出现的第一天起,对于多租户的支持一直是大数据里被诟病的重要一点。如何在一个Hadoop集群做多租户,由此提出了做队列调度等等一大堆解决方案,但真正落地的并不多。如果把大数据拆成多个集群,拆完后失去了资源复用的意义,但是如果把所有数据放到一个大的集群中,又无法保证数据安全。因此,在传统数据分析平台中多租户的支持一下是老大难。

二)快速部署。企业在建设大数据平台时需要采购很多设备,对于人员的技术要求非常高,快速地推向市场将面临很大的风险。

三)系统的灵活性和可靠性。传统大数据平台想要实现扩容,操作起来非常麻烦。例如计算能力不够时需要扩容,采购机器至少需要花费几周的时间,而要真正投入到使用当中,时间就会更长。

英特尔技术专家在接受笔者采访时曾表示,大数据分析平台要综合考虑效率、成本和数据安全,传统的数据分析平台无论从哪个方面来讲,都已经无法满足企业对数据分析的需求,而云计算平台则能够很好的解决这些问题。

硬件革命使大数据和云计算紧密结合

众所周知,在2011年Hadoop刚开始流行的时候,整体硬件的性能非常低,网络仅有一千兆,硬盘每秒钟磁盘的IO水平非常低,写只有每秒50次左右,读是每秒钟100到300次,计算能力也不强。6年之后,硬件性能发生了翻天覆地的变化,CPU计算能力提升了10倍、20倍,存储从每秒钟50次写的次数提升到每秒钟写次能上50万,I/O的性能有一万倍的提升,网络从千兆网到40G、100G,也有100倍的提升。正是这种硬件性能的革命,使得Hadoop的设计理念发生了一些变化。

之前在利用Hadoop做大数据分析时,由于硬件性能差,挪动数据的成本太高,所以只能挪算法,数据在哪我们就在哪里算。随着硬件性能的提升,让我们能够把存储和计算分开。根据客户的实际需要,将计算集群和存储集群分到两个独立的集群,通过高速互联网链接起来,这实际上就是成本和效率之间的折中。此外,为了保证多租户,保证灵活性、安全性,将存储网络和计算网络分开,在存储网络内,比如对象存储,可以通过Amazon S3,restful等接口访问数据,从而实现多租户。同时,在计算集群里通过虚拟化、容器,实现多租户,按需调度。两个集群分开,完全可以满足用户的部署问题、安全问题。此外,硬件的革命使得大数据+云计算成为可能,等于Big Data As a Service。

云上数据,更加灵活、易管理

虽然说云计算在大数据里面不是必须的,但是没有云计算这个轮子,大数据里面所谓的按需分配、多租户、灵活扩展、动态配置都是不可能的;而如果我们要达到一个成本和可管理性、灵活性的一个折中,云计算是必须的。所以结合在一起就是云上的大数据,从而实现存储集群和计算集群的分离。

英特尔技术专家表示,在系统的存储层面上,包括块存储、对象存储、第三方存储,把各种存储形成一个独立的、软件定义的SDS(软件定义存储),灵活地在存储层面上做多租户、自动化、灵活性。在计算层面上,通过虚拟机、容器等技术,实现多租户,灵活地配置各种服务,把大数据做成多种服务。这样,用户能够按照自己的需求来动态选择、动态扩容,实现两层分开。当然,对于SDN来讲,可以用传统的网络,用10G、40G、100G的进行链接。对于互联网企业来讲,直接用软件定义网络即可。

例如英特尔与金山云合作的KMR计算,数据放在块存储还是放在对象存储上,实际上是有不同的配置来实现的。用户想节省成本,想成本最低,都是批处理,这时候可以把数据全放在底层对象存储,用KS3做对象存储,当需要计算的时候,Spark直接从对象存储调用数据计算。同样,如果用户想保证效率,对计算的实时性要求很高,这时可以在内存里面建立一个内存文件系统,把热数据全部缓存在内存里面,直接用KML或者是Spark实现内存计算,保证查询的实时性和计算的实时性。

写在最后:从传统的架构到云上大数据,实现了很多的转变。传统的大数据平台计算和数据一般都在一起,到云上之后计算有可能是虚拟机、有可能是容器,存储和计算是分离的。任何计算节点访问存储时都是通过高速互联网络把数据迁移到本地来。实现的优势也就是大数据的服务化,灵活配置。因此,借助强大的计算性能,结合云计算平台的优势,从传统架构的大数据平台向云上数据的转变,将给用户提供更高的灵活性和管理性,并能够为用户节省大量的成本。

 
 
者:ZC
来源:51CTO
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
9月前
|
存储 BI Shell
Doris基础-架构、数据模型、数据划分
Apache Doris 是一款高性能、实时分析型数据库,基于MPP架构,支持高并发查询与复杂分析。其前身是百度的Palo项目,现为Apache顶级项目。Doris适用于报表分析、数据仓库构建、日志检索等场景,具备存算一体与存算分离两种架构,灵活适应不同业务需求。它提供主键、明细和聚合三种数据模型,便于高效处理更新、存储与统计汇总操作,广泛应用于大数据分析领域。
891 2
|
9月前
|
SQL 缓存 前端开发
如何开发进销存系统中的基础数据板块?(附架构图+流程图+代码参考)
进销存系统是企业管理采购、销售与库存的核心工具,能有效提升运营效率。其中,“基础数据板块”作为系统基石,决定了后续业务的准确性与扩展性。本文详解产品与仓库模块的设计实现,涵盖功能概述、表结构设计、前后端代码示例及数据流架构,助力企业构建高效稳定的数字化管理体系。
|
8月前
|
数据采集 缓存 前端开发
如何开发门店业绩上报管理系统中的商品数据板块?(附架构图+流程图+代码参考)
本文深入讲解门店业绩上报系统中商品数据板块的设计与实现,涵盖商品类别、信息、档案等内容,详细阐述技术架构、业务流程、数据库设计及开发技巧,并提供完整代码示例,助力企业构建稳定、可扩展的商品数据系统。
|
12月前
|
人工智能 算法 网络安全
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
|
7月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
289 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
7月前
|
JSON 供应链 监控
1688商品详情API技术深度解析:从接口架构到数据融合实战
1688商品详情API(item_get接口)可通过商品ID获取标题、价格、库存、SKU等核心数据,适用于价格监控、供应链管理等场景。支持JSON格式返回,需企业认证。Python示例展示如何调用接口获取商品信息。
|
8月前
|
数据采集 监控 数据可视化
数据量暴涨时,抓取架构该如何应对?——豆瓣电影案例调研
本案例讲述了在豆瓣电影数据采集过程中,面对数据量激增和限制机制带来的挑战,如何通过引入爬虫代理、分布式架构与异步IO等技术手段,实现采集系统的优化与扩展,最终支撑起百万级请求的稳定抓取。
431 0
数据量暴涨时,抓取架构该如何应对?——豆瓣电影案例调研
|
8月前
|
SQL 数据采集 数据处理
终于有人把数据架构讲清楚了!
本文深入浅出地解析了数据架构的核心逻辑,涵盖其定义、作用、设计方法及常见误区,助力读者构建贴合业务的数据架构。
|
9月前
|
数据采集 存储 分布式计算
一文读懂数据中台架构,高效构建企业数据价值
在数字化时代,企业面临数据分散、难以统一管理的问题。数据中台架构通过整合、清洗和管理数据,打破信息孤岛,提升决策效率。本文详解其核心组成、搭建步骤及常见挑战,助力企业高效用数。
2324 24
|
12月前
|
存储 运维 Serverless
千万级数据秒级响应!碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践
碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构,解决了海量数据处理中的资源利用率低、并发能力不足等问题,显著降低了硬件和运维成本。实时查询性能提升8倍,查询出错率减少30倍,集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验,还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。
1079 69