大数据架构面临技术集成的巨大障碍

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS PostgreSQL,高可用系列 2核4GB
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

企业可以利用Hadoop以及所有与它相关的技术设计大数据环境,以满足其特定的需求。但把所有的技术集成在一起并不是一件容易的事。

IT团队寻求构建大数据架构时有大量的技术可供选择,他们可以混合搭配各种技术以满足数据处理和分析需求。但是有一个问题存在:把所有需要的技术框架组合到一起是一项艰巨的任务。

在不断扩展的Hadoop生态系统中,选择和部署合适的大数据技术是一个长期反复的过程,周期要以年计。除非公司管理者愿花大量财力和资源来加速推动项目。选择技术的过程中有失误判断是很常见的,一家公司的架构蓝图不一定适用于另一家组织,即便是完全相同的行业也不行。

Bryan Lari是美国德克萨斯州大学MD安德森癌症研究中心(位于休斯顿)研究分析主任,他说:“我经常跟人说,这不是像你在亚马逊下个订单或者从苹果商店买个东西那么简单的事。这是一件复杂的事,它需要一个过程。我们在半年或者一年之内是做不完的。这也不是可以套用公式就能应用的技术,尽管有很多案例或者用户有成功经验,但我们也可能用不同的工具来满足我们的需求。”

MD安德森的大数据环境集中在Hadoop集群中,在三月份的时候投入了生产环境,初步打算用来处理病人房间监视设备传输回来的重要信号数据。不过,数据湖平台还包括HBase(与Hadoop配合的NoSQL数据库),Hive(Hadoop支持SQL的软件),还有各种其他Apache开源技术,例如:Pig、Sqoop、Oozie和Zookeeper。此外,这家癌症治疗和研究组织还部署了Oracle数据仓库作为信息库来支持分析和报表应用,还有IBM的Watson认知计算系统提供自然语言处理和机器学习功能。未来出现新的数据可视化、治理和安全工具也必然会参与进来。

MD安德森癌症中心的IT团队在2015年初就开始使用Hadoop。为了演示可能的应用情况同时熟悉该技术,该中心首先使用基本的Apache Hadoop软件构建了试点集群环境。后来,他们部署了Hadoop Hortonworks分布式架构用于生产环境。

Vamshi Punugoti是MD安德森癌症中兴研究信息系统的副主任,他说从这次试点项目中得到的经验可以使他们处理架构调整更容易。随着新的大数据工具出现,总会有调整架构的可能性,一定需要功能增强或者替换组件。Punugoti说:“这是个持续更新的过程,包括我们收集到的数据都在不断变化着。如果我们认为(现有架构)可以处理一切那就太天真了。”

演进更好的架构

Uber平台工程师团队花了大约一年时间设计了多层大数据架构,但是这么多技术组件搭建的有点仓促。Uber公司Hadoop团队高级工程师Vinoth Chandar说,该公司的现有系统跟不上业务运营带来的快速增长的数据量。结果,大部分数据不能进行实时分析,Chandar认为这对于Uber公司倡导实质性“实时叫车”理念来说是个大问题。

为了帮助运营经理实现数据驱动,Chandar和他的同事们搭建了Hadoop数据湖环境,其中包括HBase、Hive、Spark处理引擎、Kafka消息队列系统,还有其它一些技术。其中一些技术是内部构建的,例如:有一款数据提取工具Streamific。

有了该架构之后,Uber公司将追赶大数据和分析的艺术状态。但是,这并不是容易做到的。他半开玩笑地补充说:“为了把这些技术组件整合到一起,我们十个人几乎一年没有睡觉。”

架构的挑战对于组织来说可不是闹着玩的。Gartner咨询公司预测,到2018年,70%的Hadoop部署将无法实现他们节约成本和收入增长的目标,主要原因是技能不足和技术整合困难。Gartner公司分析师Merv Adrian说,整合障碍还在加剧,Hadoop分发商与大数据技术有关的数字还在稳步攀升,这代表了部署Hadoop的公司对Hadoop技术支持的需求量趋势。

在2016年太平洋西北地区BI峰会上,Adrian列举了46种Hadoop相关的开源技术创新,这些产品都是由一家或者多家分发商提供支持服务的。但是,要把这些组件放到大数据架构中却是留给使用方的工作。“大多数Hadoop项目都像是艺术工作,我们都要把这些技术组件整合到一起使用。”

执行过程中的变化

这种整合拼凑工作是非常艰巨的任务,即便Hadoop不是框架中的一部分。Celtra公司提供了一个平台可以设计在线显示和视频广告,有几部分已经在基于云的处理架构中陆续部署了,现在正把Spark及其SQL模块整合到Amazon简单存储服务(S3)、MySQL关系型数据库和Snowflake计算的数据仓库系统。

Grega Kespret是这家波士顿公司的分析总监,他说:“我们经历了许多尝试和错误。比较有挑战的是要设计一套架构满足业务需求,但还不能过度设计。”他提醒说,如果你做了,可能会以一片混乱而告终。

最开始的时候,Celtra公司通过网站访问者和S3中的其它可跟踪事件收集广告交互数据,然后使用Spark作为ETL引擎(抽取、转换和加载)聚合信息,分析MySQL中的运营数据用于报表。但是,原始的事件数据是很难分析的。Celtra公司增加了一套独立的基于Spark的分析系统,但是仍然需要该公司的数据分析师们团结一致去清理和验证事件数据,这个过程的工作是很容易出错的。

在2015年底的时候,Kespret和他的团队经过各种尝试最终放弃了其它技术,选择了Snowflake作为事件数据存储系统,然后把数据按用户会话进行组织之后会存储到MySQL,这样数据分析师用起来更方便。

Snowflake系统在去年四月份投入生产使用,比该软件软发布较早一点。Kespret说,下一步是要在Snowflake中存储数据,评估第二步ETL过程,然后处理数据存储到另一套MySQL数据库中。

大数据开发的“狂野西部日”

Hadoop合作设计者Doug Cutting认为,技术选择方案过多导致了构建大数据架构过程的复杂化。对于许多希望利用Hadoop及其同生技术的用户组织,“这真像是狂野西部时期的泡沫”。Cutting现在是Hadoop供应商Cloudera公司的首席架构师。

不过Cutting认为,大数据系统的益处也正体现于此——这种多样性带来了架构灵活性,支持各种新的分析应用,而且IT成本更低。因此,费一番周折实现集成也是值得的。他认为大多数问题是因为对这些开源软件的开发和部署流程不熟悉引起的。他说:“Hadoop很快就不会令人生畏,人们会习惯使用它的。”

或许是这样吧,不过雅虎公司(据声称是最大的Hadoop用户群)的IT经理们表示,他们并没有完全消除压力。Cutting曾在雅虎总部工作(位于美国加州Sunnyvale),那时候Hadoop在2006年刚启动。雅虎这家web搜索和互联网服务公司是该技术的第一家生产环境用户。目前,该公司(雅虎)的大数据环境有40个集群,混杂了HBase、Spark、Storm实时处理引擎和其它Hadoop相关技术。

Sumeet Singh是雅虎公司负责云计算和大数据平台产品开发的高级总监。他说,总的来说,围绕Hadoop建立的巨大技术生态体系对用户是有利的。Singh表示,Hadoop这个开源框架加速了技术开发的步伐,使IT团队可以集中精力规划和创造对他们公司有用的工具,而不必自己完成所有工作。“我知道有许多开源项目,不过不是每个人都能广泛接触采纳,这其中会有真正明确获益的赢家。”

大数据的世界并不总是阳光明媚的,Singh说:“总会有各种问题随之而来”,他的头脑快要被各种开源框架和大数据框架涉及的数不清的技术撑爆了。


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
1月前
|
存储 缓存 安全
某鱼电商接口架构深度剖析:从稳定性到高性能的技术密码
某鱼电商接口架构揭秘:分层解耦、安全加固、性能优化三维设计,实现200ms内响应、故障率低于0.1%。详解三层架构、多引擎存储、异步发布、WebSocket通信与全链路防护,助力开发者突破电商接口“三难”困境。
|
1月前
|
存储 人工智能 大数据
云栖2025|阿里云开源大数据发布新一代“湖流一体”数智平台及全栈技术升级
阿里云在云栖大会发布“湖流一体”数智平台,推出DLF-3.0全模态湖仓、实时计算Flink版升级及EMR系列新品,融合实时化、多模态、智能化技术,打造AI时代高效开放的数据底座,赋能企业数字化转型。
568 0
|
2月前
|
SQL 数据可视化 关系型数据库
MCP与PolarDB集成技术分析:降低SQL门槛与简化数据可视化流程的机制解析
阿里云PolarDB与MCP协议融合,打造“自然语言即分析”的新范式。通过云原生数据库与标准化AI接口协同,实现零代码、分钟级从数据到可视化洞察,打破技术壁垒,提升分析效率99%,推动企业数据能力普惠化。
263 3
|
1月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
1月前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
|
2月前
|
数据采集 监控 JavaScript
移动端性能监控探索:鸿蒙 NEXT 探针架构与技术实现
阿里云 ARMS 团队倾力打造的鸿蒙 NEXT SDK,为鸿蒙应用提供了业界领先的全链路监控解决方案。这不仅仅是一个 SDK,更是您洞察用户体验、优化应用性能的智能伙伴。
562 32
|
1月前
|
监控 数据可视化 数据库
低代码的系统化演进:从工具逻辑到平台架构的技术解读
低代码正从开发工具演变为支撑企业架构的智能平台,融合可视化开发、AI引擎与开放生态,实现高效构建、自动化运维与跨场景协同,推动数字化转型迈向智能化、系统化新阶段。
|
1月前
|
Java Linux 虚拟化
【Docker】(1)Docker的概述与架构,手把手带你安装Docker,云原生路上不可缺少的一门技术!
1. Docker简介 1.1 Docker是什么 为什么docker会出现? 假定您在开发一款平台项目,您的开发环境具有特定的配置。其他开发人员身处的环境配置也各有不同。 您正在开发的应用依赖于您当前的配置且还要依赖于某些配置文件。 您的企业还拥有标准化的测试和生产环境,且具有自身的配置和一系列支持文件。 **要求:**希望尽可能多在本地模拟这些环境而不产生重新创建服务器环境的开销 问题: 要如何确保应用能够在这些环境中运行和通过质量检测? 在部署过程中不出现令人头疼的版本、配置问题 无需重新编写代码和进行故障修复
339 2
|
2月前
|
Cloud Native API 开发者
Gemini 2.5 Flash 技术拆解:从 MoE 架构到阿里云生态落地指南
2025年9月,谷歌Gemini 2.5 Flash发布,性能提升5%、成本降24%,引发行业关注。其MoE架构、百万上下文与“思考”范式,助力阿里云开发者高效构建云原生应用。本文解析技术内核,结合汽车、物流等案例,提供落地指南与避坑建议,展望大模型与流计算融合前景。
405 6

热门文章

最新文章