【译】Hadoop发生了什么?我们该如何做?

简介: 原文:https://insidebigdata.com/2019/08/10/what-happened-to-hadoop-and-where-do-we-go-from-here/Apache Hadoop出现在IT领域是在2006年,它可以支持使用廉价的商用硬件来存储海量数据。

原文:https://insidebigdata.com/2019/08/10/what-happened-to-hadoop-and-where-do-we-go-from-here/

Apache Hadoop出现在IT领域是在2006年,它可以支持使用廉价的商用硬件来存储海量数据。从某种意义上来说,Hadoop帮助我们迎来了大数据时代。希望越高,期待也越大。企业可以在称之为数据湖的基于Hadoop的存储中存储尽可能多的数据,并进行后续的分析。这些数据湖伴随着一系列的独立的开源计算引擎,并且基于此开源即意味着免费。那么会可能出现什么错误?
Monte Zweben,Splice Machine的CEO,对Hadoop将要发生的事情有一个有趣的看法,特别是对其垮台背后的三个主要原因:

模式读是一个错误

首先,所谓Hadoop的最佳功能竟是它的致命缺点。随着写模式限制的解除,TB级的数据结构化或非结构化的数据写入到数据湖中。由于Hadoop的数据治理框架和功能仍在设计,企业越来越难以确定其数据的血缘关系,导致它们对自己的数据失去信任,数据湖变成了数据沼泽。

Hadoop的复杂性和管道式的计算引擎

其次,Hadoop发行版中提供了一些列的开源计算引擎,例如Apache Hive,Apache Spark,Apache Kafka。这些计算引擎操作起来很复杂,需要专门的技术才能把这些技术串联起来,但比较困难。

错误的焦点 - 数据湖与应用程序

第三点也是最重要一点,数据湖项目开始失败,因为Hadoop集群往往成为企业数据流管道(过滤,处理,传输)的gateway,然后数据会转出到数据库和数据集市用于下游汇报,并且几乎从未在企业中找到真正的业务应用程序。结果,数据湖最终成为一组庞大的不同计算引擎,在不同的工作负载上运行,所有这些引擎共享相同的存储。这些很难进行管理。生态系统中的资源隔离和管理工具正在不断完善,但仍有很长的路要走。企业无法将注意力从使用数据湖作为廉价的数据存储库转移到使用数据和支持关键任务应用程序的平台。

许多组织都关注Hadoop生态系统的最新发展,并承受着展示数据湖价值的压力。对于企业来说,至关重要的是确定如何在Hadoop失败后成功地实现应用程序的现代化,以及实现这一目标的最佳策略。Hadoop曾经是最被炒作的技术,如今属于人工智能。当心炒作周期,有一天你可能不得不为它的影响负责。

相关文章
|
SQL 关系型数据库 MySQL
|
6月前
|
Kubernetes 供应链 安全
云原生环境下的容器安全与最佳实践
云原生时代,容器与 Kubernetes 成为企业应用核心基础设施,但安全挑战日益突出。本文探讨容器安全现状与对策,涵盖镜像安全、运行时防护、编排系统风险及供应链安全,提出最小权限、漏洞扫描、网络控制等最佳实践,并结合阿里云 ACK、ACR 等服务提供全链路解决方案,展望零信任、AI 安全与 DevSecOps 融合趋势。
286 5
|
6月前
|
机器学习/深度学习 算法 物联网
μNAS:面向微控制器的约束神经架构搜索——论文解读
μNAS是一种专为微控制器设计的神经架构搜索方法,旨在解决物联网设备中资源受限的挑战。通过多目标优化框架,μNAS能够在有限的内存和计算能力下,自动搜索出高效的神经网络结构。该方法结合了老化进化算法与贝叶斯优化,并引入结构化剪枝技术,实现模型压缩。实验表明,μNAS在多个数据集上均取得了优异的精度与资源使用平衡,显著优于现有方法,为边缘计算设备的智能化提供了可行路径。
490 129
|
6月前
|
存储 弹性计算 Cloud Native
云原生数据库的演进与应用实践
随着企业业务扩展,传统数据库难以应对高并发与弹性需求。云原生数据库应运而生,具备计算存储分离、弹性伸缩、高可用等核心特性,广泛应用于电商、金融、物联网等场景。阿里云PolarDB、Lindorm等产品已形成完善生态,助力企业高效处理数据。未来,AI驱动、Serverless与多云兼容将推动其进一步发展。
296 8
|
6月前
|
机器学习/深度学习 算法 算法框架/工具
256KB内存约束下的设备端训练:算法与系统协同设计——论文解读
MIT与MIT-IBM Watson AI Lab团队提出一种创新方法,在仅256KB SRAM和1MB Flash的微控制器上实现深度神经网络训练。该研究通过量化感知缩放(QAS)、稀疏层/张量更新及算子重排序等技术,将内存占用降至141KB,较传统框架减少2300倍,首次突破设备端训练的内存瓶颈,推动边缘智能发展。
409 6
|
6月前
|
定位技术
基于vue3.5+vite7+element-plus网页聊天系统
最新版vite7.1+vue3.5+element-plus仿微信web网页版聊天vite7-webchat。
354 4
|
机器学习/深度学习 人工智能 边缘计算
软件测试的未来:自动化与AI的融合
在数字化时代的浪潮中,软件测试作为确保产品质量的关键步骤,正经历着前所未有的变革。随着技术的发展,自动化测试和人工智能(AI)的结合不仅提升了测试的效率和准确性,还极大地扩展了测试的范围和深度。本文将探讨自动化测试的最新趋势、AI如何重塑测试流程,以及未来软件测试可能达到的新高度。
|
资源调度 前端开发 JavaScript
前端 nodejs 命令行自动调用编译 inno setup 的.iss文件
前端 nodejs 命令行自动调用编译 inno setup 的.iss文件
|
人工智能 搜索推荐 vr&ar
苹果手机iOS18最新升级:植入AI人工智能,国内百度文心一言,国外GPT4o来辅助
iOS 18亮点速览:AI强化的Siri、RCS安卓消息兼容、自定义主屏、辅助功能增强,VR进步,新隐私工具,包括锁定APP和眼动追踪。Passwords app保障安全,Apple Intelligence提升个性化体验。
632 1
|
数据采集 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛 初赛 B:美国纽约公共自行车使用量预测分析 问题二Python代码分析
本文提供了2023年第二届钉钉杯大学生大数据挑战赛初赛B题"美国纽约公共自行车使用量预测分析"中问题二的Python代码分析,涉及数据预处理、特征工程、多种聚类算法实现及其结果评估和可视化。
339 0