拥抱开源 DevOps引领大数据生态系统

简介:

为了开展开源战略,基于大数据生态系统组件的应用程序必须加强,才能在生产中运行。 DevOps可能是其中的重要组成部分。

用户一直希望减少对供应商的依赖。但是,当他们了解当今大数据生态系统的复杂环境时,他们至少在某种程度上将承担一定的责任。

新风格的数据工程要求对DevOps进行整体的调整,这就是敏捷性方法的扩展,需要开发人员对创新应用在生产中的表现承担更多的责任。同时,工程师需要以更快的速度学习新的软件。

许多早期采用者不得不创建基于MapReduce的Hadoop应用程序,只能使用Spark处理引擎重新启动它们。

如今有各种开源产品用于分析,包括Hadoop SQL查询工具、机器学习和其他功能。开源数据流媒体空间就有一些例子,随着一系列新的实时系统不断进行批处理,这些数据流空间正在不断发展。

在流媒体中,分析工具层出不穷。先是早期的竞争者Apache Storm,接着又出现Apache Spark和Apache Flink,而且这一切都发生在短短的几年之内。

Hadoop联合创始人、Cloudera首席架构师Doug Cutting表示,这是现代数据工程的本质,今天人们必须做好试用软件组件的准备。

事实上,很难找到与多个流媒体架构合作的商店,而且其中涉及到很多在职学习。随着Spark通过最近宣布的Drizzle插件在时间流式中添加记录,就需要更多的学习。

数据工程师正在研究组件如何以不同的组合形式工作,这个过程是从概念验证转向生产的重要环节。最终用户和供应商都属于这个环节的一部分。

搞清楚你想要什么

回想一下:当供应商们作为唯一创新来源的日子里,用户往往处于被动地位。供应商仍然可能在大数据应用实施方面发挥很大的作用,但被动的用户就要承受更大的风险。

事实上,产品发布时间中至少有一些滞后时间与准备软件的供应商有关。开源大数据应用程序从概念验证到生产投入的艰难过程并非巧合。

但是,随着数据商店开始对新的开源应用程序进行变革,需要大量的创新。

为了继续推进大数据工程,团队需要非常认真地追求DevOps的信条,或者称之为DataOps,尤其是要求数据工程师和IT架构师负责将创新思想运用到生产过程中。

本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
存储 大数据 数据处理
PHP 与大数据:构建高效数据处理系统
传统的数据处理系统往往难以应对大规模数据的处理需求,而PHP作为一种常用的服务器端脚本语言,在数据处理方面也有其独特的优势。本文将探讨如何利用PHP构建高效的大数据处理系统,结合实际案例分析其应用场景及优势所在。
18 2
|
5月前
|
SQL 存储 分布式计算
从0到1介绍一下开源大数据比对平台dataCompare
从0到1介绍一下开源大数据比对平台dataCompare
142 0
|
13天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之数据倾斜导致JOB运行时间过长导致系统会自动kill掉job,如何解决
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
14天前
|
存储 分布式计算 Hadoop
【专栏】Hadoop,开源大数据处理框架:驭服数据洪流的利器
【4月更文挑战第28天】Hadoop,开源大数据处理框架,由Hadoop Common、HDFS、YARN和MapReduce组成,提供大规模数据存储和并行处理。其优势在于可扩展性、容错性、高性能、灵活性及社区支持。然而,数据安全、处理速度、系统复杂性和技能短缺是挑战。通过加强安全措施、结合Spark、自动化工具和培训,Hadoop在应对大数据问题中保持关键地位。
|
2月前
|
存储 分布式计算 大数据
现代化数据库技术——面向大数据的分布式存储系统
传统的关系型数据库在面对大规模数据处理时遇到了诸多挑战,而面向大数据的分布式存储系统应运而生。本文将深入探讨现代化数据库技术中的分布式存储系统,包括其优势、工作原理以及在大数据领域的应用。
|
2月前
|
SQL 存储 监控
构建端到端的开源现代数据平台
构建端到端的开源现代数据平台
61 4
|
2月前
|
安全 Java 大数据
基于大数据的旅游系统的设计与实现(论文+源码)_kaic
基于大数据的旅游系统的设计与实现(论文+源码)_kaic
|
3月前
|
监控 物联网 大数据
智慧工地管理平台系统源码基于物联网、云计算、大数据等技术
智慧工地平台APP通过对施工过程人机料法环的全面感知、互联互通、智能协同,提高施工现场的生产效率、管理水平和决策能力,实现施工管理的数字化、智能化、精益化。
59 0
|
4月前
|
人工智能 自然语言处理 大数据
AI大数据智能导诊系统源码 Springboot框架
智能导诊系统是在医院中使用的引导患者自助就诊挂号,在就诊的过程中有许多患者不知道需要挂什么号,要看什么病,通过智慧导诊系统,可输入自身疾病的症状表现,或选择身体部位,再经由智能导诊系统多维度计算,AI智能引擎分析、准确推荐科室,引导患者挂号就诊,实现科学就诊,不用担心挂错号。
63 0
|
5月前
|
SQL 存储 大数据
从0到1介绍一下开源大数据服务平台dataService
从0到1介绍一下开源大数据服务平台dataService
124 1

热门文章

最新文章