今天的开放数据生态系统公司如何为生活带来大数据
今天的公司正在收集大量的数据,以更好地了解客户,并制定更好,更知情的业务决策。通常,所有这些数据都涵盖了数十个,有时数千个不同的源,并且以多种格式,包括结构化和非结构化。连接所有这些数据并理解它是一种大规模和高度复杂的任务,但它是必不可少的。为了成功,公司必须能够在各种数据源和数据类型上连接。只有这样,他们才能实现洞察力并采取有意义的行动。
在过去的十年中,一系列技术已经前往现场有希望解决这个问题。由Hadoop运动领导,它首先在2000年代中期开始,当时产品和公司开始发芽,创建一个开放的数据生态系统。这种转向可组合技术(通常是开源,但不一定)的运动,与API集成并在商品化硬件上运行,以很大的方式挑战单体,相互依存架构的现状。通过采用商品化硬件的开放式分布式方法,这些公司挑战了专有的集中数据仓库中的传统存储和处理数据的传统设置。但最终,这些解决方案造成了宏伟的承诺,因为它们变得笨拙,难以管理和经济地不可规划。
最近,我们目睹了开放数据生态系统的复兴。由于云的崛起,开源数据格式的扩散和供应商的到来解决了早期的痛点,我们已经看到了一种新的开放数据生态系统公司出现,增长和普及。这些新解决方案能够捕获取公司内存的全部数据范围,使团队能够利用数据以充分优势利用。
我们一直在投资一系列企业技术公司,跨越数据,分析,AI,开源,DevOps,安全等十多年的更多。多年来,在这些行业遇到了数百家公司,我们想认为我们很了解这些领域。这是我们的信念,即开放数据生态系统公司现在在合适的时间完美地在正确的位置。
大数据和开放数据生态系统的诞生
几十年来,公司依赖于传统数据库或数据仓库,是一个主要的专有的集中存储库,其中存储和处理了结构化数据。传统的数据仓库系统需要购买昂贵的硬件,以专有格式维护结构化数据,并依赖于集中数据和IT部门来提供分析。
该系统 - 或传统的数据仓库 - 企业收集了一定数量的结构化数据。但在2000年代中期,像谷歌这样的公司遇到了这个模型的挑战。作为互联网经济的先驱,他们必须处理比以前不同的任何原始数据,这是一种非关系格式的有意义。谷歌只是一个大公司的一个例子,需要集中进程结构化数据(例如,关系表),半结构化数据(例如,日志)和非结构化数据(例如视频和照片)。
当时,没有超级计算机足够大的这项任务。所以要跟上,谷歌将永远扩大的计算机数量连到舰队中。最终,这种计算基础架构增长如此之大,即硬件故障变得不可避免,每个程序员都必须弄清楚如何单独处理它们。为了解决这些挑战,MapReduce可以在大规模的商品化硬件上逐渐处理并生成庞大的数据集。正如纽约人所说,他们创造了“谷歌的任何程序员可以使用的工具,以便在其数据中心中挥动机器,就像他们是单个行星大小的计算机一样。”一个计算架构可以在数千台机器上处理数据的数量,并且整个公司的编码器可以使用软件从谷歌的大型数据缓存中汲取洞察力。看到Jeffery Dean和Sanjay Gh Memaw在一个题为MapReduce中宣传他们的努力是这样的:在大集群上简化数据处理。
这个著名的论文揭开了我们称之为首次开放数据生态系统及其第一个化身,Apache Hadoop。Hadoop成为这篇论文引起了两个正在研究开源网上搜索引擎的工程师的注意。Duo受到Mapreduce的启发,然后他们建立了一个自由工具,他们于2006年发布。该工具被称为Apache Hadoop,它演变为开源项目的集合,这在从学术界带来了巨大作用。主流。开源框架允许任何人处理分布在计算机集群上的大量数据集,使其成为企业的一款非常有吸引力的选择,该企业在当天收集更多数据。
现在能够收集和分析大量的原始数据,公司转向更便宜的数据湖泊中的存储,这是大量的结构化,半结构化和非结构化数据。Loffules支持的公司,如Cloudera,Hortonworks和Mapr出现了使Hadoop更容易获得企业,导致许多世界上最大的公司采用Hadoop。从中携带,基于Hadoop的数据湖泊创造了开放数据生态系统的第一次迭代,带来了生活的实际承诺。
虚假的开始:为什么Hadoop的趋势开始下降
尽管当时具有可扩展性和灵活性,但第一代开放数据生态系统并没有实现它所拟定的宏伟目标。为了保持简单,这是Hadoop和第一代生态系统短暂的三个原因:
1.Hadoop太复杂了
Hadoop的哲学是尽可能多的技术整合,交易灵活性,功能,以简单和成本效益的互操作性。但最终,Hadoop太复杂,难以难以实现最终用户理解和运营。它还需要一个沉重的,它以其为中心的实现(需要大量节点有效),因此它不足以让最终用户下载特定情况。Hadoop的另一个主要挑战是它被用于太多超出其原始意图的东西(例如交互式分析不受欢迎)。新成立的大数据团队通过存储的数据量来测量其成功。添加到所有这些都是Cloudera和Hortonworks的相关VC备份启动,每个启动都尝试在数据堆栈上解决所有内容,以不同的方向拖动开源项目。
2.难以理解数据
在传统数据仓库中,公司仔细建模了他们的数据,定义了存储信息的位置,这在所有连接的情况下都是有价值的。该过程是耗时和效率低下(通常需要几个月和妨碍效率),但它将结构放在数据上。Hadoop开辟了稍后将数据丢弃到HDFS的可能性,并担心类,消费和管理。使用Hadoop,公司可以随意将数据转移到数据湖中。公司将竞争收集越来越多的数据,但他们没有考虑围绕访问,分析或可持续性的架构设计。公司难以知道他们的数据湖和它来自哪里。他们肯定无法从中提取价值。使用可以解决此问题的工具尚未出现,企业收集了大量数据,但缺乏对消费的信心。最后,数据湖泊变成了数据沼泽。
3.经济学不起作用
在Hadoop上了几年,云计算以大的方式起飞。云使公司更容易廉价地存储毕业证数据,以及使用服务进行数据治理和管理。与此同时,Hadoop仍然是主要用于预售的用例,并且必须通过集中的IT团队定期销售和升级。扩展容量意味着购买更多硬件,需要预先投资和数月的规划和部署。在云的时代,经济学变得无法理解。
毕竟曾经说过,第一代开放数据生态系统的垮台:自由成为全部。
开放的数据生态系统重新到达:你可以拥有你的蛋糕,也可以吃它
虽然Hadoop是它的承诺,但它启动的开放数据生态系统运动(以及Apache Spark等许多相关的开源项目)是活着的并且持久。其精神符合以下原则:
开放性:转向开放技术和数据标准,以及互操作性,而不是用单个专有供应商锁定。模块化:朝着分列的软件堆栈而不是单片架构移动。多样性:依赖于各种专用工具,用于不同用例,具有各种供应商,可以竞争客户的价值。
除了推动不断发展的开放数据技术集的这些原则外,许多关键力量推动了开放数据生态系统的复兴。在云中具有更可预测的性能和弹性,查询加速技术和开源格式避免数据副本,更好地通过相关的技术等数据治理对数据内容的监督,您现在可以拥有蛋糕(以打开格式存储大量数据弹性地)也可以吃它(直接运行相关的业务分析+ AI / ML工作负载)。
在更高的级别,对于CIO和CDOS,如果数据技术因其不可避免地发展而来,则使用具有开放标准的数据堆栈和开源技术使您对数据的数据更加未来的证据。广泛地,我们认为有四种主要趋势使得今天的开放数据生态系统更易于采用。
1.云数据湖的崛起
由于亚马逊S3,Azure Data Lake Storage(ADL)和Google云存储(GCS)等服务,公司可以在云本机数据湖泊中以规模铺设结构化和非结构化数据。这消除了对昂贵的单片硬件的需求,并使组织能够在没有相关管理开销的情况下扩展数据量。此外,云中的存储成本继续下降。因此,这些存储服务已成为云中的默认着陆区,通常被认为是记录系统。云,具有规模和多样性,本身促使分解为最好的品种,灵活的服务。云数据仓库,如Snowflake,AWSRedshift 和谷歌BigQuery,虽然并不是本身开放,但也非常有助于将数据带到云端。
2.采用开源数据格式
更多公司正在采用开放数据格式,例如Apache Parquet(柱状数据存储),Apache Arrow(用于分析,人工智能和机器学习的内存格式)和Apache Iceberge(表格格式/交易层)。这使得跨各种编程语言和实现更兼容的数据 - 包括不存在的工具 - 而不是根据特定工具或供应商,其中所有主云数据湖都互操作地支持这些打开的数据格式。
3.基于云的供应商的出现支持开放数据生态系统
一套不同的供应商正在解决一遍困扰Hadoop和第一代开放数据生态系统的问题,帮助使云数据湖更加可管理。Hadoop系统管理层对用户来说太复杂,今天的报价为客户处理这件作品,然后可以专注于核心业务功能。虽然FINGEN Systems仍然需要大量资本支出,用于预售的预售和存储,但云消除了昂贵的硬件到容纳数据湖泊的需求,而是支持基于资源的定价,因此公司基于他们使用的技术计算。此外,工具已弹出,帮助用户管理云数据湖泊的每个方面:
直接在云数据湖中运行SQL查询(DREMIO ,TRINO / PRESTO)摄取数据并将其写入打开格式(Segment ,Matillion ,Airbyte,Fivetran)在数据中流媒体(Confluent, Materialize)转换数据(来自Fishtown Analytics的Looker ,DBT)提高可观察性和质量(Great Expectations,Bigeye,Anomalo,Monte Carlo,Hightup)建立治理框架(Privacera ,Alation )将数据同步到操作系统(Hightouch,Census,Gransaroo)处理策划(Airflow, Prefect, Dagster)为最终用户提供灵活和强大的消费层(InsignSpot ,Looker *)
4.在正确的抽象级别,符合最终用户的需要
在最终用户级别,开放数据生态系统中的新开发允许数据分析师,科学家和业务用户在他们喜欢的抽象级别下进行工作。这些数据用户对引擎盖下面发生的事情没有兴趣,并且不太关注相关的工作,例如手动模式更改,资源配置,数据库管理等先行开放数据生态系统所需的。相反,许多垂直集成的工具在抽象方面的级别太高。来自先前时代的许多“用户友好”的GUI集中的工具,当最终用户想要更深入时,何时无法提供足够的灵活性和深度。
虽然景观仍然迅速发展,但今天的工具旨在考虑抽象,并帮助开放数据生态系统与其需求的位置确切地满足最终用户。
什么是开放数据生态系统
为什么我们对现代开放数据生态系统看好
正如云的上升使新的开放式数据生态系统蓬勃发展,它也推动了专有云数据仓库的兴起,如Snowflake,因为业务移动初始子集到云上的数据。有些人认为Snowflake的方法,一个包括每个工作负载的单个云数据仓库,是唯一的道路。
我们认为云数据仓库和云数据湖将共存,数据流水线通常会在两者之间移动数据。与技术中的几乎所有事情一样,没有单一的灵丹妙药,真正的世界答案更复杂。然而,随着时间的推移,正如应用程序开发已经从单体架构转移到基于微服务的架构,我们可能会看到数据分析工作负载逐渐从专有数据仓库转移到开放的数据架构。这就是为什么我们在开放数据生态系统中的公司押注,如Dremio,Privacera,Alival,Idenspot,Segs和Looker。
我们对现代开放数据生态系统感到兴奋,因为它带来了众多福利:
成本效益:云数据湖泊提供了最便宜的方式来存储数据。不需要花费时间或资源转换数据以存储或分析它。可扩展性:公司可以轻松扩展他们的技术,从计算和存储的分离中受益选择:客户没有锁定在可以设定价格和条款的单个供应商。它们可以利用特定用例的最佳类型或最高值的选项。大多数工具是开源或SaaS,因此易于连接和操作。民主化:任何人都可以通过他们的首选框架访问公司的数据,而无需使用特定的工具或格式。这意味着数据分析师,数据科学家,应用程序开发人员和其他人可以有效地充分利用大多数数据。灵活性:客户可以使用他们选择的处理引擎(Spark,Dask,Dremio等)并以任何所需格式存储数据。这对于已经过时的企业,本地存储系统的企业至关重要,困难且昂贵,以完全达到云。
展望未来,我们认为公司将转向云数据仓库和云数据湖泊,以提供不同的需求并从他们的数据中获得价值很长一段时间。这一次,开放数据生态系统不会进入任何地方。