数据管理:50年的数据探索所带来的商业价值

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

在过去几十年来,数据管理和商业智能已然成为了企业价值创造的核心。那么,就不妨来阅读一下本文所介绍的Computer Weekly是如何跟踪数据管理所为企业组织带来的相关承诺和磨难吧。

在过去的半个世纪中,数据管理已经成为大部分IT商业价值的助产师。

在大约二十年前的1996年11月7日,当Nicholas Enticknap撰文以纪念 Computer Weekly创刊30周年时,他写道:“20世纪90年代以来,IT为企业所提供的竞争优势越来越明显,而这也导致了数据挖掘和数据仓库应用程序的兴起。

“这同时还导致了能够使得您企业组织所拥有的数据和应用程序方面的优势能够为别人所用的一大升值,包括为客户、供应商和中介机构(如经纪公司)所用。”

二十年后,还是在这一IT大背景下,数据管理、商业智能和数据分析仍然有着特殊使命。Enticknap继续评论其是“自20世纪90年代以来,所推动的第二次重大革命:基于互联网计算的兴起。”

而在更早十年的1986年7月3日所发行的Computer Weekly报刊上,同一作者也曾谈到了类似的主题,在一系列关于当时所谓的“第五次革命”的计算相关的介绍文章中,涉及到人工智能(AI):“我们即将看到新的应用程序被陆续推出,旨在将数据转化为信息,如提供决策支持和专家系统。”

从第一代到第四代的计算,无论它们之间具体区别的细节是怎样的,都“遵循了由约翰·冯诺依曼(John vonNeumann)和他的同事们在1944年所首次提出的同样的基本计算机体系结构”,Enticknap写道,彼时一台计算机还是“一台超级强大的计算器时,而电子仍处于其起步阶段。”

而一大方面的新的典范,其中还包括了用户友好的计算机,则很好的解决了“如何充分利用在数据领域的大规模投资的问题。”

关系数据库模型和语言

Enticknap于1996年写道,到了20世纪70年代,我们已经看到,事务处理数据库的建立、而微型计算机也已经作为一种商业工具。同时,我们还看到数 据库管理系统和跨多台微型计算机的分布式处理的推出,而不再是集中于单一一台大型主机。

到那个时候,关系数据库模型打破了数据存储和应用程序之间的依赖关系,已成为了众所周知的事情。其已经由供职于IBM、牛津大学毕业的数学家英国人Tedd Codd在1970发表了一篇论文《A Relational Model of Data for Large Shared Data Banks(大型共享数据库的关系数据模型)》从理论上证明成立了。

智能业务策略分析师兼顾问迈克·弗格森为Ted Codd及其合作者和同事们工作,而剑桥数学家Chris Date则在上世纪80年代末期则为他们工作。

弗格森很惊讶的发现,IBM花了如此长的时间——大约11年的时间——才将Codd发明的关系模型转变为数据库产品。到了1978年,拉里·埃里森和他的Oracle数据库团队弥补了这一差距。而Oracle目前仍然是企业数据库领域的巨头。

IBM也是结构化查询语言(SQL)的滋生地,其是由 Donald Chamberlin和Raymond Boyce在上世纪70年代中期所发明的,而且该语言目前仍然是最被广泛使用的数据库语言。

SQL是一种实现关系模型的语言。弗格森回忆了Codd和Date在涉及距离原始概念的偏差时的不满。尽管如此,借助SQL,关系数据库——如Oracle的数据库、以及IBM的DB2、微软的SQL Server、现在由SAP所拥有的Sybase DB,已经发展壮大。

事实上,SQL在数据库领域的持久存在已十分显著。尽管在过去的10年里,有Hadoop堆栈、NoSQL数据库、Apache Spark框架这样的所谓的大数据技术的兴起,但SQL已多次作为数据查询的超级语言回归了。

数据仓库和商业智能

在纪念Computer Weekly创刊三十周年的专刊上,有一个关于数据仓库如何在1996年严重辜负了关于其炒作的故事。

“彼时,尽管围绕着这一概念有着各种各样的炒作,但在英国排名前1000名的企业组织中,仅仅只有不到10%的企业组织正在部署实施数据仓库。”据Computer Weekly的报道。而在今天,我们又

在基于大数据Hadoop的“数据湖”的领域,看到发生了类似的故事。

数据仓库体现了以分析为目的的数据库技术的演变,并主张为一家企业组织所有的业务系统数据建立集中的存储库。

这个想法主要是获取事务性数据库的数据,并将其加载到数据仓库中进行分析。这样一个对于生成数据的提取、转换和加载(ETL)的技术,迁移数据,然后利用商业智能(BI)软件将编写SQL查询的痛苦移除,来写报告和分析。

这套技术现在经常被用于处理过于缓慢和过时的任务,以及过于依赖于企业内部IT的任务。其在今天经常被用来与新一波的现代数据发现和可视化软件进行对比,包括诸如Qlik、Tableau和similar ilk,以避免IT作为一种功能。

然而,在上世纪90年代中后期和2000年代早期,弗格森非常希望重申以数据仓库、ETL和商业智能软件这三种技术为代表的生产力的基本的阶跃变化。

“彼时,数据仓库绝对需要瞄准BI市场。截至那时,我们所有的都是那些绿色和白色打印的纸张,吐出事务型数据库系统,以进行报告。”他说。

弗格森说,他曾在那个时候供职于Teradata公司,而该公司在彼时在其大规模并行处理数据库“非常具有先锋性”,并为以报告为目的进行了优化。

再加上当时兴起的ETL技术(特别是兴起于现在的Informatica公司)和BI工具——包括Business Objects公司、Cognos公司以及MicroStrategy公司,等等——数据仓库/商业智能,标志着“生产力的分水岭”,弗格森说。

他说:“早期实施了这些技术的10%的企业组织,都是由那些已经看到了洞察力的价值的管理者们所领导的”。

这种洞察力也是从SAS和(现在的IBM的SPSS预测)等数据分析技术的使用而产生的,其较少的是关于BI报告,而更多的则是关于用于预测的统计模型的建立。

数据仓库开发与来自SAP公司、Siebel的大企业资源规划(ERP)和客户关系管理(CRM)软件包的兴起并行发展。

近年来,SAP公司已经开始专攻内存、列式数据库(columnar database)平台Hana,据说这是要把分析和事务数据库模型整合在一起。

正如我们已经在Computer Weekly的报道中看到,商业软件的历史将是这一个主题的姊妹篇。

在弗格森看来,我们在这里可以说,ETL供应商们正面临“从他们的业务应用程序中获取数据,而数据模型并未得到很好的理解的压力”,以及从上世纪90年代及之后的关系数据库管理系统获取数据的压力。

网络的到来

正是由于这些技术对于数据库制造商和数据库管理员并不复杂,另一个英国人蒂姆·伯纳斯·李在1994年发明了万维网。而Computer Weekly也从90年代中期开始建立其网站。

在线事务处理(OLTP)数据库的特殊点在于,他们从来都不是为了服务于在网络上的大量并发用户而建立的,更不用说那些来自手机等移动设备的网络访问了,尤其是随着现如今的智能手机的兴起。

在1996年3月28日出版的Computer Weekly上,Julia Vowler报道了关系数据库供应商和对象数据库供应商公司(如Informix公司)之间的网络战争。彼时,Informix公司的技术被公认为更适合于支持文本、音频、视频、HTML和Java;以及连接数据库到Web服务器。

据报道,Informix公司的客户包括摩根斯坦利、雷曼兄弟和美国宇航局。

而到了今天,谁记得面向对象的数据库管理系统公司呢?当然,这方面的技术仍然在不断发展,面向对象的编程语言包括诸如C#、Python和Perl、Ruby仍在继续蓬勃发展。

但是,那些试图取代甲骨文和其它关系数据库供应厂商的企业基本上都被业内其他企业所取代了——Informix公司在2001年由IBM收购。

大数据的兴起

然而,关系模型的霸权最近遭到了来自NoSQL(不仅仅是SQL,NotOnlySQL)公司热潮高涨的质疑和挑战,其往往是基于开源技术的,但也并不全是基于开源技术的。MarkLogic便是一款非开源的NoSQL技术。但是,我们现在已经有了Basho( Rick技术)、Couchbase、DataStax公司(Cassandra数据库)和MongoDB。

弗格森将这个群体总结为提供了非常具体的使用案例,通常与电子商务或其他网站操作运营事务相关。

在2014年,Teradata公司的首席技术官Stephen Brobst在接受Computer Weeky 的采访时表示,NoSQL的供应商们最终会走上对象数据库供应商们的老路。

“在硅谷,SQL和NoSQL的偏执狂之间将会有一场宗教似的战争。而最终,理性会赢得胜利。在SQL中执行一切的工作任务绝不是一个好主意,而所有工作任务都不在SQL中执行也不是一个好主意。”Brobst说。

“而关于NoSQL,Mongo在为Java程序员们增强易用性方面确实做得相当不错。而Cassandra则是很好的网络日志。但我相信,未来所将会发生的事情很可能是20世纪90年代对象数据库所发生事情的重演。”他说。

“当时的呼声是’关系模型已死',其已经统治有20年了”。但是,从本质上讲,关系数据库工程师们挖走了所有的好点子,并带给了对象数据库,扼杀了那些纯粹的对象数据库的工程师们。”他说。

诸如此类的任何事情都可以证明这种预测的准确性,而较新的数据库供应商所兴起的基础与已经兴起的Hadoop系列技术的基础则是一样的——大数据。

大数据是我们现如今所经常到处流传的一大术语,但可以说包括了从社交媒体数据、机器生成的数据和其他不符合行和列的关系数据库技术的各种数据类型。

自从战略公司麦肯锡在其于2011年5月发布的报告中将大数据这一术语描述为:“创新、市场竞争和生产力的下一个前沿领域,企业CXO级别的企业领导人将因此而被自己的IT部门卡住咽喉”以来,“我们的大数据在哪里?我们怎样才能从中赚钱呢?”一直是企业高层执行人员所魂牵梦绕的问题。有些人甚至可能问:“Hadoop是什么?”

Hadoop技术,或者,更准确地说,Hadoop分布式文件系统——是一款开源版本的并行编程框架,称为MapReduce,最初是由谷歌开发的。

其简化了分布在商品硬件上的跨大型数据集的数据处理,是由Doug Cutting和Mike Cafarella十年前在雅虎公司开发的。Cutting现在是Cloudera的高管,该公司是Hadoop的分销商公司之一,还包括Hortonworks和MapR。

MapReduce本身即将被由DataBricks公司商品化的Apache Spark所取代(或补充)。Spark是另一种并行处理架构,但它并不局限于Hadoop技术,并且可以在关系数据存储以及NoSQL数据库运行。其也不是batchy,而MapReduce则是的。

数据管理的未来

今天,数据管理是一个令人兴奋的、快速发展的领域。而根据Computer Weekly的报道,在过去的50年——尤其是在过去20年间,随着网络和大数据的兴起,我们对此已经讨论了太多。

我们还讨论过太多关于主数据管理(MDM)、共享数据的安全管理等议题,这些通常是关于真实的单一版本;而MDM的基础——数据管理,总是会回来困扰数据专业人士和数据库供应商。

而弗格森的观点则是,“企业IT现在比任何时候都需要更多的工具,以便降低复杂性,而CIO们也不再需要花大钱来支付数据科学与数据工程方面的技能了。在某种程度上,这是回到了Codd的时代。我们需要数据的独立性。那么,数据存储被在哪里有什么关系?工具和应用程序不应该知道这一点。”

无论技术将如何打造未来的数据管理架构的形态,该领域只能发展成为商业价值的主要承担者之一。其来自IT,并为了企业组织的发展及其未来。而更重要的是,我们这些为此而记录和撰写文章的人将有大量的工作要做。

本文转自d1net(转载)

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
1月前
|
人工智能 关系型数据库 分布式数据库
拥抱Data+AI|“全球第一”雅迪如何实现智能营销?DMS+PolarDB注入数据新活力
针对雅迪“云销通App”的需求与痛点,本文将介绍阿里云瑶池数据库DMS+PolarDB for AI提供的一站式Data+AI解决方案,助力销售人员高效用数,全面提升销售管理效率。
|
4月前
|
物联网 数据管理 Apache
拥抱IoT浪潮,Apache IoTDB如何成为你的智能数据守护者?解锁物联网新纪元的数据管理秘籍!
【8月更文挑战第22天】随着物联网技术的发展,数据量激增对数据库提出新挑战。Apache IoTDB凭借其面向时间序列数据的设计,在IoT领域脱颖而出。相较于传统数据库,IoTDB采用树形数据模型高效管理实时数据,具备轻量级结构与高并发能力,并集成Hadoop/Spark支持复杂分析。在智能城市等场景下,IoTDB能处理如交通流量等数据,为决策提供支持。IoTDB还提供InfluxDB协议适配器简化迁移过程,并支持细致的权限管理确保数据安全。综上所述,IoTDB在IoT数据管理中展现出巨大潜力与竞争力。
124 1
|
5月前
|
SQL NoSQL 数据管理
数据管理DMS使用问题之如何批量导入MongoDB的数据文件
阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能,助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。
|
1月前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
2月前
|
存储 人工智能 安全
【荣誉奖项】荣获2024数据治理优秀产品!瓴羊Dataphin联合DAMA发布数据管理技能认证
瓴羊Dataphin连续俩年获得DAMA年度优秀数据治理产品奖,本次与DAMA联合发布“DAMA x 瓴羊 数据管理技能认证”,助力提升全民数据素养。
169 0
【荣誉奖项】荣获2024数据治理优秀产品!瓴羊Dataphin联合DAMA发布数据管理技能认证
|
2月前
|
数据采集 安全 数据管理
通信行业数据治理:如何实现高效、安全的数据管理?
在未来的发展中,通信行业的企业应加强数据治理意识,提高数据治理能力;同时,积极开展跨行业的合作创新,共同推动行业的繁荣与发展。相信在不久的将来,通信行业将迎来更加美好的明天。
|
4月前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
226 1
|
4月前
|
Java 测试技术 容器
从零到英雄:Struts 2 最佳实践——你的Web应用开发超级变身指南!
【8月更文挑战第31天】《Struts 2 最佳实践:从设计到部署的全流程指南》深入介绍如何利用 Struts 2 框架从项目设计到部署的全流程。从初始化配置到采用 MVC 设计模式,再到性能优化与测试,本书详细讲解了如何构建高效、稳定的 Web 应用。通过最佳实践和代码示例,帮助读者掌握 Struts 2 的核心功能,并确保应用的安全性和可维护性。无论是在项目初期还是后期运维,本书都是不可或缺的参考指南。
55 0
|
4月前
|
SQL 存储 数据管理
掌握SQL Server Integration Services (SSIS)精髓:从零开始构建自动化数据提取、转换与加载(ETL)流程,实现高效数据迁移与集成——轻松上手SSIS打造企业级数据管理利器
【8月更文挑战第31天】SQL Server Integration Services (SSIS) 是 Microsoft 提供的企业级数据集成平台,用于高效完成数据提取、转换和加载(ETL)任务。本文通过简单示例介绍 SSIS 的基本使用方法,包括创建数据包、配置数据源与目标以及自动化执行流程。首先确保安装了 SQL Server Data Tools (SSDT),然后在 Visual Studio 中创建新的 SSIS 项目,通过添加控制流和数据流组件,实现从 CSV 文件到 SQL Server 数据库的数据迁移。
348 0
|
5月前
|
运维 数据管理 数据库
数据管理DMS操作报错合集之数据归档时,遇到报错:"DMS获取内容为空,无须备份",该怎么办
阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能,助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。

热门文章

最新文章