云数据仓库让企业梦想成长,希望可以仿效网络规模的成功,但是他们的野心超越了现实,因为他们想要管理不同的环境。
很多企业的IT团队计划通过公共云中的数据存储库来改善业务。向前发展的IT商店以及推动廉价存储的供应商在下一轮商业智能中看到了巨大的潜力,它将使用一系列基于云计算的服务来利用不断增长的结构化和非结构化数据的缓存。尽管如此,这种模式的最大收益仍然在很大程度上是假设性的,因为大多数企业在架构和文化上仍处于探索阶段。
对于想要走这条路线的IT商店,通常拥有一系列管理产品,包括Amazon Redshift,谷歌云平台的的Big Query和微软AzureSQL数据仓库。这些数据仓库通过与相关服务的更多抽象和集成来继续简化数据挖掘,这在某些情况下,无需调出实例。最终目标是针对各种规模的公司,效仿那些强调自动化和从数据收集中挖掘出更多信息的网络规模企业的成功。
笛卡尔实验室是位于美国纽约州洛斯阿拉莫斯市的卫星图像公司,在将其主要业务转移到谷歌云平台之前,已将其内部部署数据中心和云端的大型数据工具进行了结合。该公司存储大量原始数据,因为它并不总是知道客户会问什么问题。现在,该公司很大程度上依赖谷歌的BigQuery,Bigtable和对象存储来满足这些需求。
笛卡尔实验室联合创始人Tim Kelton表示,这一转变是以开发人员为中心的方法的一部分,员工们为了解决这个问题而将会选择最佳工具。
“最大的变化可能在微观服务中,很多不同的团队可以在两分钟内开始实施一些事情,并说,‘这是我们正在努力工作的情景吗?’而不仅仅是说,‘采用的解决方案是Oracle SQL,而且一切仍需要更多的努力。’”Kelton说。
企业已经开始将大量的原始数据库以及更传统的数据仓库纳入数据湖。同时,云计算已经成为托管数据的可行的地方,这也是在不用大量资本投资的情况下对多结构化数据进行高级分析的空间。
调研机构Gartner公司研究总监Adam Ronthal表示:“它反映出更大的愿望,能够适应我们以前无法真正驾驭的数据,或者没有技术或能力可以利用的数据类型。”
云数据仓库服务是服务提供商和客户的福音。那些超大规模平台(亚马逊网络服务(AWS),微软Azure和Google云平台)提供了成本相对低廉的存储空间,以利用数据库和其他关键系统带来的工作负载。在那里,他们的定位是出售一系列更高层次的服务,这被视为云计算的未来。
美国在线(AOL)公司采用AmazonEMR取代了Cloudera Hadoop环境,与现有设备相比,节省了大量资金;它现在将有效载荷存储在Amazon简单存储服务中,并根据需要使用EC2 Spot Instances来运行和拆除节点。下一步将是与其他AWS工具集成,例如用于基于触发器的功能的Lambda和用于流数据的Kinesis Firehose。因此,美国在线公司通过这些工具希望实现更高的效率和库存控制。
美国在线首席信息官詹姆斯·拉普莱恩表示:“由于建立了更高层次的服务,我们看到还有更多可以做的事情。
企业通往云端数据仓库更加顺畅
然而,这些更高层次的服务可能是一个相当棘手的问题。出口成本可能令人望而却步,客户应尽可能多地使用云端数据,以最大限度地利用这些专有服务。因此,尽管云端数据仓库对于可以在其选择的平台上重新开始的初创公司来说是非常有用的,但它可能会在转型期间为企业带来无数挑战。
内部结构化数据通常必须被清理或重写。而且,由于这个原因,美国在线与像同样情况下的许多其他公司一样,选择保留大部分历史数据。这些企业还必须扩大规模,以处理传统上位于本地数据中心下的大量较旧的数据集。在这些情况下,IT专业人员不仅要考虑计算和存储的成本,还要考虑网络的成本,因为扩展对存储的访问的成本可能会非常昂贵。
其他公司,如纽约时报,在不同的公共云中有工作负载。泰晤士报数据工程执行总监马特·迪根表示:“如果数据和应用等一切都在同一个地方,这样一来就简单得多,所以我们不必拥有Redshift集群,并且在Big Query中也有数据。而加入这两个数据集并不容易。”
企业IT商店也需要不同的技能,必须为文化变革做好准备。Gartner分析师Ted Chamberlin说,除了那些具有全球规模的公司可以实施,对于习惯于传统基础设施的人来说,这是不现实的。
Chamberlin说:“对于一般企业来说,这是非常有希望的,但大多数将要有两到三年的时间来改变他们的企业,摈弃他们不想要的东西。”
绑定到数据仓库的未来云计算
尽管存在这些挑战,已经开始将数据仓库迁移到公共云的企业看到了一个巨大的回报。
过去,纽约时报建立了自己的Hadoop集群和数据仓库,其中包括Informatica,Oracle和AWS等许多供应商。这种方法的一部分问题是数据太孤立或太具技术性。纽约时报正在将业务迁移到谷歌云平台,谷歌云平台最终希望成为该数据的一个单独的容器。这也使得一系列雇员使用分析工具变得更加简单。
在过去,纽约时报建立了自己的Hadoop集群和用于数据仓库,许多厂商包括Informatica、Oracle和AWS。这种方法的问题是数据太简单或太技术。纽约时报正在迁移到谷歌云平台,它最终希望成为该数据的一个单独的容器。这也使得一系列雇员使用分析工具变得更加简单。
Digan说:“我们的目标是向用户提供数据,无论是数据分析师,数据科学家,还是那些需要尽可能快速准确地了解某些内容的人员。”
泰晤士报计划让整个企业采用这个系统,并将所有内容放入BigQuery,以获得其读者的统一视图。Digan表示,他设想使用数据服务,机器学习模型和API来构建内部和外部产品,这将使该公司能够更深入地了解其读者和销售情况,反过来为读者提供更个性化的体验。泰晤士报确定了其要求其数据正确的问题,这让技术人员感到振奋,但这不是一朝一夕能够做好的事情。
“这是我们要去学习的东西,”Digan说。“现在探索很容易,所以当分析人员查询时,他们可以自己查询这些结果,但是我们不太了解我们将要进入的一切。”
本文转自d1net(转载)