开源与闭源的融合构建大数据分析生态

简介:

大数据分析在日积月累的过程中正在不断发生着改变,之前数据分析更多聚焦在B2C领域,现在随着物联网的发展则转向B2B领域,形成B2B+B2C的模式。麦肯锡报告显示,数据分析70%的价值来自于B2B,30%的价值来自于B2C,所以大家都在向2B市场分析来做转型。

但目前B2B数据分析整个市场总量还很小,而且对数据分析的要求更高。因为单一平台不能解决大数据的所有问题,这也有了开源与闭源技术的混合需求,构建大数据分析的生态系统,在IoT数据大量爆发的时代为各行各业提供对应的分析能力。

IoT数据分析需要7大支撑

IoT的快速发展让数据分析也要更进一步,因为IoT的数据量是传统数据的100倍,这就需要强大可扩展的数据平台来存储和处理这些数据;IoT的地理空间数据比例非常大,需要拥有先进的地理空间分析能力;IoT中有大量基于时间序列的时间数据需要分析,传统SQL并不善于处理。

数据量、地理空间数据、时间序列数据三方面都是IoT数据相比于传统数据的不同之处。Teradata天睿公司首席技术官宝立明(Stephen Brobst)提到,随着IoT数据的可分析也标志着我们已经真的进入了“万物皆可分析”的时代,通过传感器采集到的数据终于可以发挥其价值。

构建大数据分析生态实现开源与闭源的融合

Teradata天睿公司首席技术官宝立明(Stephen Brobst)

其实在2015年Teradata Partners大会上,Teradata就提出了“万物皆可分析”(Analytics of Everything)的概念。但基于传感器的数据应用更多集中在制造业层面,所以Teradata的一个业务重点便是要向制造业转移。当然万物皆可分析也包含了来自各行各业的数据,如电信行业收集手机的地理位置信息,医疗行业医疗设备收集的身体指标数据等等。

在Teradata提供的产品中对于IoT数据的分析可以分为七类,第一、Teradata Listener框架,以实时的方式把海量的数据导入到Teradata系统;第二、利用RESTful API实现各种技术平台的对接;第三、可靠、高可伸缩的数据传输技术;第四、存储技术;第五、可兼容技术;第六、压缩技术;第七、即将推出TeradataIntelliFlex一体机产品,采用下一代海量并行处理(MPP)架构,能以非常高的经济性,有效地进行海量数据的处理。

除了刚刚说到的七部分,Teradata实现万物皆可分析的基础还是统一数据架构(UDA),其结合了Teradata的技术、开源技术、数据湖等技术。

“我们可以将数据先放到数据湖中存储,经过Aster进一步处理,导入到数据仓库为BI使用。”宝立明说道,UDA中的Aster是一个非常适合处理传感器数据的平台,而且已经被移植到Hadoop上,既可以在文件系统上去执行,也可以在开源的数据库上应用。

从跳高演变看技术整合

正如UDA的架构,开源和闭源已经实现融合,而这在之前是不可想象的。宝立明用跳高姿势的演变举例,在之前跳高的姿势都是剪刀腿,而到了80年代跳高遇到了一个转型期,背越式的出现比剪刀腿能取得更好的成绩。

这也使得越来越多的选手开始采用背越式,当然选手可以依然待在安全区,但你最终不会成为赢家。通过12年的发展背越式完全取代了剪刀腿,这就如同采用新技术也是一个痛苦的过程一样,企业需要实现商业技术和开源技术的整合。

在15年前,Teradata就已经把数据库产品跑在Unix、Linux开源的版本之上,一直到今天也是如此。

在UDA的组合中不仅有开源Hadoop,宝立明还特别提到同Facebook合作研发的开源分布式SQL查询引擎Presto,以及运行在Presto上面的QueryGrid,其可以在Hadoop平台发起并完成跨平台查询,所以UDA已经是一个商业技术和开源技术融合的开放架构。

同时Teradata也为机器学习提供一个具有高可延展性的大数据平台,把机器学习的算法,像R、Ruby内嵌到平台之上,供Teradata的数据科学家做各种各样的实验和探索,更好地找到一些成熟可商用的技术,整合到解决方案中。

在云计算战略上,为了和企业的应用趋势匹配,数据分析的重心也正在向云中转移,尤其是现在企业的业务系统逐渐前移到云端,分析也将转移到云端。

Teradata的原则是给客户提供同类最佳技术的选择,AWS是目前宣布的第一家公有云合作伙伴,未来在Microsoft Azure、谷歌云上都会提供服务,目标是在不同云平台上都可以提供同样的数据分析能力。


 

原文发布时间为:2016-7-14

本文作者:王聪彬

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网


目录
相关文章
|
19天前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
23天前
|
存储 大数据 数据处理
PHP 与大数据:构建高效数据处理系统
传统的数据处理系统往往难以应对大规模数据的处理需求,而PHP作为一种常用的服务器端脚本语言,在数据处理方面也有其独特的优势。本文将探讨如何利用PHP构建高效的大数据处理系统,结合实际案例分析其应用场景及优势所在。
15 2
|
1月前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
1月前
|
存储 消息中间件 大数据
Go语言在大数据处理中的实际应用与案例分析
【2月更文挑战第22天】本文深入探讨了Go语言在大数据处理中的实际应用,通过案例分析展示了Go语言在处理大数据时的优势和实践效果。文章首先介绍了大数据处理的挑战与需求,然后详细分析了Go语言在大数据处理中的适用性和核心技术,最后通过具体案例展示了Go语言在大数据处理中的实际应用。
|
1月前
|
数据采集 运维 数据挖掘
API电商接口大数据分析与数据挖掘 (商品详情店铺)
API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中,各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。
|
3月前
|
关系型数据库 MySQL Serverless
高顿教育:大数据抽数分析业务引入polardb mysql serverless
高顿教育通过使用polardb serverless形态进行数据汇总,然后统一进行数据同步到数仓,业务有明显高低峰期,灵活的弹性伸缩能力,大大降低了客户使用成本。
|
3月前
|
机器学习/深度学习 数据采集 算法
大数据分析技术与方法探究
在当今信息化时代,数据量的增长速度远快于人类的处理能力。因此,如何高效地利用大数据,成为了企业和机构关注的焦点。本文将从大数据分析的技术和方法两个方面进行探究,为各行业提供更好的数据应用方向。
|
2月前
|
API
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
106 0
|
3月前
|
数据挖掘
离线大数据分析的应用
离线大数据分析的应用
|
13天前
|
机器学习/深度学习 人工智能 安全
Azure Databricks实战:在云上轻松进行大数据分析与AI开发
【4月更文挑战第8天】Databricks在大数据分析和AI开发中表现出色,简化流程并提高效率。文中列举了三个应用场景:数据湖分析、实时流处理和AI机器学习,并阐述了Databricks的一体化平台、云原生弹性及企业级安全优势。博主认为,Databricks提升了研发效能,无缝集成Azure生态,并具有持续创新潜力,是应对大数据挑战和加速AI创新的理想工具。
36 0