Teradata大数据新动作:通过统一数据架构拥抱开源

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

ZDNET至顶网CIO与应用频道 08月25日 综合报道(文/丁慧茹): 之前我们在提到Teradata的大数据产品和方案时,必然要提到2011年被Teradata收购的Aster Data(现名Teradata Aster)。Teradata Aster在Teradata统一数据架构中承担着数据分析和探索的重任。我们知道Teradata的大数据架构中最引以为傲的就是将数据仓库、Aster以及Hadoop做了最好的整合,形成统一数据架构,并且在金融、电信等行业形成了非常成熟的行业应用案例。

在大中华区,Teradata在大数据方面有了更新的动作,Teradata Aster事业部也正式变更为Teradata大数据事业部,其承担的是Teradata在大数据层面无论是技术还是应用方面的更新和拓展工作。

增加更多新功能 加快与Hadoop的整合

关于Teradata的统一数据架构(UDA)以及Aster在其中扮演的角色,在前两年我们都做过很多介绍。在这个开放的数据分析平台上,数据仓库提供整个企业级的单一视图、Aster承担数据挖掘和探索平台、Hadoop主要承担文件存储和ELT等功能。

至于Aster和Hadoop的区别,Teradata天睿公司大中华区大数据事业部总监孔宇华是这样描述的:“Hadoop下面是文件存储系统,上面用MapReduce做运算引擎。而Aster最大的不同是底层通过数据库做存储,上面有不同的运算引擎,诸如SQL、MapReduc、文本、关联分析、图像分析等。”同时,Aster提供业内使用最为广泛的SQL接口。

Teradata大数据新动作:通过统一数据架构拥抱开源

Teradata天睿公司大中华区大数据事业部总监孔宇华

孔宇华强调,在Aster里面有各种分析工具,需要什么样的工具就直接调用,而且不用转移数据的存储位置。

但是不能否认,Hadoop也体现出加速发展的趋势,尤其是近一年来更新了众多版本,并增加了各种新的功能模块。在Teradata看来,开源社区对Hadoop的影响和贡献很大,所以Teradata不会在这方面尝试改变社区的发展方向。

“我们会尽量拥抱更多的开源产品,通过与HortonWorks合作,在Hadoop上面做开发。”孔宇华也指出,因为Storm和Spark开始成熟,可以实现一些流分析的应用,因此Teradata也会在这方面做相应的研究和应用。

同时,近期Teradata收购了两家公司,其中Revelytix专长实现Hadoop上的元数据管理,而Hadapt更是能够在Hadoop上基于SQL建立数据仓库。“我们收购这两家公司的人员资产和知识产权,这将扩展Teradata的大数据产品组合,增强Teradata统一数据架构功能。”孔宇华介绍到。

目前Teradata在推动Hadoop的应用其实都是基于统一数据架构,可以让客户更好地利用Hadoop和其他的大数据分析解决方案。“这些平台应该是整合的,而不是孤立的,我们不希望每一个数据平台,如Hadoop、数据仓库、探索平台和数据集市等是不同的独立平台,那样企业就会形成数据孤岛。”因此,在Teradata的统一数据架构里面还有一个工具就是QueryGrid,其可以整合和访问分布在不同平台的数据,做到更好的数据共享。

我们可以看到,今年Teradata在Hadoop方面做了很多的工作,也看到了Teradata大数据战略中通过强化统一数据架构,拥抱快速发展的开源解决方案,帮助客户获得各种不同解决方案优势。

此外,在今年7月份,Teradata在支持开源解决方案的重大突破就是实现Aster与R的整合。因此,在整个分析引擎中,除了SQL、MapReduce等之外,还增加了R。孔宇华说:“Aster与R的整合,是一个强强联合,R上面有很多不同的算法、不同的分析函数的展示方法,可以通过Aster获得分布式高性能计算。。”现在Aster这把瑞士军刀将能够帮助R语言分析师,通过开发的他们熟悉的R语言和工具,获得强大的处理能力及丰富的分析方法。分析师还能够从多个数据源访问海量整合数据。

当然,Teradata对统一数据架构的功能更新和强化一直在继续,无论是从数据获取、存储还是分析层面都加入了更多的功能。但是我们可以看到,Teradata在补充这些功能时,前提始终是基于这个“开放并包”的统一数据架构,而不是孤立的增加功能。

更多传统行业成为目标客户

前文我们提到了Teradata大数据功能和技术方面的新进展,而在行业应用方面,从与孔宇华的采访中,也能感受到Teradata在一些传统领域的“野心”。

以前提到Teradata的客户时,我们可以数出一堆大金融企业、电信运营商,这些都是Teradata的优势领域。而从前文的各种功能更新上也看到,其实Teradata在降低大数据分析的应用门槛,无论是与Hadoop的各种整合,还是与R的整合等,这其实在一定程度降低了更多的传统企业应用大数据的技术门槛。

孔宇华在提到Teradata的统一数据架构的优势时,也提到企业并不需要一次将所有的数据进行分析,而是可以将某一些数据快速地完成从获取、存储、探索到获得价值这样的一个流程,企业可以对数据的价值“先睹为快”,然后再决定自己的大数据战略真正是怎样的。

这也就是“大数据从小做起。”

而这样一种思路必然会对Teradata进军一些数据积累并不很好、IT技术并不是很强的行业产生推动作用。

在采访孔宇华时,他提到Teradata的一些大数据成功案例时,聚焦在了三个领域,即医疗、零售和高科技制造业。据其透露,这三个领域也是之后Teradata在中国发力拓展的行业。

关于这三个行业的应用场景,孔宇华也做了一些举例。比如医疗行业,可以针对同一病症不同患者的治疗周期和方法进行分析,以得出为何不同的患者的花费会有较大的差距。当然在医疗的应用场景并不是只有这么简单,还有诸如区域医疗、临床路径等。

大数据在被提出来之时,很多人将目光放在了互联网、金融、电信等行业,其实我们应该看到所有的行业都有着挖掘数据价值的愿望。而更多的传统行业,一方面技术人才并不多,另一方面数据积累也并不完善,Teradata在大数据上的思路显然照顾了这些行业的需求,更加追求易用和包容性,以让更多的行业并不需要一开始大而全的做大数据,而是从小做起,一步步感受大数据的魅力和价值。

原文发布时间为:2014年08月25日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
22天前
|
消息中间件 存储 缓存
十万订单每秒热点数据架构优化实践深度解析
【11月更文挑战第20天】随着互联网技术的飞速发展,电子商务平台在高峰时段需要处理海量订单,这对系统的性能、稳定性和扩展性提出了极高的要求。尤其是在“双十一”、“618”等大型促销活动中,每秒需要处理数万甚至数十万笔订单,这对系统的热点数据处理能力构成了严峻挑战。本文将深入探讨如何优化架构以应对每秒十万订单级别的热点数据处理,从历史背景、功能点、业务场景、底层原理以及使用Java模拟示例等多个维度进行剖析。
49 8
|
24天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
193 7
|
24天前
|
数据采集 搜索推荐 数据管理
数据架构 CDP 是什么?
数据架构 CDP 是什么?
50 2
|
24天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
38 2
|
27天前
|
大数据
【赵渝强老师】大数据主从架构的单点故障
大数据体系架构中,核心组件采用主从架构,存在单点故障问题。为提高系统可用性,需实现高可用(HA)架构,通常借助ZooKeeper来实现。ZooKeeper提供配置维护、分布式同步等功能,确保集群稳定运行。下图展示了基于ZooKeeper的HDFS HA架构。
|
28天前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
110 3
【赵渝强老师】基于大数据组件的平台架构
|
21天前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
24 4
|
1月前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
55 3
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
78 1