Teradata大数据新动作:通过统一数据架构拥抱开源

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

ZDNET至顶网CIO与应用频道 08月25日 综合报道(文/丁慧茹): 之前我们在提到Teradata的大数据产品和方案时,必然要提到2011年被Teradata收购的Aster Data(现名Teradata Aster)。Teradata Aster在Teradata统一数据架构中承担着数据分析和探索的重任。我们知道Teradata的大数据架构中最引以为傲的就是将数据仓库、Aster以及Hadoop做了最好的整合,形成统一数据架构,并且在金融、电信等行业形成了非常成熟的行业应用案例。

在大中华区,Teradata在大数据方面有了更新的动作,Teradata Aster事业部也正式变更为Teradata大数据事业部,其承担的是Teradata在大数据层面无论是技术还是应用方面的更新和拓展工作。

增加更多新功能 加快与Hadoop的整合

关于Teradata的统一数据架构(UDA)以及Aster在其中扮演的角色,在前两年我们都做过很多介绍。在这个开放的数据分析平台上,数据仓库提供整个企业级的单一视图、Aster承担数据挖掘和探索平台、Hadoop主要承担文件存储和ELT等功能。

至于Aster和Hadoop的区别,Teradata天睿公司大中华区大数据事业部总监孔宇华是这样描述的:“Hadoop下面是文件存储系统,上面用MapReduce做运算引擎。而Aster最大的不同是底层通过数据库做存储,上面有不同的运算引擎,诸如SQL、MapReduc、文本、关联分析、图像分析等。”同时,Aster提供业内使用最为广泛的SQL接口。

Teradata大数据新动作:通过统一数据架构拥抱开源

Teradata天睿公司大中华区大数据事业部总监孔宇华

孔宇华强调,在Aster里面有各种分析工具,需要什么样的工具就直接调用,而且不用转移数据的存储位置。

但是不能否认,Hadoop也体现出加速发展的趋势,尤其是近一年来更新了众多版本,并增加了各种新的功能模块。在Teradata看来,开源社区对Hadoop的影响和贡献很大,所以Teradata不会在这方面尝试改变社区的发展方向。

“我们会尽量拥抱更多的开源产品,通过与HortonWorks合作,在Hadoop上面做开发。”孔宇华也指出,因为Storm和Spark开始成熟,可以实现一些流分析的应用,因此Teradata也会在这方面做相应的研究和应用。

同时,近期Teradata收购了两家公司,其中Revelytix专长实现Hadoop上的元数据管理,而Hadapt更是能够在Hadoop上基于SQL建立数据仓库。“我们收购这两家公司的人员资产和知识产权,这将扩展Teradata的大数据产品组合,增强Teradata统一数据架构功能。”孔宇华介绍到。

目前Teradata在推动Hadoop的应用其实都是基于统一数据架构,可以让客户更好地利用Hadoop和其他的大数据分析解决方案。“这些平台应该是整合的,而不是孤立的,我们不希望每一个数据平台,如Hadoop、数据仓库、探索平台和数据集市等是不同的独立平台,那样企业就会形成数据孤岛。”因此,在Teradata的统一数据架构里面还有一个工具就是QueryGrid,其可以整合和访问分布在不同平台的数据,做到更好的数据共享。

我们可以看到,今年Teradata在Hadoop方面做了很多的工作,也看到了Teradata大数据战略中通过强化统一数据架构,拥抱快速发展的开源解决方案,帮助客户获得各种不同解决方案优势。

此外,在今年7月份,Teradata在支持开源解决方案的重大突破就是实现Aster与R的整合。因此,在整个分析引擎中,除了SQL、MapReduce等之外,还增加了R。孔宇华说:“Aster与R的整合,是一个强强联合,R上面有很多不同的算法、不同的分析函数的展示方法,可以通过Aster获得分布式高性能计算。。”现在Aster这把瑞士军刀将能够帮助R语言分析师,通过开发的他们熟悉的R语言和工具,获得强大的处理能力及丰富的分析方法。分析师还能够从多个数据源访问海量整合数据。

当然,Teradata对统一数据架构的功能更新和强化一直在继续,无论是从数据获取、存储还是分析层面都加入了更多的功能。但是我们可以看到,Teradata在补充这些功能时,前提始终是基于这个“开放并包”的统一数据架构,而不是孤立的增加功能。

更多传统行业成为目标客户

前文我们提到了Teradata大数据功能和技术方面的新进展,而在行业应用方面,从与孔宇华的采访中,也能感受到Teradata在一些传统领域的“野心”。

以前提到Teradata的客户时,我们可以数出一堆大金融企业、电信运营商,这些都是Teradata的优势领域。而从前文的各种功能更新上也看到,其实Teradata在降低大数据分析的应用门槛,无论是与Hadoop的各种整合,还是与R的整合等,这其实在一定程度降低了更多的传统企业应用大数据的技术门槛。

孔宇华在提到Teradata的统一数据架构的优势时,也提到企业并不需要一次将所有的数据进行分析,而是可以将某一些数据快速地完成从获取、存储、探索到获得价值这样的一个流程,企业可以对数据的价值“先睹为快”,然后再决定自己的大数据战略真正是怎样的。

这也就是“大数据从小做起。”

而这样一种思路必然会对Teradata进军一些数据积累并不很好、IT技术并不是很强的行业产生推动作用。

在采访孔宇华时,他提到Teradata的一些大数据成功案例时,聚焦在了三个领域,即医疗、零售和高科技制造业。据其透露,这三个领域也是之后Teradata在中国发力拓展的行业。

关于这三个行业的应用场景,孔宇华也做了一些举例。比如医疗行业,可以针对同一病症不同患者的治疗周期和方法进行分析,以得出为何不同的患者的花费会有较大的差距。当然在医疗的应用场景并不是只有这么简单,还有诸如区域医疗、临床路径等。

大数据在被提出来之时,很多人将目光放在了互联网、金融、电信等行业,其实我们应该看到所有的行业都有着挖掘数据价值的愿望。而更多的传统行业,一方面技术人才并不多,另一方面数据积累也并不完善,Teradata在大数据上的思路显然照顾了这些行业的需求,更加追求易用和包容性,以让更多的行业并不需要一开始大而全的做大数据,而是从小做起,一步步感受大数据的魅力和价值。

原文发布时间为:2014年08月25日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
1月前
|
存储 机器学习/深度学习 人工智能
数据与生命的对话:当大数据遇上生物信息学
数据与生命的对话:当大数据遇上生物信息学
71 17
|
21天前
|
机器学习/深度学习 存储 分布式计算
数据科学 vs. 大数据:一场“烧脑”但有温度的较量
数据科学 vs. 大数据:一场“烧脑”但有温度的较量
71 2
|
1月前
|
存储 SQL 分布式计算
别让你的数据“裸奔”!大数据时代的数据隐私保护实战指南
别让你的数据“裸奔”!大数据时代的数据隐私保护实战指南
88 19
|
2月前
|
存储 运维 Serverless
千万级数据秒级响应!碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践
碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构,解决了海量数据处理中的资源利用率低、并发能力不足等问题,显著降低了硬件和运维成本。实时查询性能提升8倍,查询出错率减少30倍,集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验,还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。
250 69
|
25天前
|
存储 Cloud Native 关系型数据库
PolarDB开源:云原生数据库的架构革命
本文围绕开源核心价值、社区运营实践和技术演进路线展开。首先解读存算分离架构的三大突破,包括基于RDMA的分布式存储、计算节点扩展及存储池扩容机制,并强调与MySQL的高兼容性。其次分享阿里巴巴开源治理模式,涵盖技术决策、版本发布和贡献者成长体系,同时展示企业应用案例。最后展望技术路线图,如3.0版本的多写多读架构、智能调优引擎等特性,以及开发者生态建设举措,推荐使用PolarDB-Operator实现高效部署。
119 3
|
1月前
|
传感器 监控 大数据
别让“数据”白跑!大数据也能拯救地球
别让“数据”白跑!大数据也能拯救地球
68 15
|
1月前
|
机器学习/深度学习 算法 搜索推荐
数据不忽悠:如何用大数据预测未来?
数据不忽悠:如何用大数据预测未来?
78 12
|
2月前
|
SQL 分布式数据库 Apache
网易游戏 x Apache Doris:湖仓一体架构演进之路
网易游戏 Apache Doris 集群超 20 个 ,总节点数百个,已对接内部 200+ 项目,日均查询量超过 1500 万,总存储数据量 PB 级别。
网易游戏 x Apache Doris:湖仓一体架构演进之路
|
2月前
|
负载均衡 算法 关系型数据库
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL集群架构负载均衡故障排除与解决方案
本文深入探讨 MySQL 集群架构负载均衡的常见故障及排除方法。涵盖请求分配不均、节点无法响应、负载均衡器故障等现象,介绍多种负载均衡算法及故障排除步骤,包括检查负载均衡器状态、调整算法、诊断修复节点故障等。还阐述了预防措施与确保系统稳定性的方法,如定期监控维护、备份恢复策略、团队协作与知识管理等。为确保 MySQL 数据库系统高可用性提供全面指导。
下一篇
oss创建bucket