大数据需要高效的存储平台—“4V”金字塔彰显大数据价值

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

由业务驱动的金融大数据

为什么在官方的健康组织还没有发布健康趋势之前,Google就能利用它的搜索引擎准确地预测流行病的爆发? 大数据给我们所有人上了一课,也让我们更加坚信,数据本身是有价值的,关键看你如何处理、分析和使用它。

2013年,中国金融界热议最多的或许是互联网金融。确实,第三方支付、P2P、网贷、众筹融资、余额宝、微信支付等发展迅速。互联网金融如火如荼所依靠的不仅是简单的“通道”,背后隐藏的是大数据时代的鲜明特征:数据的积累和挖掘分析。

如阿里金融,通过数据化的平台开展征信操作,将商户的信贷风险控制在较低的程度,从而能够实现日均100万左右的利息收入;如淘宝运费险“秘密”,根据统计,淘宝用户运费险索赔率在50%以上,也就是说,10个淘宝用户购买运费险,5个以上将会退换货,保险公司需要赔付,仅从保险产品设计的角度,这个产品并不是很成功,该产品仅能带来5%的利润,但是保险公司仍然坚持在做,并且不断有新的保险公司向淘宝“加盟”,其秘密在于,客户购买运费险后保险公司就可以获得该客户的个人基本信息,包括手机号和银行账户信息等,并能够了解该客户购买的产品信息,从而实现其他保险产品的精准推送,保险公司看中的正是5%利润背后更大的数据价值,假设该客户购买并退货的是婴儿奶粉,那么保险公司就可以估计该客户家里有小孩,可以向其推荐关于儿童疾病险、教育险等相关产品,这比5%的利润更有吸引力。这一思路可以继续延伸到金融产品销售、VIP客户挖掘、消费贷款等领域。

不光是互联网企业看到了大数据背后的价值,传统银行也在加速对大数据平台的建设。例如工商银行、建设银行、招商银行、民生银行等都在自建电商平台或已经完成其平台建设,部份银行正在跟京东、苏宁等大型电商平台联手,“躺着赚钱”的传统银行为何要进入这个微利甚至完全是“烧钱”的领域,其背后都是希望通过掌握大数据,来提升银行传统业务的利润。

在企业内部,大数据可以为企业提供更科学的决策依据;在企业外部, 大数据还是收集客户信息,建立360°客户视图,让企业实现精准化营销的工具。从表面看,大数据带来的是一种技术上的变革,它有效地提高了企业和社会的生产力,而在这种技术变革的背后是业务需求使然,是人们对提高效率的不断追求在推动这种变革的发生。

纵向打穿“4V”

在大数据分析工具出现前,商业智能、数据挖掘已经进行了多年,为什么数据的价值没有得到企业充分的重视呢?以前的数据挖掘是对抽样数据进行分析,而且数据分析是离线的,数据的价值没能得到全面、实时的展现。

那么构建一个可用的大数据系统,应该从何处入手呢?

华为抛出了金字塔型“4V”理论,展现了从Volume到Velocity 再到Variety,最终到Value的层次化的递进式的创造大数据价值的方法论。

第一步,企业需要建立一个能够高效处理海量数据的存储架构平台,它既能处理大量的小文件,也能处理单体较大的文件。

第二步,这个存储架构平台要具备极高的处理性能,因为大数据对实时处理的要求非常高。

第三步,这个存储架构平台要能处理多样化的数据,包括结构化数据和非结构化数据。

只有通过前面三步打下的基础,企业用户才能进入最后一步,在一个高效的专门为大数据构建和优化的平台上进行数据分析和挖掘,并最终获得所需的价值。

大数据价值的实现过程是一个递进的逐层深入的过程,但是建立高效的存储架构平台是前提,它是大数据落地的基础。

大数据存储平台是大数据分析的前提

现在人们一谈到大数据,首先会想到Hadoop。其实,Hadoop只是大数据基础架构与上层应用分析之间的一个桥梁,而不是大数据的全部。在广电等很多领域, 大数据处理并不一定要用到Hadoop。现在,使用Hadoop 更多的是一些互联网企业。然而除了互联网大数据以外,行业大数据同样重要,甚至价值密度更高。因此, 将Hadoop与大数据划等号,这是一个认识上的误区。业内一位大数据专家指出,大数据不是一个分析工具,而是新的基础架构。

华为认为,大数据分析的一个重要前提是,必须先建立一个高效的大数据存储平台。那么,高效又是如何来衡量的呢?

高效的第一个衡量指标是就是性能。性能是大数据存储平台的基石之一。比如,中央电视台每晚7:30要准时播出天气预报,如果气象分析要经过24小时才能得到最后的结果,就会错过天气预报播出的时间,即使得到的预测结果再准确也是无用的结果。不仅是在大数据方面, 在整个IT领域,企业用户对性能的追求都是无止境的, 只不过大数据对实时处理的要求非常高,所以高性能对于大数据来说显得尤为重要。

其次,大数据强调的是简化使用,提高效率。如果不具备专业技能和人员,Hadoop的实施将非常困难。简化大数据的使用,其核心是在同一个平台之上针对数据的全生命周期进行管理,尽量避免异构环境下的数据迁移、数据丢失带来的风险等问题。

最后,高效的大数据存储平台应该采用融合的技术架构,即在同一个系统内,实现存储、备份、归档和分析的所有功能,完成对数据的管理,并提供开放的分析接口,与BI软件和应用软件更好的连接,进一步提高查询效率。

此外,在这样一个一体化的结构之上,用户还可以根据业务的情况灵活添加相关的功能模块。而华为大数据存储平台就具备了上述功能。

大数据带来的改变从基础架构层面一直延伸至业务层面。企业的管理者应该意识到,业务的创新需要底层创新的架构来支撑。从业务的角度看,企业的核心诉求是简化应用,实现可持续发展,提高业务的效率,而这些业务目标的实现必须建立在一个合理的、高效的架构之上,只有这样才能更好地发挥IT的作用,获得更大的数据价值。

原文发布时间为:2014年05月21日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
12天前
|
SQL 分布式计算 大数据
大数据处理平台Hive详解
【7月更文挑战第15天】Hive作为基于Hadoop的数据仓库工具,在大数据处理和分析领域发挥着重要作用。通过提供类SQL的查询语言,Hive降低了数据处理的门槛,使得具有SQL背景的开发者可以轻松地处理大规模数据。然而,Hive也存在查询延迟高、表达能力有限等缺点,需要在实际应用中根据具体场景和需求进行选择和优化。
|
11天前
|
存储 NoSQL 大数据
大数据存储:HBase与Cassandra的对比
【7月更文挑战第16天】HBase和Cassandra作为两种流行的分布式NoSQL数据库,在数据模型、一致性模型、数据分布、查询语言和性能等方面各有千秋。HBase适用于需要强一致性和与Hadoop生态系统集成的场景,如大规模数据处理和分析。而Cassandra则更适合需要高可用性和灵活查询能力的场景,如分布式计算、云计算和大数据应用等。在实际应用中,选择哪种数据库取决于具体的需求和场景。希望本文的对比分析能够帮助读者更好地理解这两种数据库,并做出明智的选择。
|
1月前
|
人工智能 分布式计算 DataWorks
首批!阿里云 MaxCompute 完成中国信通院数据智能平台专项测试
2024年5月31日,在中国信通院组织的首批数据智能平台专项测试中,阿里云数据智能平台解决方案(MaxCompute、DataWorks、PAI)顺利完成测试。
137 5
首批!阿里云 MaxCompute 完成中国信通院数据智能平台专项测试
|
1月前
|
存储 分布式计算 OLAP
Apache Paimon统一大数据湖存储底座
Apache Paimon,始于Flink Table Store,发展为独立的Apache顶级项目,专注流式数据湖存储。它提供统一存储底座,支持流、批、OLAP,优化了CDC入湖、流式链路构建和极速OLAP查询。Paimon社区快速增长,集成Flink、Spark等计算引擎,阿里巴巴在内部广泛应用,旨在打造统一湖存储,打通Serverless Flink、MaxCompute等,欢迎大家扫码参与体验阿里云上的 Flink+Paimon 的流批一体服务。
13685 0
Apache Paimon统一大数据湖存储底座
|
17天前
|
存储 Java 分布式数据库
使用Spring Boot和HBase实现大数据存储
使用Spring Boot和HBase实现大数据存储
|
1月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之如何在odps上启动独立的任务
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
人工智能平台PAI产品使用合集之如何在odps上启动独立的任务
|
23天前
|
存储 弹性计算 大数据
阿里云ECS以其强大的弹性计算与存储能力,为大数据处理提供了灵活、高效、成本优化的解决方案
阿里云ECS在大数据处理中发挥关键作用,提供多样化实例规格适应不同需求,如大数据型实例适合离线计算。ECS与OSS集成实现大规模存储,通过Auto Scaling动态调整资源,确保高效运算。案例显示,使用ECS处理TB级数据,速度提升3倍,成本降低40%,展现其在弹性、效率和成本优化方面的优势。结合阿里云生态系统,ECS助力企业数据驱动创新。
35 1
|
1月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之在maxcompute上跑模型,如何在本地进行推理
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
人工智能平台PAI产品使用合集之在maxcompute上跑模型,如何在本地进行推理
|
8天前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用合集之如何查看空间资源、CPU和内存以及存储空间容量
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
1月前
|
存储 SQL 分布式计算
MaxCompute产品使用问题之如何查看项目空间耗用的存储大小
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。