工欲善事,必先利器:数字经济下的大数据“技术观”

简介: 工欲善事,必先利器:数字经济下的大数据“技术观”

众所周知,任何社会发展的潮流和趋势,背后都有一系列综合因素共同驱动,那么对于数字经济的发展也是一样。

我们要关注驱动数字经济发展的关键技术因素,或者说,影响社会发展大方向的底层“慢变量”到底是什么,其中从数据科学发展角度,最重要的“慢变量”就是大数据技术的成熟和普及。

大数据技术的发展,改变了传统的数据分析方法和人们对数据的使用方式,同时,也改变了在信息化、数字化产业实践中,如何存储、管理、传输、搜索、分析、观察等一系列数据相关技术活动的基本模式和评价方式。

大数据技术,让数据分析真正从“实验室环境”走向“生产环境和商业环境”,让数据分析的本质从“算法理论”转化为“算法工程”。

1.传统的数据分析方法为何已不能满足数字经济时代的现实业务需求

数字经济之所以快速发展,首先要归功于人们对数据分析处理能力的快速提升。自从2003年Google提出了分布式的数据存储与计算技术架构,大数据技术得到快速的发展和崛起。

无论是在软件方面、硬件方面,还是在关于数据处理的技术方面,都出现了越来越多的创新形态,揭示着人们在数据处理能力的边界得到了史无前例的拓展。

可以说,在以数据为基本对象的技术实践上,从传统的实验室环境,真正走向了现实业务的实战环境。数据不是为了验证某个科学理论,而是为了带来业务启发,提供智能决策能力,最终完成从数据要素到经济价值的完整过程转换。

为了突出说明大数据技术的重要性,还是要先回到传统的数据分析方法,了解传统方法的特征和局限性。

在传统的数据分析场景,数据是干净、纯粹、任务相关的,甚至是统计分布客观均匀的。比如要分析小麦作物与光照强度的相关性,那么会严格控制实验环境中温度、湿度、微生物指标等诸多物理参数,接着只要收集足够量的数据样本,就可以进行非常有效的数据分析。

上述这些数据都是在严格控制的环境下产生的,因此数据与目标问题的相关性非常强,通过有意“挑选”出来的数据对象可以很好地解释人们关心的问题,提供令人满意的解决方案。

因此,在传统通过数据分析场景中,数据量通常不需要太大,往往几十条、几百条就能支持业务分析应用。

人们此时可以把更多精力关注到数学模型的客观性、严谨性,以及可解释性。

对于传统的数据分析,常用的方法主要包括回归分析、统计推断、指标分析、传统机器学习、概率图模型等,这些模型要求变量的挑选以及变量之间的关系都设计精良,只有这样,才能充分发挥出这些数据的本源价值。

然而,传统的数据分析方法只适用于“实验室环境”的数据集,在真实世界中并没有太多施展拳脚的机会。

在真实世界场景中,数据环境是大数据的环境,虽然数据够多,但是数据质量并不好,也就是所谓的数据看起来多,实际上少(看似有用的数据少)。

那么,这个质量不好怎么理解呢?

其实,这里讲的就是所谓“著名的”大数据5V特征,即Volume(数据量大)、Velocity(数据高速产生)、Variety(数据形式多样)、Value(价值密度低)、Veracity(真实性差)。

大数据概念不是被设计出来的,而是被发现出来的。5V不就是客观世界中信息的最原始形态么?

数据本身是自然而然的状态,是按照最朴素的状态产生出来的:数据量很大,也不一定干净,有表格、文字、音频、视频、日志等不同格式,数据渠道来源不同,信息有真有假,内容有实有虚。

2.人们需要一套应付“非典型”数据问题的数据分析技术——大数据技术

大数据技术解决了两方面的问题,一是效率的问题,二是质量的问题,两方面问题本身也是彼此相关的。

面对效率问题,大数据技术得益于底层软硬件计算框架的能力发展,而面对质量问题,大数据技术则依赖于数据科学算法的研究和创新。

在效率方面,大数据技术提供更高效的数据处理性能。

首先,是数据存储。为了能够对不同格式的数据进行灵活的存储、读写、和管理,在传统的关系型数据库的基础之上,又先后兴起了NoSQL和NewSQL等非关系型数据库。

非关系型数据库可以对任意结构的数据源进行定义和存储,业务适用性更广泛,很好地回应了5V中Variety(多样)的特征。

此外,由于大数据场景下数据规模巨大(Volume),需要构建能够存储大规模数据的数据管理系统和文件管理系统,于是相应地就催生了分布式的数据存储架构。

该架构可以在单台机器存储能力有限的情况下,用多台机器组网构成存储节点集群,统一地存储和管理海量的数据资源。

其次,是数据计算。针对给定的数据计算问题,大数据技术实现了编程和执行策略的优化设计。

比如,通过引入并行计算架构,以及该架构下OpenMP、GPU、MPI等相应的并行编程技术,可以同时对多个近似的、单元化的计算任务进行并行处理,提升芯片的整体利用率。

再有,通过引入分布式计算架构,把单个复杂的计算任务分配给多个单台机器协同处理,发挥多个计算资源的整体性能。

另外,通过引入流式计算架构,可以有效地解决实时计算的问题(Velocity,高速),机器可以边读取、边计算,让数据处理系统快速地响应外部业务环境的实时变化。

在质量方面,大数据技术提供更先进的数据分析能力。

考虑到大数据场景下数据质量通常并不那么好,因此在数据分析方法的层面上也逐渐衍生出了新的技术解决思路。

在大数据的“技术观念”下,会自然地“放松”算法模型在科学严谨性上的约束限制,同时更加强调其实用性价值。

人们更加关注数据之间的相关性,而非因果性,尽管这种相关性可能比较隐晦,或者难以解释,但是确实能够呈现出数据背后隐含的业务含义,并对日常应用起到重要的定量决策支撑。

深度学习和强化学习可以说是大数据在算法方向最为重要的技术突破,其背后的想法是:只要数据规模足够大,哪怕数据质量差一点也没关系。

尤其是深度学习模型,与传统的统计模型或机器学习模型不同在于,其模型的变量和结构都可以从数据中探索而来,而不用人为进行精巧设计。

深度学习模型非常善于从低价值密度的大规模数据资源中,面向特定的业务场景,进行知识模型的自动提炼。

当前,市场化商业环境所能产生的业务数据,在很多领域已经可以满足建模所需的数据规模需求,这也为深度学习的广泛应用提供了良好的落地基础。

3.总结

值得注意的是,大数据技术的出现对传统数据分析方法来说,是补充而非替代的作用。大数据技术充分发挥了数据在规模维度上的资源优势,从而对前端的数字化应用提供更多有价值的业务信息。

在实际应用中,传统数据分析中的思想和方法更多是和大数据技术互相融会贯通、协同应用,很多底层的技术思想也在互相借鉴,弥补着自身技术的不足与应用缺陷。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
3月前
|
数据采集 传感器 人工智能
大数据关键技术之电商API接口接入数据采集发展趋势
本文从数据采集场景、数据采集系统、数据采集技术方面阐述数据采集的发展趋势。 01 数据采集场景的发展趋势 作为大数据和人工智能工程的源头,数据采集的场景伴随着应用场景的发展而变化,以下是数据采集场景的发展趋势。
|
3月前
|
数据采集 搜索推荐 大数据
大数据技术在电商平台中的应用
电商平台是当今社会最为普及的购物方式之一,而大数据技术则成为了众多企业的强有力竞争力。本文将介绍大数据技术在电商平台中的应用,包括数据采集、预测分析、用户画像等方面,并探讨其对电商平台的价值和意义。
|
3月前
|
机器学习/深度学习 数据采集 算法
大数据分析技术与方法探究
在当今信息化时代,数据量的增长速度远快于人类的处理能力。因此,如何高效地利用大数据,成为了企业和机构关注的焦点。本文将从大数据分析的技术和方法两个方面进行探究,为各行业提供更好的数据应用方向。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
大数据分析的技术和方法:从深度学习到机器学习
大数据时代的到来,让数据分析成为了企业和组织中不可或缺的一环。如何高效地处理庞大的数据集并且从中发现潜在的价值是每个数据分析师都需要掌握的技能。本文将介绍大数据分析的技术和方法,包括深度学习、机器学习、数据挖掘等方面的应用,以及如何通过这些技术和方法来解决实际问题。
55 2
|
16天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
3月前
|
机器学习/深度学习 存储 人工智能
大数据处理与分析技术:未来的基石
在信息化时代,数据已成为企业发展和决策的基础。而随着数据量的不断增长,传统的数据处理方法已经无法满足现代企业的需求。因此,大数据处理与分析技术的出现成为了新时代的必需品。本文将介绍大数据处理与分析技术的概念,意义、应用场景以及未来发展趋势。
50 3
|
25天前
|
NoSQL 大数据 数据挖掘
现代数据库技术与大数据应用
随着信息时代的到来,数据量呈指数级增长,对数据库技术提出了前所未有的挑战。本文将介绍现代数据库技术在处理大数据应用中的重要性,并探讨了一些流行的数据库解决方案及其在实际应用中的优势。
|
30天前
|
机器学习/深度学习 人工智能 数据可视化
基于Python的数据可视化技术在大数据分析中的应用
传统的大数据分析往往注重数据处理和计算,然而数据可视化作为一种重要的技术手段,在大数据分析中扮演着至关重要的角色。本文将介绍如何利用Python语言中丰富的数据可视化工具,结合大数据分析,实现更直观、高效的数据展示与分析。
|
1月前
|
存储 NoSQL 大数据
新型数据库技术在大数据分析中的应用与优势探究
随着大数据时代的到来,传统数据库技术已经无法满足海量数据处理的需求。本文将探讨新型数据库技术在大数据分析中的应用情况及其所带来的优势,为读者解析数据库领域的最新发展趋势。

热门文章

最新文章