《智能数据时代:企业大数据战略与实战》一1.2 大数据如何发掘价值

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

.本节书摘来自华章出版社《智能数据时代:企业大数据战略与实战》一书中的第1章,第1.2节,作者 TalkingData ,更多章节内容可以访问云栖社区“华章计算机”公众号查看

1.2 大数据如何发掘价值

提取出有价值的信息总是说起来容易,做起来难。从理念、技术到实践操作,任何一个环节都对我们发掘大数据的内在价值提出了挑战。
我们可以通过四个维度来思考大数据,这四个维度的内容如下:
1)体量(Volume)。大数据的数据规模很大。企业里处处充满数据,很容易积累起兆级乃至PB级的数据信息。
2)种类(Variety)。除了结构化数据,大数据还包含各种各样的非结构化数据,如文本、音频、视频、点击流量、日志文件等。
3)真实(Veracity)。从大数据整合而来的大量数据信息会存在一定的统计误差和对信息的曲解。信息的精确性对其价值至关重要。
4)速度(Velocity)。大数据对于时间是很敏感的,因为在企业中数据是时时流动的,必须使用大数据才能最大化它的商业价值,但是从中得出的结论也必须要适合于企业的历史数据才行。
4V从四个维度诠释了大数据的价值。然而,大数据的复杂性并不仅限于以上四个维度。在大数据驱动过程中,还存在其他的影响要素。而这一过程是大数据技术和分析的混合物,它们被用于定义数据资源的价值,而这种价值又可以转化成驱动商业进步的可操作元素。
这里提及的许多技术和概念并不新奇,而是在大数据的理念下“重新”出现的。最好的办法是划分成类别再进行分析,这些技术和概念包括以下内容。
传统的商务智能(BI)领域。它包括广泛的商业应用程序以及对数据进行收集、存储、分析和处理的技术。而且BI提供可操作的信息,它们使用基于事实的支持系统来做出更好的商务决策。BI通过对来自数据库、应用程序以及其他数据资源的数据进行深度分析而推动其运行。在一些领域中,BI能够提供业务运营的历史、当前和预测性视图。
数据挖掘领域。这是一个从不同角度分析数据并从中挖掘有用信息的过程。数据挖掘通常适用于静态数据或历史数据。它更关注于预测目的的建模和知识发现,而不是单纯的数据描述,其目的在于从大规模数据集中发现新模型。
统计应用程序。这些程序关注以统计原理为基础的算法,而且通常应用于与民意调查、人口普查相关的数据集以及其他的静态数据集。这些程序处理的数据理论上以样本观测值为主,用来进行评估、检测和预测分析。经验数据如调查和实验报告的数据是可分析信息的主要来源。
预测分析。预测分析是数据统计程序中的一类,它主要是对数据库中的信息和趋势进行分析,从而得到预测结论。在金融和科学领域中预测分析尤为重要,一旦有外部因素加入数据集中,就需要进行新的预测。预测分析的一个主要目的在于识别商业运作、市场和制造业中的风险与机遇。
数据建模。它是一种假设性的分析应用,其中嵌套着多重的“what-if”语句,通过算法被应用于多个数据集。理想条件下,建模信息的变动应基于对算法可用的信息,提出对数据集变化的影响的分析。数据建模与数据可视化紧密相依,数据可视化可以更直观地展示数据。
数据管理(Data Management)。数据管理是指利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用,包括元数据管理、数据结构化、数据安全等内容。
数据工程(Data Engineering)。数据工程是关于数据生产和数据使用的信息系统工程。数据工程建立在大数据背景之下,是对数据库的建设与管理的工程,其主要内容包括数据资产积累、数据运营过程、数据处理结果和应用、数据时间和咨询等。
数据科学(Data Science)是研究数据的科学。数据科学利用统计学知识和计算机技术对专业领域的对象实行大数据分析与挖掘以及其他方式的数据处理,以使组织获取更大的经济效益。数据科学是一个交叉学科,在思想方法上,数据科学研究继承了统计学的一些思想,例如在大量数据上做统计性的搜索、比较、聚类或分类等分析归纳,其结论是一种相关性,而并不一定是某种因果关系。虽然都依赖大量的计算,但数据科学与计算机模拟不同,它并非是基于一个已知的数学模型,而是用大量数据的相关性取代了因果关系以及严格的理论和模型,并基于这些相关性获得新的“知识”。
以上分析仅仅是大数据先进性和商业价值的一部分。这种价值的存在有赖于人们对竞争优势的永无止境的追求,并鼓励企业组织采用更大的数据存储库,容纳组织内部和外部的数据,以更好地进行趋势揭示、数据统计、行动决策。这有助于将大数据的概念、相关工具、平台和分析普及到技术专家和高管中。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
SQL 分布式计算 数据挖掘
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
川航选择引入 SelectDB 建设湖仓一体大数据分析引擎,取得了数据导入效率提升 3-6 倍,查询分析性能提升 10-18 倍、实时性提升至 5 秒内等收益。
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
|
5天前
|
数据采集 机器学习/深度学习 人工智能
数据驱动智能,智能优化数据——大数据与人工智能的双向赋能
数据驱动智能,智能优化数据——大数据与人工智能的双向赋能
37 4
|
3月前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
309 92
|
23天前
|
数据采集 算法 大数据
揭秘大数据:洞察客户行为,发掘营销真机
揭秘大数据:洞察客户行为,发掘营销真机
53 6
|
1月前
|
传感器 机器学习/深度学习 人工智能
数据让农业更聪明——用大数据激活田间地头
数据让农业更聪明——用大数据激活田间地头
53 2
|
2月前
|
人工智能 算法 大数据
数据的“潘多拉魔盒”:大数据伦理的深度思考
数据的“潘多拉魔盒”:大数据伦理的深度思考
150 25
|
2月前
|
存储 SQL 数据挖掘
数据无界、湖仓无界, Apache Doris 湖仓一体解决方案全面解读(上篇)
湖仓一体架构融合了数据湖的低成本、高扩展性,以及数据仓库的高性能、强数据治理能力,高效应对大数据时代的挑战。为助力企业实现湖仓一体的建设,Apache Doris 提出了数据无界和湖仓无界核心理念,并结合自身特性,助力企业加速从 0 到 1 构建湖仓体系,降低转型过程中的风险和成本。本文将对湖仓一体演进及 Apache Doris 湖仓一体方案进行介绍。
数据无界、湖仓无界, Apache Doris 湖仓一体解决方案全面解读(上篇)
|
3月前
|
分布式计算 Shell MaxCompute
odps测试表及大量数据构建测试
odps测试表及大量数据构建测试
|
30天前
|
JSON 分布式计算 DataX
【YashanDB知识库】使用DataX工具迁移yashan数据到maxcompute
本文介绍使用崖山适配的DataX工具进行数据库迁移的方法,包括单表迁移和批量表迁移。单表迁移需配置json文件并执行同步命令;批量迁移则通过脚本自动化生成json配置文件并完成数据迁移,最后提供数据比对功能验证迁移结果。具体步骤涵盖连接信息配置、表清单获取、json文件生成、数据迁移执行及日志记录,确保数据一致性。相关工具和脚本简化了复杂迁移过程,提升效率。
|
1月前
|
运维 自然语言处理 算法
云栖实录 | 大模型在大数据智能运维的应用实践
云栖实录 | 大模型在大数据智能运维的应用实践
254 3

热门文章

最新文章

下一篇
oss创建bucket