大数据的真正价值在哪里?

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

看一看所有与大数据相关的活动,我们应该问一个问题:究竟有多少大数据在实际上是有用的。根据常识稍微思考一下,我们就会发现只有一小部分。


我已经与数据打交道超过40年。在前互联网的时代,我们经历了所谓的数据过载(dataoverload)。结果后来我们发现数据本身其实是没有价值的,只有一小部分被证明对实际商业决策有直接影响。铭记历史教训,现在最关键的问题已经变成了找到真正有用的数据。数据的量的确增加了,但值得注意的是:大部分的增长都来源于非结构化数据。


让我先根据Webopedia的定义来解释什么是非结构化数据。非结构化数据是指没有任何相同结构的数据。例如,图片、视频、电子邮件、文件和文本都被认为是一个数据集内的非结构化数据。


尽管每个单独的文档可能都包含基于其创建程序的特定结构或格式,非结构化数据也可以被认为是“结构松散的数据”,因为数据源其实是具有结构的,但数据集内的所有数据包含的结构可能不尽相同。与此相反,数据库则是一种常见的“结构化”数据。


所以回顾历史,我们现在讨论的除了数据超载还加上了一个新的变数——代表了大部分新增数据量的非结构化数据。非结构化数据代表着新的量的产生。我认为,具有强大的数据分析能力同时能很好地把握行业标准并遵守规则的公司可以提供精确的过滤解决方案,从而为用户鉴别出最有价值的数据。


多剥一点洋葱(Onion)

尽管有众多关于过滤和分析结构化数据的解决方案不断出现,例如Splunk企业版,它可收集、索引和处理所有应用程序、服务器和设备(物理、虚拟和云中)生成的可转移操作的机器数据。在讨论“Hadoop会带来什么”时,有很多人在争论其优缺点,在这里我就不多加讨论了。


我的观点是,真正的挑战是提供价格可取的,关于更复杂的过滤和实时分析非结构化数据的解决方案。虽然所有类型的数据总量预计在未来五年中将增长800%,其中80%将是非结构化数据。


我建议具备数据建模、分析、OCL、本体模型的数据挖掘等能力的公司,可以通过提供既针对结构化又针对非结构化数据的解决方案来获得一定优势。时至今日,仍然没有公司可以真正提供能在海量大数据中精确定位和寻找的“神器”。


本体论在大数据中扮演什么角色?

本体论

正规来说,本体论将知识表示为在一个领域内的分层结构,并通过一个共享的词汇表来表示这些概念的类型、性质和相互关系。


本体论是用于组织信息的结构框架,可作为一种知识展现用于人工智能、语义网、系统工程、软件工程、生物信息学、图书馆学、企业书签和信息架构。领域本体的创建也定义本体论和其企业组织架构方面应用的基础。


本体论为什么重要?

因为它使我们在寻找关键数据或趋势时不需要整合系统和应用程序。它是如何应用的,哪些是实现它功能的重要元素?


本体论结合了一个本质上非常灵活、基于图形的语义模型和语义搜索,从而降低复杂数据集成的时间尺度和成本。本体论正在重新思考后谷歌世界中数据采集、数据关联和数据迁移的项目。


为什么会有人想要发展本体论?

  • 开发本体的最常见的目标之一是共享人们或软件代理之间的对信息结构的相同理解。例如,假设几个不同的网站都包含医疗信息或提供医疗电子商务服务。如果这些网站共享和发布信息时所使用的术语背后潜在的本体论是相同的,那么计算机代理可以从这些不同的网站中提取和聚合信息。代理也可以使用这些聚合信息来回答用户查询或将其作为其他应用程序的输入数据。

  • 以一些明确的域假设作为具体实施的基础使我们可以在关于域的知识发生改变时很容易地改变这些假设。关于编程语言代码的硬编码假设使得这些假设不仅很难找到和理解,更加难以被改变,特别是对没有编程经验的人。此外,对于领域知识的明确阐述对于必须学会这些术语在领域内代表什么意思的新用户也是很有帮助的。


通常一个领域的本体本身并不是一个目标。开发一个本体就类似于定义一组数据以及供其他程序使用时的结构。解决问题的方法、域独立应用程序和软件代理都是将本体和基于本体的知识库作为数据来使用的。


分类法与本体论间的区别是什么?

在信息管理领域中,人们经常使用的两个术语就是“分类法”和“本体论”,但人们却往往不知道两者之间的区别是什么。


在技术方面,本体论意味着更广泛的信息范围。人们通常把一个分类法称为“树”,以此延伸,本体论则更像是“森林”。本体论可以包含许多种分类法,每个分类法都有其特定的组织方式。


分类法一般只局限于特定的专题范围,例如产品或医疗条件。当你想通过添加结构或上下文使非结构化信息更容易被搜索时,分类法是很有用的。例如,如果用分类法来标记搜索索引中的文件,那么当用户用关键字搜索该内容时,分类法就可以作为给终端用户的筛选选项显示在搜索结果的左侧。多种分类法可以结合起来作为过滤器来实现强效深度挖掘的搜索体验。这正是你所看到的许多大牌的电子商务网站如Amazon和Costco正在做的事情。


本体论可以被认为更像一个网络,包含了所有概念之间的不同类型的联系。本体可以包含无限种联系,在不同的主题域的概念之间创建联系相对更加容易。例如,你可以创建一个材料分类中的“木材”和产品分类中的“椅子”之间的联系。关系类型可以是“例子”、“目的”或“部分”。


如果要创建一个可能会被用于处理高级自然语言或者文本分析的更复杂的信息模型,就会用到本体论。本体论可以让你更好地理解在信息语料库中的概念和因果关系。本体论还可以让问题回答引擎更加强大:例如,如果我搜索“谁是第十六任总统?”引擎利用本体论就可以返回一个特定的结果:“亚伯拉罕-林肯”。

本体论最简洁的表述方式:

  • 什么是数据?

  • 这意味着什么?

  • 它哪里来?

  • 为什么我们需要它——一旦我们知道这些,我们就能找到真正需要的数据了

    原文发布时间为:2015-12-23

    本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
数据采集 机器学习/深度学习 人工智能
大数据分析案例-用RFM模型对客户价值分析(聚类)
大数据分析案例-用RFM模型对客户价值分析(聚类)
1800 0
大数据分析案例-用RFM模型对客户价值分析(聚类)
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
395 11
|
机器学习/深度学习 人工智能 分布式计算
理解并利用大数据的力量:解锁数据背后的价值
【8月更文挑战第7天】大数据已成为推动社会进步和经济发展的重要力量。通过理解并利用大数据的力量,企业可以解锁数据背后的价值,优化业务流程、提升决策效率和创新能力。然而,大数据应用也面临着诸多挑战和风险,需要企业不断学习和实践以应对。相信在未来的发展中,大数据将为我们带来更多的惊喜和机遇。
|
存储 算法 数据可视化
云上大数据分析平台:解锁数据价值,驱动智能决策新篇章
实时性与流式处理:随着实时数据分析需求的增加,云上大数据分析平台将更加注重实时性和流式处理能力的建设。通过优化计算引擎和存储架构等技术手段,平台将能够实现对数据流的高效处理和分析,为企业提供实时决策支持。通过优化计算引擎和存储架构等技术手段,平台将能够实现对数据流的高效处理和分析,为企业提供实时决策支持。
1334 8
|
存储 分布式计算 算法
大数据处理:挖掘价值之道
大数据处理:挖掘价值之道
|
存储 数据可视化 大数据
大数据分析与处理:探索数据的深层价值
大数据分析与处理:探索数据的深层价值
217 2
|
存储 数据采集 机器学习/深度学习
大数据分析:挖掘数据价值的技术和方法
在数字化时代,大数据已经成为企业和科研机构的重要资源之一。然而,对于海量的数据如何进行分析和挖掘却是一个巨大的挑战。本文将介绍大数据分析的基本概念、技术和方法,帮助读者了解如何利用现代技术和工具,挖掘数据中蕴藏的价值。
1019 0
|
机器学习/深度学习 人工智能 Cloud Native
【大数据趋势白皮书下载】IDC: 发挥数据智能价值,推动企业数字化创新
IDC认为,从提升企业中长期发展质量、降低综合投入成本的角度出发,大数据技术领域将呈现出两个显著趋势:一体化和融合化。企业应以战略和顶层设计为先导,用体系化的思维全面构建大数据能力架构,避免形成新的数据、业务和能力孤岛。 【下载地址见文末】
【大数据趋势白皮书下载】IDC: 发挥数据智能价值,推动企业数字化创新
|
数据采集 机器学习/深度学习 算法
大数据分析案例-基于RFM模型对电商客户价值分析(聚类)
大数据分析案例-基于RFM模型对电商客户价值分析(聚类)
1629 0
大数据分析案例-基于RFM模型对电商客户价值分析(聚类)
|
大数据
《天气大数据为行业贡献的价值》电子版地址
天气大数据为行业贡献的价值
119 0
《天气大数据为行业贡献的价值》电子版地址

热门文章

最新文章