用元数据给大数据排忧解难可行否?

简介:

本文讲的是用元数据给大数据排忧解难可行否,在被认为卷入一项谋杀案后,杀毒软件公司McAfee创始人John McAfee飞到在伯利兹的家中,但他并没有消失。在接下来的一个月里,他一边逃避警察的追捕,一遍通过博客、社交网站以及媒体的渠道出现在公众的视线里。

  如果不是那张放在一家纽约艺术文化杂志Vice上照片所透露的信息,这位硅谷传奇还将继续与警察玩“捉迷藏”的游戏。这是个极其细微的信息,普通人几乎不会注意到的方面,而在警察和专业人士看来,这微不足道的信息却可以分析出John McAfee这张照片的拍摄地点。

  这个信息不仅导致McAfee最终被铺,也将元数据——地理密码,以这样的方式呈现在公众面前。元数据,通常被看做是“数据的数据”,很快便为自己赢得了声望,当然,就不仅仅局限在追踪犯罪嫌疑人方面。专家们认为,投资大数据分析工具的公司不应该停留在存储和分析数据的层面,而应该去考虑在特定背景下数据的标签。如果没有元数据,企业将无法在大数据分析中获得有效信息,包括对于重要商业发展趋势的判断。

  Phil Shelley,既是Sears Holdings公司CTO,也是该集团旗下子公司——一家元数据供应商公司的CEO,说:“大数据工具最有趣的一点就是它让你存储数据变得更容易,会让你沉迷于存储数据。但如果你无法使用这些数据或者检索它们,那么数据就是无用的”。

  Data Governance Institute公司的创始人兼总裁Gwen Thomas也同意大数据正在改变人们对于元数据的态度。她表示:“当你谈论小数据时,总有一些样本供你一探虚实,但你在大数据这里却没有这么多选择。这就像你从消费水管里喝水:你将被水流击倒。”

  元数据和非关系型数据中心的崛起

  Shelley认为:元数据在商业中被利用在特定情境和地点的数据收集方面,这个尝试经过了很长时间才被认可,但并不被人时时记得。究其原因,他说:“很多人不愿去做记录元数据这个苦差事。人们只想如何获取数据,利用数据产生价值。”

  传统意义上,企业都尽量避免讨论元数据,因为数据仓库——比如关系型数据库就是将数据按照行和列整齐排序的数据库,“而且元数据意味着结构化的数据”,Shelley补充道。新的存储和分析工具尽管可以用来处理海量的数据和结构,但是采用不同的方法组织数据,都有各自的优势和劣势。Shelley承认:“大数据工具的优势在于当你将数据丢掉一边时,它不会有强制的规则。它允许你在读取数据时就应用它们。”

  比如,大数据工具Hadoop,就承诺拥有对企业一年数据提供分析的能力。Shelley表示:“但这个缺点则是如果你搞不清数据是什么或者元数据是什么,那么你真的不知道接下来怎么做。”

  大数据鸿沟

  consultancyEWSolutions总裁David Marco认为,元数据不仅给企业提供数据遗产,而且还可以帮助企业建立数据的一致性。他表示,元数据解决了企业定义“消费者”的难题。通常来说,企业不同部门对消费者的定义各不相同,但是通过元数据,企业可以制作一个定义或业务策略的规则——或任何重大数据概念,并可广泛用于其企业范围的数据分析。他补充道:“当你将分析信息放入业务发展计划时,总会出现错误或者你丢失了一些信息。如果你是企业决策者、市场营销官或者首席信息官,你难道不想知道那丢失的2%的数据吗?”元数据会让你的数据更加完整和精确。

  Marco认为另一个促使元数据崛起的原因便是它可以减少IT支出。当企业建立了多个订单输入系统、金融系统而数据完全相同,企业就要花费巨资维持系统运营,这笔费用一场昂贵。他说:“你如何才能摆脱掉这个负担?你必须知道你需要的数据是什么,它们意味着什么,它们都在哪里——而这就是元数据的管理。”

作者: 赵赛坡

来源: IT168

原文标题:用元数据给大数据排忧解难可行否?


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
36 0
|
3月前
|
机器学习/深度学习 存储 分布式计算
机器学习PAI关于maxcompute上用protobuf 处理数据,比较方便的方式
机器学习PAI关于maxcompute上用protobuf 处理数据,比较方便的方式
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1
|
4月前
|
存储 SQL 大数据
dataCompare大数据对比之异源数据对比
dataCompare大数据对比之异源数据对比
110 0
|
2月前
|
分布式计算 关系型数据库 数据库连接
MaxCompute数据问题之数据迁移如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
2月前
|
分布式计算 Cloud Native MaxCompute
MaxCompute数据问题之没有访问权限如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
11天前
|
数据采集 搜索推荐 大数据
大数据中的人为数据
【4月更文挑战第11天】人为数据,源于人类活动,如在线行为和社交互动,是大数据的关键部分,用于理解人类行为、预测趋势和策略制定。数据具多样性、实时性和动态性,广泛应用于市场营销和社交媒体分析。然而,数据真实性、用户隐私和处理复杂性构成挑战。解决策略包括数据质量控制、采用先进技术、强化数据安全和培养专业人才,以充分发挥其潜力。
14 3
|
14天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。

热门文章

最新文章