深层数据:推动大数据成功的关键所在

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

FirstFuel公司CTO表示,寻求规模更小、更具相关性的浓缩型信息是解开大数据无穷潜力的关键所在。


毫无疑问,大家肯定都听说过“大数据”,但“深层数据”呢?答案恐怕是否定的。不用紧张,我并不打算给硬塞给大家新的专业词汇。不过鉴于近期以来企业用户正持续就需要收集并管理的数据量展开争论,我认为深层数据的概念应当进入各位关注数据潜力的企业用户的扁当中。专注于建筑行业能源利用效率的分析企业FirstFuel公司CTO兼首席数据官Badri Raghavan对此有着自己的独到见解。该公司的客户们,包括政府机关与能源机构,都在使用FirstFuel的能源分析服务以推动更为环保、更具成本效益的方案向办公环境、学校以及其它设施建设领域的普及。


在一次电话采访当中,Raghavan谈到了他对于“深层数据”的看法以及FirstFuel公司如何将这一理念转化为自身竞争优势。


“我们所谓的‘深层数据’其实是相关领域多种专业性知识储备的综合体——对于我们来说,也就是能源行业与数据科学的结合——旨在帮助技术人员从宏观规模角度对建筑的能源使用情况作出分析,”他告诉我们。


深层数据的概念与信息密度拥有密不可分的关联。“给定数据流当中可能包含大量信息,”Raghavan表示。“相反,大家也有可能收集到大量缺乏足够结论性内容或者信息的数据。”


大家可能已经猜到了,Raghavan本人对于数据收集或者尽可能汇总更多信息的作法并不认同。但目前很多企业都是这样做的,即在尚不确定是否有意义的情况下盲目汇集规模庞大的数据总量。


数据收集的真正核心在于效率,或者说“对目前已经掌握的数据资产加以利用。要实现这一目标,我们需要首先明确自己需要解决哪些技术或者业务难题。在大家可资利用的资源当中,哪一种数据流的作用最为重要?”


在FirstFuel所从事的行业当中——即分析大型建筑物的能源消耗情况——单一数据流往往成为最重要的计量数据。


“我们会把计量数据作为一栋建筑物的扫描结果。利用我们的数据科学算法,我们可以对建筑物的健康状况作出分析、找出其中的薄弱环节以及仍有效率提升空间的部分。”


他指出,这就是深层数据实际起效的一类极佳实例。计量数据是“一种相对精练的数据流,但其中包含的内容却相当丰富,”FirstFuel得以借此定位其最感兴趣的问题:找出能源消耗当中有违效率优先原则的状况。


当然,对于很多企业来说最重要的是摸清哪些数据流最具分析价值,而后还需要将其与其它数据加以结合以获得新的分析结论。


FirstFuel已经找到了几种通常最具潜在价值的数据流类型。

“计量数据能够告诉我们与建筑物相关的大量信息,”Raghavan指出。“接下来我们开始使用高分辨率航空影像——是的,就是谷歌地球,我们在工作中大量使用这类资料。从我们的角度来看,其中包含丰富的潜在信息。它能告诉我们这些建筑物楼顶布置有哪些类型的设备,”而FirstFuel能够借此大体判断对应建筑物需要消费的能源总量。


这家分析企业还将来自国家气象服务中心的数据纳入考量范畴。“我们着手进行设置,并逐步逐步再逐步将其引入。只要能够对信息分析结论起到改进作用,我们就会将相关数据流纳入考量。”而根据他的说法,这就是深层数据的基本概念。“大家可以对规模相对较小的数据集进行深层研究,而不再像过去那样长期面对浩如烟海的数据总和……并试图从其中捞到象征有价值结论的小针。”


举例来说,FirstFuel完全可以收集多种额外数据——其中包括与交通流量及泊车状况有关的信息,此外Twitter数据流也有涉及——但事实上根本没有明确的理由驱使他们选择这样费力的方式。


“相对于直接跃入存在海量数据可资进行潜在分析的大数据海洋、却往往最终几乎甚至完全得不到有价值信息,我们更倾向于从规模相对较小的数据量中获得更大收益——即将注意力集中在那些能够切实反映建筑物客观状况的数据身上,”Raghavan指出。“在制定出这样的解决思路后,接下来我们会逐步把想法变成现实。”


原文发布时间为:2014-08-01

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
8天前
|
SQL 机器学习/深度学习 分布式计算
MaxCompute产品使用合集之数据删除之后,是否支持回滚
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
SQL 分布式计算 DataWorks
MaxCompute产品使用合集之整库离线同步至MC的配置中,是否可以清除原表所有分区数据的功能
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute产品使用合集之如何将数据映射成Holo表的语句
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
7天前
|
分布式计算 运维 DataWorks
MaxCompute操作报错合集之用户已在DataWorks项目中,并有项目的开发和运维权限,下载数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
7天前
|
SQL 分布式计算 DataWorks
MaxCompute操作报错合集之使用sql查询一个表的分区数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
8天前
|
数据采集 分布式计算 大数据
MaxCompute产品使用合集之数据集成中进行数据抽取时,是否可以定义使用和源数据库一样的字符集进行抽取
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
JSON 分布式计算 大数据
MaxCompute产品使用合集之如何解析嵌套的JSON数据
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
分布式计算 Java 调度
MaxCompute产品使用合集之使用Tunnel Java SDK上传BINARY数据类型时,应该使用什么作为数据类字节
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
SQL 存储 分布式计算
MaxCompute产品使用合集之使用pyodps读取数据表时,可以通过什么方法来加速读取效率
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute产品使用合集之如果生产环境少了数据,该如何排查
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。