《拥抱机器人时代——Servo杂志中文精华合集》——4.8 理解大数据

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本节书摘来异步社区《拥抱机器人时代——Servo杂志中文精华合集》一书中的第4章,第4.8节,作者:美国Servo杂志,更多章节内容可以访问云栖社区“异步社区”公众号查看

4.8 理解大数据

当物联网从各种各样的设备中收集到的数据被创造性地使用时,就会变得更加有价值。这就是所谓的大数据的技术问题。这是一个描述大量数据的简单术语——数据集合如此之大,以至于无法用传统的关系型数据库技术来处理了。为了体现物联网真正的价值,需要开发处理海量数据的应用以建立连接和相关性,从而达到智能决策的效果。总的来说就是要把从各处收集的传感器数据连接起来,得到一个非常独到的结论。

处理物联网所收集的大数据实际上会面临3个挑战。首先是数据的获取,其次是数据的存储,最后是数据的分析。

4.8.1 数据获取

数据获取(Data Harvesting,也称作Data Ingestion)是一个多步骤的过程,包括从各个设备收集数据,然后将数据传送到某个中心数据库。这主要是关于设备和网络的问题,当然,也包括数据库。前面我们基本上已经讲解了相关的内容。

4.8.2 数据存储

数据存储看起来很简单,但这种说法非常有欺骗性。你所需要的就是很多的服务器,也许是云服务器,以提供足够的能力来存储所有收集到的数据。这听起来很简单,特别是看到存储的成本不断下降的时候。

问题当然不会那么简单,即使这是一个老问题。很多公司就是被存储层面的问题挡住了而一直没能实现更重要的分析功能。

这可真糟糕!因为实际上有很多公司可以提供解决数据库存储需要的方法,而且有好几种这样的方法可用。

一个流行的方法就是找一家提供“数据库即服务(Database as a Service,DBaaS)”能力的公司,通常都是基于云的数据仓库。已经有很多选择,包括Amazon Redshift、来自Hortonworks的Enterprise Hadoop以及Cloudera Enterprise。这些数据库管理和自动化服务缓解了公司安装、管理和运行他们自己的大型数据库的需要——从而把珍贵的资源释放出来进行更重要的数据分析。

管理服务提供商(Managed Service Provider,MSP)与DBaaS提供商很相似,但是它们提供了更加有用的服务,比如All Covered和Treasure Data。这些公司不仅能够进行外包数据的收集和存储工作,还可以享受基本分析功能,通常是从主数据中抽取特定的信息。利用MSP来完成最费时耗力的工作,一个公司就可以把它的注意力聚焦在数据分析的细节上——并根据那些分析进一步采取措施。

4.8.3 数据分析

这是第三个挑战,也是最具挑战性的。假设一个公司可以外包数据的获取和存储,那么现在的问题就是如何从收集到的海量数据中抽取价值。换句话说,当收集到了海量数据之后,一个公司要怎么做呢?

为了处理这个数量级的数据,必须开发用来分析所收集的数据的趋势、模式和压点(pressure point)的应用。这是一个巨大的计算挑战,特别是当你希望实时呈现结果的时候。

当处理这个数量级的数据的时候,数据经常是以一种非结构化的形式收集(和存储)的,主要问题之一就是你要确保没有一不小心忽略重要的东西而在根本无关紧要的数据上花费了太多的时间。对于特定的应用,很有必要把麦粒和糠皮分离开。

注意

因为将来所有的物联网数据都需要分析,人力资源团队预测对数据分析专家的需求会很快上升。这应该是一个可以进入的好职业。
但是仅仅分析数据是不够的。对于一个真正从海量的潜在实时数据流中受益的公司,必须建立一种数据驱动决策的文化。这就是说,公司需要按照数据所指引的方向行进——而不是按照老式的管理层所认为的方向行进。这是个勇敢的新世界,是由物联网所收集的新数据所驱动的。有些公司将茁壮成长,而另一些则相反。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
分布式计算 安全 机器人
融合大数据和云计算是机器人技术的未来
融合大数据和云计算是机器人技术的未来
644 0
融合大数据和云计算是机器人技术的未来
|
传感器 供应链 监控
大数据、物联网、机器人和现代技术如何彻底改变零售业
零售业稳定增长的因素之一是数字化和现代技术的兴起,并由此催生了零售 4.0 。引进先进技术后,零售工作流程中的采购、库存管理、客户服务、账户和供应链管理等多个流程变得自动化。
380 0
大数据、物联网、机器人和现代技术如何彻底改变零售业
|
机器人
基于树莓派的FRILLER多地形机器人【MagPi杂志74期14-15页】
MagPi74_14 zh.jpg MagPi74_15 zh.jpg MagPi74_14_en.jpg MagPi74_15_en.jpg
1007 1
|
机器学习/深度学习 人工智能 数据可视化