.本节书摘来自华章出版社《智能数据时代:企业大数据战略与实战》一书中的第1章,第1.5节,作者 TalkingData ,更多章节内容可以访问云栖社区“华章计算机”公众号查看
1.5 大数据环境下的处理分析工具
- Apache Hadoop
Apache Hadoop(包括基于它的各种包装,以下通称Hadoop)是一种开源工具,它提供了处理大数据的新平台。虽然Hadoop已经存在一段时间了,但是越来越多的企业才刚刚开始利用其功能。Hadoop平台旨在解决大量数据造成的问题,特别是包含复杂结构化数据和非结构化数据的混合数据,这些数据不适合放在表中。Hadoop在需要深度分析和计算量大(如集群和定位)的情况下运行良好。
对于寻求利用大数据的决策者而言,Hadoop解决了与大数据相关的最常见的问题:以高效的方式存储和访问大量数据。
Hadoop的内在设计允许它作为一个平台运行,它能够在大量的分布式机器上工作。考虑到这一点,很容易看出Hadoop如何提供额外的价值:网络管理员可以只购买大量的商用服务器,然后安装并在每个服务器上运行Hadoop软件。
Hadoop有助于节省与大规模数据集有关的管理成本。从操作上看,组织的数据都加载在Hadoop平台上,Hadoop软件把数据分解成可管理的部分,同时把数据扩展到各个服务器上。分布式存储的特性意味着无法在一个地方获取全部的数据。Hadoop还可以追踪数据的存储位置,而且能够通过创建多个副本来维护数据。这就强化了数据存储的弹性,因为即使某个服务器掉线或损坏,数据也可以从已知的好的副本自动复制。
Hadoop的优势还表现在处理数据方面。例如,传统的集中式数据库系统存在很多限制,它需要一个连接到服务器级系统的大磁盘驱动器和具有多个处理器的驱动器。在这种情况下,数据分析就会受限于磁盘性能和处理器的数量。
而在一个Hadoop集群中,每个服务器都可以利用Hadoop的能力在整个集群中传播工作和数据,从而参与数据的处理。换句话说,索引工作通过向集群中的每个服务器发送代码,各个处理器就会对自己的内容进行检索,然后结果会被统一反馈回来。这在Hadoop中称为分布式计算,也就是代码或操作被分布到所有处理器上,而最终的结果精简成单一的集合。
Hadoop在处理大规模数据集时表现良好,关键就在于它将数据分散到各个处理器上,而且它能并行运行所有处理器来处理复杂运算问题。
然而,冒险进入Hadoop的世界并不是一种“即插即用”的体验。为确保成功有一些先决条件:硬件要求和环境配置。首先要做的就是了解和定义分析过程。大多数首席信息官都对商务分析(BA)和BI的流程相当熟悉,并能将其与最常用的过程层(提取、转换和加载ETL组件)相联系,这对于构建BA或BI解决方案至关重要。大数据的分析和操作需要企业先选定所要处理的数据集,整合它们,然后进入ETL程序进行处理。在这里需要处理大量的数据,而且这些数据可能是结构化的、非结构化的,或者是来自于不同渠道的数据资源,如社交网站、数据日志、门户网站、移动通信设备和传感器等。
要真正实现Hadoop的价值,需要把操作程序和注意事项结合起来(例如一个容错的集群架构,选用最贴合数据的计算方法,实现对数据集的并行计算或批处理),以及需要一个能够支持数据从存储到分析的企业级平台。
我们应该明白,并非所有的企业都需要用到大数据分析。我们也应该认真思考一下Hadoop的能力和作用。Hadoop并不能够依靠自身来完成一切,企业在搭建Hadoop平台之前,还要考虑除了Hadoop之外需要什么组件。
例如,企业运行Hadoop平台需要以下组件:数据管理组件HDFS和HBase、程序框架组件MapReduce和OOZIE,开发组件Pig和Hive,以及开源Pentaho。在这个小型试点项目中并不需要其他太多的硬件设备。其中硬件必需品有:两台多核服务器、至少24GB的运行内存,以及一个2TB的磁盘。这就足以推动一个小型试点项目运行起来。
Hadoop的有效运行和管理需要一定的专业知识和经验,如果这方面准备不足的话,就需要信息技术管理人员与能够提供全面技术支持的服务供应商进行合作。这方面的专业知识对于项目安全尤为重要。Hadoop、HDFS、HBase组件也需要安全防护。换句话说,进入Hadoop程序的数据仍然需要保护,以免丢失。
整体来看,Hadoop平台是对企业大数据分析实力进行检测的关键。而在完成检测之后,如何解决平台上大量的服务器托管问题,也就成为大数据领域所要继续探索的内容了。
- SmartDP
Hadoop是数据挖掘的重要工具,但是它的使用对象是一线的数据挖掘者。对非数据分析企业而言,想要利用Hadoop等开源软件构筑自身完整的数据分析体系比较复杂,一方面是因为相关数据的缺失,另一方面则是因为搭建完善的数据分析体系并不容易。此外由于聘请高级专家的成本过高,许多公司更乐意引进数据分析工具。诸如SmartDP之类具有“自助服务”能力的大数据分析软件的出现,为企业跨越数据鸿沟提供了一个新方式。
SmartDP是基于智能数据应用探索商业价值的平台,它具有数据管理、数据工程和数据科学的能力,这三大能力是对数据分析平台最基础也是最重要的要求。
在数据管理方面,SmartDP为企业提供了元数据管理、数据存储、数据治理、数据清洗、数据质量管理、人员权限管理与数据安全维护。数据的存储与管理是企业数据运用的基础,SmartDP不仅能够协助企业进行一方数据的管理,还能充当数据的连接器,打通数据平台和数据市场,拓展企业所需的第三方数据,为企业深度挖掘商业价值提供丰富的数据环境。
在数据工程方面,SmartDP提供了多方数据接入、数据整合、数据运营、应用接入、数据分析、数据可视化呈现、数据结论和执行建议。内外部的数据整合为企业数据价值挖掘提供了丰富的原材料,但原材料只有经过恰当的数据处理才能转化为价值。SmartDP的特点在于帮助用户快速实现各类操作,找到最佳的数据价值挖掘方式。
数据科学是企业数据运用的重点与核心,SmartDP为没有数据管理平台和处理能力的用户提供了处理数据的平台与应用。SmartDP支持算法开发、算法接入、算法组合与算法自动调整(机器学习)。人工智能与开源算法的引进,为企业的数据应用与分析提供了多样性的选择与多水平的应用,满足不同企业、不同层次的需求。
从企业内部数据的产生到产品落地后产生的效果,SmartDP打通了企业数据的全链条,缩短了产业的价值链与决策链,许多之前必须通过外包才能解决的问题,现在可以利用内部数据分析平台完成决策,为企业提供直接可操作的结果。
从具体的产品形态看,目前SmartDP以DMP为基础,整合一方与三方数据,提供了如数据管家、用户管家、脉策、酷屏、人际地图等一系列产品应用。数据管家完成了数据的管理,从业务源头开始,对企业内外部的数据进行梳理与整合;脉策结合用户线上使用行为与线下活动轨迹,为房地产厂商提供最优的选址,帮助企业进行决策;酷屏能为企业提供简洁清晰的可视化图像,为用户提供直观展示;人际地图从用户的职、住、娱三个层面挖掘用户的行为轨迹,分析用户的消费水平与偏好,为企业营销提供最直接的决策推荐信息。而这些都只是SmartDP中的部分功能,外部算法与应用的接入意味着SmartDP能够实现更丰富的功能。