《智能数据时代:企业大数据战略与实战》一1.5 大数据环境下的处理分析工具

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

.本节书摘来自华章出版社《智能数据时代:企业大数据战略与实战》一书中的第1章,第1.5节,作者 TalkingData ,更多章节内容可以访问云栖社区“华章计算机”公众号查看

1.5 大数据环境下的处理分析工具

  1. Apache Hadoop
    Apache Hadoop(包括基于它的各种包装,以下通称Hadoop)是一种开源工具,它提供了处理大数据的新平台。虽然Hadoop已经存在一段时间了,但是越来越多的企业才刚刚开始利用其功能。Hadoop平台旨在解决大量数据造成的问题,特别是包含复杂结构化数据和非结构化数据的混合数据,这些数据不适合放在表中。Hadoop在需要深度分析和计算量大(如集群和定位)的情况下运行良好。

对于寻求利用大数据的决策者而言,Hadoop解决了与大数据相关的最常见的问题:以高效的方式存储和访问大量数据。
Hadoop的内在设计允许它作为一个平台运行,它能够在大量的分布式机器上工作。考虑到这一点,很容易看出Hadoop如何提供额外的价值:网络管理员可以只购买大量的商用服务器,然后安装并在每个服务器上运行Hadoop软件。
Hadoop有助于节省与大规模数据集有关的管理成本。从操作上看,组织的数据都加载在Hadoop平台上,Hadoop软件把数据分解成可管理的部分,同时把数据扩展到各个服务器上。分布式存储的特性意味着无法在一个地方获取全部的数据。Hadoop还可以追踪数据的存储位置,而且能够通过创建多个副本来维护数据。这就强化了数据存储的弹性,因为即使某个服务器掉线或损坏,数据也可以从已知的好的副本自动复制。
Hadoop的优势还表现在处理数据方面。例如,传统的集中式数据库系统存在很多限制,它需要一个连接到服务器级系统的大磁盘驱动器和具有多个处理器的驱动器。在这种情况下,数据分析就会受限于磁盘性能和处理器的数量。
而在一个Hadoop集群中,每个服务器都可以利用Hadoop的能力在整个集群中传播工作和数据,从而参与数据的处理。换句话说,索引工作通过向集群中的每个服务器发送代码,各个处理器就会对自己的内容进行检索,然后结果会被统一反馈回来。这在Hadoop中称为分布式计算,也就是代码或操作被分布到所有处理器上,而最终的结果精简成单一的集合。
Hadoop在处理大规模数据集时表现良好,关键就在于它将数据分散到各个处理器上,而且它能并行运行所有处理器来处理复杂运算问题。
然而,冒险进入Hadoop的世界并不是一种“即插即用”的体验。为确保成功有一些先决条件:硬件要求和环境配置。首先要做的就是了解和定义分析过程。大多数首席信息官都对商务分析(BA)和BI的流程相当熟悉,并能将其与最常用的过程层(提取、转换和加载ETL组件)相联系,这对于构建BA或BI解决方案至关重要。大数据的分析和操作需要企业先选定所要处理的数据集,整合它们,然后进入ETL程序进行处理。在这里需要处理大量的数据,而且这些数据可能是结构化的、非结构化的,或者是来自于不同渠道的数据资源,如社交网站、数据日志、门户网站、移动通信设备和传感器等。
要真正实现Hadoop的价值,需要把操作程序和注意事项结合起来(例如一个容错的集群架构,选用最贴合数据的计算方法,实现对数据集的并行计算或批处理),以及需要一个能够支持数据从存储到分析的企业级平台。
我们应该明白,并非所有的企业都需要用到大数据分析。我们也应该认真思考一下Hadoop的能力和作用。Hadoop并不能够依靠自身来完成一切,企业在搭建Hadoop平台之前,还要考虑除了Hadoop之外需要什么组件。
例如,企业运行Hadoop平台需要以下组件:数据管理组件HDFS和HBase、程序框架组件MapReduce和OOZIE,开发组件Pig和Hive,以及开源Pentaho。在这个小型试点项目中并不需要其他太多的硬件设备。其中硬件必需品有:两台多核服务器、至少24GB的运行内存,以及一个2TB的磁盘。这就足以推动一个小型试点项目运行起来。
Hadoop的有效运行和管理需要一定的专业知识和经验,如果这方面准备不足的话,就需要信息技术管理人员与能够提供全面技术支持的服务供应商进行合作。这方面的专业知识对于项目安全尤为重要。Hadoop、HDFS、HBase组件也需要安全防护。换句话说,进入Hadoop程序的数据仍然需要保护,以免丢失。
整体来看,Hadoop平台是对企业大数据分析实力进行检测的关键。而在完成检测之后,如何解决平台上大量的服务器托管问题,也就成为大数据领域所要继续探索的内容了。

  1. SmartDP
    Hadoop是数据挖掘的重要工具,但是它的使用对象是一线的数据挖掘者。对非数据分析企业而言,想要利用Hadoop等开源软件构筑自身完整的数据分析体系比较复杂,一方面是因为相关数据的缺失,另一方面则是因为搭建完善的数据分析体系并不容易。此外由于聘请高级专家的成本过高,许多公司更乐意引进数据分析工具。诸如SmartDP之类具有“自助服务”能力的大数据分析软件的出现,为企业跨越数据鸿沟提供了一个新方式。

SmartDP是基于智能数据应用探索商业价值的平台,它具有数据管理、数据工程和数据科学的能力,这三大能力是对数据分析平台最基础也是最重要的要求。
在数据管理方面,SmartDP为企业提供了元数据管理、数据存储、数据治理、数据清洗、数据质量管理、人员权限管理与数据安全维护。数据的存储与管理是企业数据运用的基础,SmartDP不仅能够协助企业进行一方数据的管理,还能充当数据的连接器,打通数据平台和数据市场,拓展企业所需的第三方数据,为企业深度挖掘商业价值提供丰富的数据环境。
在数据工程方面,SmartDP提供了多方数据接入、数据整合、数据运营、应用接入、数据分析、数据可视化呈现、数据结论和执行建议。内外部的数据整合为企业数据价值挖掘提供了丰富的原材料,但原材料只有经过恰当的数据处理才能转化为价值。SmartDP的特点在于帮助用户快速实现各类操作,找到最佳的数据价值挖掘方式。

image

数据科学是企业数据运用的重点与核心,SmartDP为没有数据管理平台和处理能力的用户提供了处理数据的平台与应用。SmartDP支持算法开发、算法接入、算法组合与算法自动调整(机器学习)。人工智能与开源算法的引进,为企业的数据应用与分析提供了多样性的选择与多水平的应用,满足不同企业、不同层次的需求。
从企业内部数据的产生到产品落地后产生的效果,SmartDP打通了企业数据的全链条,缩短了产业的价值链与决策链,许多之前必须通过外包才能解决的问题,现在可以利用内部数据分析平台完成决策,为企业提供直接可操作的结果。
从具体的产品形态看,目前SmartDP以DMP为基础,整合一方与三方数据,提供了如数据管家、用户管家、脉策、酷屏、人际地图等一系列产品应用。数据管家完成了数据的管理,从业务源头开始,对企业内外部的数据进行梳理与整合;脉策结合用户线上使用行为与线下活动轨迹,为房地产厂商提供最优的选址,帮助企业进行决策;酷屏能为企业提供简洁清晰的可视化图像,为用户提供直观展示;人际地图从用户的职、住、娱三个层面挖掘用户的行为轨迹,分析用户的消费水平与偏好,为企业营销提供最直接的决策推荐信息。而这些都只是SmartDP中的部分功能,外部算法与应用的接入意味着SmartDP能够实现更丰富的功能。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
30天前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
9天前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
38 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
9天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
43 1
|
1天前
|
存储 大数据 数据处理
大数据环境下的性能优化策略
大数据环境下的性能优化策略
8 2
|
4天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
13 3
|
4天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
18 2
|
7天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
32 1
|
8天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
36 2
|
11天前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
|
15天前
|
SQL 存储 大数据
大数据中数据提取
【10月更文挑战第19天】
38 2

热门文章

最新文章

下一篇
无影云桌面