《深入理解Hadoop（原书第2版）》——1.6大数据商业用例-阿里云开发者社区

《深入理解Hadoop（原书第2版）》——1.6大数据商业用例

2017-05-02 1218

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介：

本节书摘来自华章计算机《深入理解Hadoop（原书第2版）》一书中的第1章，第1.6节，作者 [美]萨米尔·瓦德卡（Sameer Wadkar），马杜·西德林埃（Madhu Siddalingaiah），杰森·文纳（Jason Venner），译于博，冯傲风，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.6大数据商业用例

在商业界，大数据和Hadoop都有很多应用案例。再从以下三个方面总结大数据的特征：

数据量（Volume）
处理速度（Velocity）
数据多样性（Variety）

数据量是指系统能够处理的数据量的大小。如果你们部门每天晚上都要在两个小时内获取、加载并传输2TB的数据，你就会面对数据量的挑战。

处理速度是指当大量数据来到时，系统的处理数据能力。像Facebook 和 Twitter 这样的公司就碰到了数据处理速度的问题。这些公司每秒钟都会收到海量的短信息（tiny messages），这些数据需要被立即处理，把它们发布到社交站点，推送到相关用户（家庭成员、朋友或者追随者），触发各种事件等。

数据多样性是指系统处理的数据格式类型是不停增长的。企业检索系统已经成为各企业的标配了。类似Apache Solr这样的开源软件使基于搜索的系统越来越普遍。绝大多数非结构化的数据并非孤立存在的，有大量的结构化的数据与其相关联。我们拿一个简单的电子邮件文档来举个例子。电子邮件有很多元数据与其关联，比如发送者、接收者、接收者的顺序、发送/接收时间、发送者/接收者的企业信息（比如，发送时的头衔），等等。

这些信息是动态变化的。比如，你要分析多年的电子邮件（一些法律行业的相关部门会经常有此工作内容），当发送者或者接收者第一次进行电子邮件交流的时候，搞清楚他们当时使用的头衔是很重要的。数据的这种动态变化的特性是普遍存在的，而且也是处理的难点。

利用商用软件和硬件，大数据系统能帮助我们每天的工作，比如大数据量的抽取、传输、加载（ETL）。需要强调的是，开源Hadoop系统，这个运行在多个商用服务器上，并可通过添加更多的计算节点来扩容集群的系统，可以使得ETL（或者是ELT，这个是大数据领域的通用叫法）性能在合理的代价上获得大幅提升。

为了支持更快的数据处理速度和更加多样的数据类型，围绕着Hadoop系统和HDFS系统发展出了多个开源的大数据处理系统。新的数据格式要求我们在处理大量数据的时候对系统I/O性能有更好的管理。本书将会讲解这样的开发需求存在的目的和相关用例。

Storm（由Twitter公司发起）和Apache Flume（用来分析海量日志数据信息）是专注于数据处理速度的系统。如何选择这样的系统，取决于你需要的数据处理的“实时”程度。Storm处理数据的实时性会比Flume更好。

要明确的是，大数据是一个由多个系统组成的生态系统，这些系统都是用来处理各种复杂的业务问题。Hadoop系统是处理这些问题的解决方案的核心。理解了Hadoop系统，你就能更深刻地理解大数据生态圈中其他大数据系统的使用。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

《深入理解Hadoop（原书第2版）》——1.6大数据商业用例

1.6大数据商业用例

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

《深入理解Hadoop（原书第2版）》——1.6大数据商业用例

1.6大数据商业用例

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景