《大数据导论》一1.5　案例学习-阿里云开发者社区

《大数据导论》一1.5　案例学习

2017-05-02 1309

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介：

本节书摘来自华章出版社《大数据导论》一书中的第1章，第1.5节，作者托马斯·埃尔（Thomas Erl），瓦吉德·哈塔克（Wajid Khattak），保罗·布勒（Paul Buhler），更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.5　案例学习

虽然ETI公司目前的策略选择了大数据技术作为实现它们战略目标的手段，但ETI并没有大数据技术，因此需要在雇佣大数据咨询团队还是让自己的IT团队进行大数据训练中进行选择。最终它们选择了后者。然而，只有高级的成员接受了完整的学习，并且转换为公司永久的大数据咨询员工，同时由他们去训练初级团队，在公司内部进行进一步大数据训练。

接受了大数据学习之后，受训小组的成员强调他们需要一个常用的术语词典，这样整个小组在讨论大数据内容时才能处于同一个频道。其后，他们选择了一个案例驱动的方案。当讨论数据集的时候，小组成员将会指出一些相关的数据集，这些数据集包括理赔、政策、报价、消费者档案、普查档案。虽然这些数据分析和分析学概念很快被接受了，但是一些缺乏商务经验的小组成员在理解BI和建立合适的KPI上依旧有困难。一个接受过训练的IT团队成员以生成月报的过程为例来解释BI。这个过程需要将操作系统中的数据输入到EDW中，并生成诸如保险销售、理赔提交处理的KPI在不同的仪表板和计分板上。

就分析方法而言，ETI同时使用描述性分析和诊断性分析。描述性分析包括通过政策管理系统决定每天卖的保险份数，通过理赔管理系统统计每天的理赔提交数，通过账单系统统计客户的欠款数量。诊断性分析作为BI活动的一部分，例如回答为什么上个月的销售目标没有达成这类问题。分析将销售划分为不同的类型和不同的地区，以便发现哪些地区的哪些类型的销售表现得不尽人意。

目前ETI并没有使用预测性分析和规范性分析手法。然而，对大数据技术的实行将会使他们最终能够使用这些分析手法，正如他们现在能够处理非结构化数据，让其跟结构化数据一同为分析手法提供支持一样。ETI决定循序渐进地开始使用这两种分析方法，首先应用预测性分析，锻炼了熟练使用该分析的能力后再开始实施规范性分析。

在这个阶段，ETI计划利用预测性分析来支持他们实现目标。举个例子，预测性分析能够通过预测可能的欺诈理赔来检测理赔欺诈行为，或者通过对客户流失的案例分析，来找到可能流失的客户。在未来的一段时间内，通过规范性分析，我们可以确定ETI能够更加接近他们的目标。例如，规范性分析能够帮助他们在考虑所有可能的风险因素下确立正确的保险费，也能帮助他们在诸如洪水和龙卷风的自然灾害下减少损失。

1.5.1　确定数据特征

IT团队想要从容量、速率、多样性、真实性、价值这5个方面对公司内部和外部的数据进行评估，以得到这些数据对公司利益的影响。于是小组轮流讨论这些特征，考虑不同的数据集如何能够表现出这些特征。

1.容量

小组强调，在处理理赔、销售新的保险产品以及更改现有产品的过程中，会有大量的转移数据产生。然而，小组进行了一个快速的讨论，发现大量的非结构化数据，无论是来自公司的内部还是外部，都会帮助公司达成目标。这些数据包括健康记录、客户提交保险申请时提交的文件、财产计划、临时数据、社交媒体数据以及天气信息。

2.速率

考虑所有输入流的数据，有的数据速率很低，例如理赔提交的数据和新政策讨论的数据。但是像网页服务日志和保险费又是速率高的数据。纵观公司外部数据，IT小组预计社交媒体数据和天气数据将以极快的高频到达。此外，预测还表示灾难管理和诈骗理赔检测的时候数据必须尽快处理，以最小化损失。

3.多样性

在实现目标的时候，ETI需要将大量多种不同的数据集联合起来考虑，包括健康记录、策略数据、理赔数据、保险费、社交媒体数据、电话中心数据、理赔人记录、事件图片、天气信息、人口普查数据、网页服务日志以及电子邮件。

4.真实性

从操作系统和EDW中获得的数据样本显示有极高的真实性。于是IT小组把这一点添加到数据真实性表现中。数据的真实性体现在多个阶段，包括数据进入公司的阶段、多个应用处理数据的阶段，以及数据稳定存储在数据库中的阶段。考虑ETI的外部数据，对一些来自媒体和天气的数据阐明了真实性的递减会导致数据确认和数据清洗的需求增加，因为最终要获得高保真性的数据。

5.价值

对于价值这个特征，从目前的情况来看，所有IT团队的成员都认同他们需要通过确保数据存储的原有格式以及用合适的分析类型来使数据集的价值最大化。

1.5.2　确定数据类型

IT小组成员对多种数据集进行了分类训练，并得出如下列表：

结构化数据：策略数据、理赔数据、客户档案数据、保险费数据；

非结构化数据：社交媒体数据、保险应用档案、电话中心记录、理赔人记录、事件照片；

半结构化数据：健康记录、客户档案数据、天气记录、人口普查数据、网页日志及电子邮件。

元数据对于ETI现在的数据管理过程是一个全新的概念。同样的，即使元数据真的存在，目前的数据处理也没有考虑过元数据的情况。IT小组指出其中一个原因，公司内部几乎所有的需要处理的数据都是结构化数据。因此，数据的源和特征能很轻易地得知。经过一些考虑后，成员们意识到对于结构化数据来说，数据字典、上次更新数据的时间戳和上次更新时不同关系数据表中的用户编号可以作为它们的元数据使用。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

《大数据导论》一1.5　案例学习

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

《大数据导论》一1.5 案例学习

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《大数据导论》一1.5　案例学习