《大数据导论》一1.5 案例学习

简介:
  本节书摘来自华章出版社《大数据导论》一书中的第1章,第1.5节,作者托马斯·埃尔(Thomas Erl),瓦吉德·哈塔克(Wajid Khattak),保罗·布勒(Paul Buhler),更多章节内容可以访问云栖社区“华章计算机”公众号查看。


1.5 案例学习

虽然ETI公司目前的策略选择了大数据技术作为实现它们战略目标的手段,但ETI并没有大数据技术,因此需要在雇佣大数据咨询团队还是让自己的IT团队进行大数据训练中进行选择。最终它们选择了后者。然而,只有高级的成员接受了完整的学习,并且转换为公司永久的大数据咨询员工,同时由他们去训练初级团队,在公司内部进行进一步大数据训练。

接受了大数据学习之后,受训小组的成员强调他们需要一个常用的术语词典,这样整个小组在讨论大数据内容时才能处于同一个频道。其后,他们选择了一个案例驱动的方案。当讨论数据集的时候,小组成员将会指出一些相关的数据集,这些数据集包括理赔、政策、报价、消费者档案、普查档案。虽然这些数据分析和分析学概念很快被接受了,但是一些缺乏商务经验的小组成员在理解BI和建立合适的KPI上依旧有困难。一个接受过训练的IT团队成员以生成月报的过程为例来解释BI。这个过程需要将操作系统中的数据输入到EDW中,并生成诸如保险销售、理赔提交处理的KPI在不同的仪表板和计分板上。

就分析方法而言,ETI同时使用描述性分析和诊断性分析。描述性分析包括通过政策管理系统决定每天卖的保险份数,通过理赔管理系统统计每天的理赔提交数,通过账单系统统计客户的欠款数量。诊断性分析作为BI活动的一部分,例如回答为什么上个月的销售目标没有达成这类问题。分析将销售划分为不同的类型和不同的地区,以便发现哪些地区的哪些类型的销售表现得不尽人意。

目前ETI并没有使用预测性分析和规范性分析手法。然而,对大数据技术的实行将会使他们最终能够使用这些分析手法,正如他们现在能够处理非结构化数据,让其跟结构化数据一同为分析手法提供支持一样。ETI决定循序渐进地开始使用这两种分析方法,首先应用预测性分析,锻炼了熟练使用该分析的能力后再开始实施规范性分析。

在这个阶段,ETI计划利用预测性分析来支持他们实现目标。举个例子,预测性分析能够通过预测可能的欺诈理赔来检测理赔欺诈行为,或者通过对客户流失的案例分析,来找到可能流失的客户。在未来的一段时间内,通过规范性分析,我们可以确定ETI能够更加接近他们的目标。例如,规范性分析能够帮助他们在考虑所有可能的风险因素下确立正确的保险费,也能帮助他们在诸如洪水和龙卷风的自然灾害下减少损失。

1.5.1 确定数据特征

IT团队想要从容量、速率、多样性、真实性、价值这5个方面对公司内部和外部的数据进行评估,以得到这些数据对公司利益的影响。于是小组轮流讨论这些特征,考虑不同的数据集如何能够表现出这些特征。

1.容量

小组强调,在处理理赔、销售新的保险产品以及更改现有产品的过程中,会有大量的转移数据产生。然而,小组进行了一个快速的讨论,发现大量的非结构化数据,无论是来自公司的内部还是外部,都会帮助公司达成目标。这些数据包括健康记录、客户提交保险申请时提交的文件、财产计划、临时数据、社交媒体数据以及天气信息。

2.速率

考虑所有输入流的数据,有的数据速率很低,例如理赔提交的数据和新政策讨论的数据。但是像网页服务日志和保险费又是速率高的数据。纵观公司外部数据,IT小组预计社交媒体数据和天气数据将以极快的高频到达。此外,预测还表示灾难管理和诈骗理赔检测的时候数据必须尽快处理,以最小化损失。

3.多样性

在实现目标的时候,ETI需要将大量多种不同的数据集联合起来考虑,包括健康记录、策略数据、理赔数据、保险费、社交媒体数据、电话中心数据、理赔人记录、事件图片、天气信息、人口普查数据、网页服务日志以及电子邮件。

4.真实性

从操作系统和EDW中获得的数据样本显示有极高的真实性。于是IT小组把这一点添加到数据真实性表现中。数据的真实性体现在多个阶段,包括数据进入公司的阶段、多个应用处理数据的阶段,以及数据稳定存储在数据库中的阶段。考虑ETI的外部数据,对一些来自媒体和天气的数据阐明了真实性的递减会导致数据确认和数据清洗的需求增加,因为最终要获得高保真性的数据。

5.价值

对于价值这个特征,从目前的情况来看,所有IT团队的成员都认同他们需要通过确保数据存储的原有格式以及用合适的分析类型来使数据集的价值最大化。

1.5.2 确定数据类型

IT小组成员对多种数据集进行了分类训练,并得出如下列表:

结构化数据:策略数据、理赔数据、客户档案数据、保险费数据;

非结构化数据:社交媒体数据、保险应用档案、电话中心记录、理赔人记录、事件照片;

半结构化数据:健康记录、客户档案数据、天气记录、人口普查数据、 网页日志及电子邮件。

元数据对于ETI现在的数据管理过程是一个全新的概念。同样的,即使元数据真的存在,目前的数据处理也没有考虑过元数据的情况。IT小组指出其中一个原因,公司内部几乎所有的需要处理的数据都是结构化数据。因此,数据的源和特征能很轻易地得知。经过一些考虑后,成员们意识到对于结构化数据来说,数据字典、上次更新数据的时间戳和上次更新时不同关系数据表中的用户编号可以作为它们的元数据使用。

 

 

 

 

 

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
10月前
|
数据采集 搜索推荐 算法
Java 大视界 -- Java 大数据在智能教育学习社区用户互动分析与社区活跃度提升中的应用(274)
本文系统阐述 Java 大数据技术在智能教育学习社区中的深度应用,涵盖数据采集架构、核心分析算法、活跃度提升策略及前沿技术探索,为教育数字化转型提供完整技术解决方案。
|
12月前
|
关系型数据库 MySQL 大数据
大数据新视界--大数据大厂之MySQL 数据库课程设计:MySQL 数据库 SQL 语句调优的进阶策略与实际案例(2-2)
本文延续前篇,深入探讨 MySQL 数据库 SQL 语句调优进阶策略。包括优化索引使用,介绍多种索引类型及避免索引失效等;调整数据库参数,如缓冲池、连接数和日志参数;还有分区表、垂直拆分等其他优化方法。通过实际案例分析展示调优效果。回顾与数据库课程设计相关文章,强调全面认识 MySQL 数据库重要性。为读者提供综合调优指导,确保数据库高效运行。
|
存储 SQL 分布式计算
大数据学习
【10月更文挑战第15天】
380 1
|
数据采集 数据可视化 大数据
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
这篇文章介绍了如何使用Python中的matplotlib和numpy库来创建箱线图,以检测和处理数据集中的异常值。
456 1
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
296 1
|
存储 大数据 分布式数据库
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
280 1
|
SQL 分布式计算 NoSQL
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
252 1
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
271 3
|
6月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
531 0
下一篇
开通oss服务