《大数据导论》一1.4 案例学习背景

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:
  本节书摘来自华章出版社《大数据导论》一书中的第1章,第1.4节,作者托马斯·埃尔(Thomas Erl),瓦吉德·哈塔克(Wajid Khattak),保罗·布勒(Paul Buhler),更多章节内容可以访问云栖社区“华章计算机”公众号查看。


1.4 案例学习背景

ETI(Ensure to Insure)是一家领先的保险公司,为全球超过2500万客户提供健康、建筑、海事、航空等保险计划。该公司拥有超过5000名员工,年利润超过3.5亿美元。

1.4.1 历史背景

ETI早在50年前建立之时,就是一家专业做健康保险计划的公司。在过去30年的不断收购过程中,ETI已经发展成了覆盖航空、航海、建筑等多个领域的财产险和意外险的保险公司。这几类保险中每一类都有一个核心团队,包括专业的以及经验丰富的保险代理人、精算师、担保人、理赔人等。

精算师负责评估风险,设计新的保险计划并优化现有保险计划,同时代理人则通过推销保险来为公司赚取利润。精算师也会利用仪表板和计分板来对场景进行假设评估分析。担保人则评估保险产品,并决定附加的保险费。理赔人则主要去寻找可能对保险政策不利的赔付声明并且最终决定保险政策。

ETI的一些核心部门包括担保部门、理赔部门、客户服务部门、法律部门、市场部门、人力资源部门、会计部门和IT部门。潜在的客户和现有的客户均通过客户服务部门的电话联系ETI,同时,通过电子邮件和社交平台的联系在近年来也在不断增加。

ETI通过提供富有竞争性的保险条款和终生有效的保险客户服务从众多保险公司中脱颖而出。其管理方针认为这样做能够有效地保留客户群体。ETI在很大程度上依赖于其精算师制定保险计划来反映其客户的需求。

1.4.2 技术基础和自动化环境

ETI公司的IT环境由客户服务器和主机平台组合构成,支持多个系统的执行政策。这些执行系统包括政策报价系统,政策管理系统,理赔管理系统、风险评估系统、文件管理系统、账单系统、企业资源规划(ERP)系统和客户关系管理(CRM)系统。

政策报价系统用作创建新的保险计划,并提供报价给潜在客户。它集成了网站和客户服务门户网站,为网站访问者和客户服务代理提供获取保险报价的能力。政策管理系统处理所有政策生命周期方面的管理,包括政策的发布、更新、续订和取消。理赔管理系统主要处理理赔操作行为。

一次理赔行为的成立,需要经过如下流程:法定赔偿人提交报告申请,然后理赔人将根据被一同提交上来的直接信息和来源于内外部资源的背景信息对这份报告进行分析,其后理赔才能成立。基于分析的数据,这次理赔行为将会根据固定的一系列商业规则来处理。风险评估系统则被精算师们用来评估任何潜在的风险,例如一次暴风或者洪水可能导致投保人索赔。风险评估系统使得基于概率的风险评估能利用数学和统计学模型量化分析。

文件管理系统是所有文件的储存中心,这些文件包括保险政策、理赔信息、扫描文档以及客户通信。账单系统持续跟踪客户的保险费同时自动生成电子邮件对未交保险费的客户进行催款。ERP系统用来每日运作ETI,包括人力资源管理和财务管理。而CRM系统则全面地记录所有客户的交流信息,从电话到电子邮件等,同时也能为电话中心代理人提供解决客户问题的桥梁。更进一步地,它能让市场小组进行一次完整的市场活动。从这些操作系统中得到的数据将被输送到企业数据仓库(EDW),该数据仓库则根据这些数据生成财务和业绩报告。EDW同时还被用于为不同的监管部门生成报告,确保监管的持续有效执行。

1.4.3 商业目标和障碍

过去的几十年里,该公司的利润一直在递减,于是任命了一个由多名高级经理组成的委员会,对该情况进行调查和提议。委员会发现,财政衰减的主要原因是不断增加的欺诈型理赔以及对这些理赔的赔偿。这些发现表明欺诈行为十分复杂,并且很难去检测,因为诈骗犯越来越富有经验和组织化。除了遭受的直接金钱损失,对诈骗行为的检测流程也造成了相当一部分的间接损失。

另一个需要考虑的因素是,近期多发的洪水、龙卷风和流感等增加真实赔付案例的灾害。其他财政衰减的原因还有由于慢速理赔处理导致的客户流失,保险产品不符合消费者现有需求。此外,一些精通技术的竞争者使用信息技术提供个性化的保险政策,这也是本公司目前不具备的优势。

委员会指出,近期现有法规的更改和新法规出台的频率有所增加。不幸的是,公司对此反应迟缓,并且没有能够确保全面且持续地遵守这些法规。由于这些问题,ETI不得不支付巨额罚金。

委员会强调,公司财政状况恶劣的原因还包括在制作保险计划和提出保险政策时,担保人未能完整详尽地评估风险。这导致了错误的保险费设置以及比预期更高的理赔金额。近来,收取的保险费与支出的亏空与投资相抵消。然而这不是一个长久的解决方案,因为这样会冲淡投资带来的利润。更进一步地,保险计划常常是基于精算师的经验完成的,而精算师的经验只能应用于普遍的人群,也就是平均情况。这样,一些情况特殊的消费者可能不会对这些保险计划感兴趣。

上述因素同样也是导致整个ETI股价下跌并且失去市场地位的原因。

基于委员会的发现,ETI的执行总裁设定了以下的战略目标:

1)通过三种方法降低损失:(a)加强风险评估,最大化平息风险,将这点应用到创建新保险计划中,并且应用在讨论新的保险政策时;(b)实行积极主动的灾难管理体系,降低潜在的因为灾难导致的理赔;(c)检测诈骗性理赔行为。

2)通过以下两种方法降低客户流失,加强客户保留率:(a)加速理赔处理;(b)基于不同的个体情况出台个性化保险政策。

3)通过加强风险管理技术,可以更好地预测风险,在任何时候实现和维持全面的监管合规性,因为大多数法规需要对风险的精确知识来确保,才能够执行。

咨询过公司的IT团队后,委员会建议采取数据驱动的策略。因为在对多种商业操作进行加强分析时,不同的商业操作均需要考虑相关的内部和外部数据。在数据驱动的策略下,决策的产生将基于证据而不是经验或直觉。尤其是大量结构化与非结构化数据的增长对深入而及时的数据分析的良好表现的支持。

委员会询问IT团队是否还有可能阻碍实行上述策略的因素。IT团队考虑到了操作的经济约束。作为对此的回应,小组准备了一份可行性报告用来强调下述三个技术难题:

获取、存储和处理来自内部和外部的非结构化数据—目前,只有结构化数据能够被存储、处理,因为现存的技术并不支持对非结构化数据的处理。

在短时间内处理大量数据—虽然EDW能用来生成基于历史数据的报告,但处理的数据量非常大,而且生成报告需要花费很长时间。

处理包含结构化数据和非结构化数据的多种数据—非结构化数据生成后,诸如文本文档和电话中心记录不能直接被处理。其次,结构化数据在所有种类的分析中会被独立地使用。

IT小组得出了结论:ETI需要采取大数据作为主要的技术来克服以上的问题,并且实现执行总裁所给出的目标。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
数据采集 数据可视化 大数据
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
这篇文章介绍了如何使用Python中的matplotlib和numpy库来创建箱线图,以检测和处理数据集中的异常值。
62 1
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
|
2月前
|
SQL 分布式计算 NoSQL
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
36 1
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
|
2月前
|
存储 SQL 分布式计算
大数据学习
【10月更文挑战第15天】
58 1
|
2月前
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
39 1
|
2月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
74 1
|
2月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
49 3
|
2月前
|
存储 大数据 分布式数据库
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
47 1
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
290 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
45 2
下一篇
DataWorks