大数据与机器学习:实践方法与行业案例导读

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:
前  言

不畏浮云遮望眼,只缘身在最高层。
—王安石《登飞来峰》
数据科学家 = 统计学家 + 程序员 + 讲故事的人 + 艺术家
—Shlomo Aragmon
本书的创作初衷
大数据方面的书籍可谓琳琅满目,有的讲解理论,有的介绍方法,有的传播理念。但是,大数据从业人员(如数据工程师、数据分析师、业务分析师、算法设计师等)应该掌握哪些知识与技能,如何应用数据解决现实的业务问题呢?恐怕最能给出答案的还是实际的数据从业者。为此,三位作者基于近10年的数据分析与应用经验,融合各自在商业银行、互联网金融和电商领域的切身体验,寓理论于实战,选取多个详实的案例,站在企业实际应用的角度介绍数据分析应用过程并公布源代码,并最终形成本书。本书对于读者开展数据分析工作能够提供直接帮助,为有志于在大数据领域发展的读者启航。 
本书特点
本书有三大特点。其一,内容全面,覆盖大数据生态中的数据、基础平台、分析方法和应用四个领域,对数据应用从业务需求、数据准备、数据分析、挖掘建模、演示报告、成果应用等全流程进行了详细阐述;其二,以业务场景为主线,精选银行和互联网方面最具代表性的案例,站在数据消费者和分析师的角度,身临其境地介绍了数据如何产生价值,寓理论于实战,让读者能知其所以然;其三,写作手法上遵循大道至简原则,用浅显的语言介绍复杂的数据分析应用过程,归纳数据分析师乃至数据科学家应该修炼的要点,既关注技术细节,又不拖泥带水,能为读者提供直接帮助。
本书定位
本书既可作为数据分析与商业分析人员的入门指引和案头工具,亦可为统计学、计算机科学、市场营销等专业研究生拓宽视野。
源代码下载
对书中源代码感兴趣的读者,可与作者联系(邮箱:64346837@qq.com)。

 目  录
前言
第一部分 数据与平台篇
第1章 数据与数据平台
第2章 数据体系
第3章 实战:打造数据闭环
第二部分 分 析 篇
第4章 数据预处理 83
4.1 数据表的预处理 84
4.2 变量的预处理 85
4.2.1 缺失值的处理 85
4.2.2 极值的处理 90
4.3 变量的设计 91
4.3.1 暴力衍生 91
4.3.2 交叉升维 92
4.4 变量筛选 95
4.4.1 筛选显著变量 95
4.4.2 剔除共线性 96
4.5 本章小结 100
第5章 聚类,简单易用的客户细分方法 101
5.1 从客户细分说起 102
5.1.1 为什么要做客户细分 102
5.1.2 怎么做客户细分 103
5.1.3 聚类分析,无监督的客户细分方法 107
5.2 谱系聚类 107
5.2.1 基本步骤 107
5.2.2 案例:公司客户差异化服务 110
5.2.3 谱系聚类方法的题外话 115
5.3 K-means算法 116
5.3.1 基本步骤 116
5.3.2 案例:电商卖家细分 117
5.3.3 K-means算法的题外话 121
5.4 本章小结 121
第6章 关联规则挖掘,发现产品
加载和交叉销售机会 122
6.1 销售的真谛:让客户买得更多 123
6.1.1 案例:电商的生意经 123
6.1.2 案例:富国银行的“商店”经营模式 124
6.1.3 案例总结 125
6.2 交叉销售 126
6.2.1 为什么要做交叉销售 126
6.2.2 怎么做交叉销售 126
6.3 关联规则挖掘,发现交叉销售机会 128
6.3.1 Apriori算法 129
6.3.2 Apriori算法的主要指标 129
6.3.3 Apriori算法的基本步骤 131
6.4 案例:信用卡产品交叉销售 131
6.4.1 准备数据 132
6.4.2 SAS实现 132
6.4.3 结果分析 133
6.4.4 序列关联分析 136
6.4.5 结果应用 137
6.5 本章小结 138
第7章 社交网络分析,从“关系”
的角度分析问题 139
7.1 先看几张美轮美奂的图片 140
7.2 社交网络分析方法 142
7.2.1 定义 142
7.2.2 应用场景 142
7.2.3 网络识别算法 143
7.3 案例:电商通过订单数据识别供应链 144
7.3.1 供应链及供应链金融 144
7.3.2 识别核心企业及其上下游关系 144
7.3.3 分析结果的业务应用 149
7.4 案例:P2P投资风险防范 151
7.4.1 案例背景 151
7.4.2 防范方法 152
7.5 本章小结 153
第8章 线性回归,预测客户价值 155
8.1 数值预测 156
8.2 回归与拟合 157
8.2.1 回归就是拟合 157
8.2.2 在Excel中添加趋势线预测 158
8.3 案例:信用卡客户价值预测 159
8.3.1 确定预测目标 159
8.3.2 准备建模数据 161
8.3.3 模型拟合 163
8.3.4 模型评估 165
8.4 基于客户价值分层的业务策略 167
8.5 本章小结 167
第9章 Logistic回归,精准营销的
主要支撑算法 169
9.1 大数据时代的精准营销 170
9.1.1 精准营销 170
9.1.2 基于大数据的精准营销模式 171
9.1.3 如何做到精准 172
9.2 Logistic回归算法介绍 173
9.2.1 算法原理 173
9.2.2 关键步骤 174
9.3 案例:信用卡消费信贷产品的精准营销 176
9.3.1 案例背景 176
9.3.2 数据准备 176
9.3.3 数据预处理 180
9.3.4 建模 182
9.3.5 模型评估 185
9.4 预测模型的应用与评估 189
9.5 本章小结 189
第10章 决策树类算法,反欺诈
模型“专家” 191
10.1 决策树,重要的分类器 191
10.2 决策树的关键思想 192
10.2.1 理财客户画像案例背景 192
10.2.2 关键思想一:递归划分 194
10.2.3 关键思想二:剪枝 197
10.3 案例:电商盗卡交易风险识别 198
10.3.1 案例背景 198
10.3.2 以SAS实现 199
10.3.3 以Clementine实现 201
10.3.4 以R实现 204
10.4 随机森林 208
10.5 本章小结 209
第11章 数据可视化,是分析更是
设计 210
11.1 数据演示之道 210
11.1.1 好“色”之图 211
11.1.2 版式有形 212
11.1.3 数据发声 214
11.2 个性化地图 215
11.2.1 案例背景:存款增长率指标展示 215
11.2.2 获取地理位置的经纬度数据 216
11.2.3 定制地图背景和图标 217
11.2.4 生成地图 220
11.3 文本分析 222
11.3.1 案例:电商的客户评价分析 222
11.3.2 分词 223
11.3.3 词云制作 224
11.3.4 情感分析 225
11.4 本章小结 227
第三部分 应 用 篇
第12章 标签系统 231
12.1 认识标签系统 231
12.2 标签系统的设计 233
12.2.1 标签系统的层次结构 233
12.2.2 标签系统的更新规则 233
12.2.3 机器学习模型转化为标签 235
12.3 标签系统的实现 236
12.3.1 标签映射表 237
12.3.2 标签系统的前端实现 238
12.3.3 标签系统的数据后端实现 238
12.3.4 标签系统的在线接口实现 242
12.4 本章小结 242
第13章 数据自助营销平台 244
13.1 数据自助营销平台的价值所在 245
13.1.1 自动化营销,提升工作效率 245
13.1.2 降低营销成本,提升用户体验 247
13.1.3 个性化营销,提升响应率 248
13.1.4 统一管理,便于效果追踪 249
13.2 数据自助营销平台的实现原则 249
13.2.1 数据营销活动的节点 249
13.2.2 数据自助营销平台的基础:标签系统 251
13.2.3 数据自助营销平台的批量任务 252
13.2.4 实时数据营销 254
13.3 数据自助营销平台的场景实例 254
13.3.1 客户生命周期管理 254
13.3.2 用卡激励计划 257
13.4 本章小结 260
第14章 基于Mahout的个性化推荐系统 261
14.1 Mahout的推荐引擎 262
14.1.1 Mahout的安装配置 262
14.1.2 Mahout的使用方式 263
14.1.3 协同过滤算法 264
14.1.4 Mahout的推荐引擎 265
14.2 规模与效率 268
14.2.1 Mahout推荐算法的适用范围 268
14.2.2 通过分布式解决规模和效率的问题 270
14.3 实现一个推荐系统 275
14.3.1 系统框架 275
14.3.2 推荐系统的刷新 276
14.3.3 部署一个可用的推荐系统 276
14.4 本章小结 280
第15章 图计算与社会网络 281
15.1 社会网络和属性图 282
15.2 Spark GraphX与Neo4j 283
15.2.1 Scala编程语言 284
15.2.2 Cypher查询语言 285
15.3 使用Spark GraphX和Neo4j处理社会网络 286
15.3.1 背景说明 286
15.3.2 数据准备 286
15.3.3 Spark GraphX处理原始网络 287
15.3.4 Neo4j交互式查询分析 291
15.3.5 更多的应用场景 295
15.4 本章小结 296
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
SQL 分布式计算 运维
如何对付一个耗时6h+的ODPS任务:慢节点优化实践
本文描述了大数据处理任务(特别是涉及大量JOIN操作的任务)中遇到的性能瓶颈问题及其优化过程。
|
1月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
61 4
|
23天前
|
边缘计算 人工智能 搜索推荐
大数据与零售业:精准营销的实践
【10月更文挑战第31天】在信息化社会,大数据技术正成为推动零售业革新的重要驱动力。本文探讨了大数据在零售业中的应用,包括客户细分、个性化推荐、动态定价、营销自动化、预测性分析、忠诚度管理和社交网络洞察等方面,通过实际案例展示了大数据如何帮助商家洞悉消费者行为,优化决策,实现精准营销。同时,文章也讨论了大数据面临的挑战和未来展望。
|
29天前
|
存储 机器学习/深度学习 大数据
量子计算与大数据:处理海量信息的新方法
【10月更文挑战第31天】量子计算凭借其独特的量子比特和量子门技术,为大数据处理带来了革命性的变革。相比传统计算机,量子计算在计算效率、存储容量及并行处理能力上具有显著优势,能有效应对信息爆炸带来的挑战。本文探讨了量子计算如何通过量子叠加和纠缠等原理,加速数据处理过程,提升计算效率,特别是在金融、医疗和物流等领域中的具体应用案例,同时也指出了量子计算目前面临的挑战及其未来的发展方向。
|
1月前
|
机器学习/深度学习 自然语言处理 算法
大数据与机器学习
大数据与机器学习紧密相关,前者指代海量、多样化且增长迅速的数据集,后者则是使计算机通过数据自动学习并优化的技术。大数据涵盖结构化、半结构化及非结构化的信息,其应用广泛,包括商业智能、金融和医疗保健等领域;而机器学习分为监督学习、无监督学习及强化学习,被应用于图像识别、自然语言处理和推荐系统等方面。二者相结合,能有效提升数据分析的准确性和效率,在智能交通、医疗及金融科技等多个领域创造巨大价值。
103 2
|
1月前
|
SQL 消息中间件 分布式计算
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
80 0
|
1月前
|
SQL 大数据
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
59 0
|
1月前
|
SQL 消息中间件 分布式计算
大数据-130 - Flink CEP 详解 - CEP开发流程 与 案例实践:恶意登录检测实现
大数据-130 - Flink CEP 详解 - CEP开发流程 与 案例实践:恶意登录检测实现
46 0
|
1月前
|
SQL 消息中间件 分布式计算
大数据-115 - Flink DataStream Transformation 多个函数方法 FlatMap Window Aggregations Reduce
大数据-115 - Flink DataStream Transformation 多个函数方法 FlatMap Window Aggregations Reduce
37 0
|
3月前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
下一篇
无影云桌面