【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(上)

简介: 【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例

全文链接:http://tecdat.cn/?p=32604

分析师:Bailey Zheng和Lijie Zhang


即使是同一种植物,由于生长的地理环境的不同,它们的特征会有所差异。例如鸢尾花,可分为山鸢尾、杂色鸢尾、维吉尼亚鸢尾点击文末“阅读原文”获取完整代码数据


假设此时您得到了一朵鸢尾花,如何判断它属于哪一类呢?

image.png

支持向量机算法原理


·其主要思想是找到空间中的一个能够将所有数据样本划开的超平面,并且使得样本集中所有数据到这个超平面的距离最短。

·支持向量机可以分为线性和非线性两大类。

image.png

支持向量机的标准:


image.png

非线性支持向量机


·高斯核:尺度参数gamma

·多项式核:阶数degree

(线性支持向量机:正则化参数C) 调参

image.png

数据指标:


SL花尊长度(cm) ,SW花芎宽度(cm)PL花辨长度(cm),PW花瓣宽度(cm)鸢尾花种类: Iris Setosa;

Iris Versicolour;Iris Virginica

数据数量:共150个数据点


使用多项式核函数的非线性支持向量机训练分类模型

image.png

点击标题查阅往期内容


数据分享|WEKA信贷违约预测报告:用决策树、随机森林、支持向量机SVM、朴素贝叶斯、逻辑回归


01

02

03

04


Python用户流失数据挖掘:建立支持向量机、逻辑回归、XGboost、随机森林、决策树、朴素贝叶斯模型和Kmeans用户画像


在今天产品高度同质化的品牌营销阶段,企业与企业之间的竞争集中地体现在对客户的争夺上

“用户就是上帝”促使众多的企业不惜代价去争夺尽可能多的客户。但是企业在不惜代价发展新用户的过程中,往往会忽视或无暇顾及已有客户的流失情况,结果就导致出现这样一种窘况:一边是新客户在源源不断地增加,而另一方面是辛辛苦苦找来的客户却在悄然无声地流失。因此对老用户的流失进行数据分析从而挖掘出重要信息帮助企业决策者采取措施来减少用户流失的事情至关重要,迫在眉睫。

image.png

1.2 目的:

深入了解用户画像及行为偏好,挖掘出影响用户流失的关键因素,并通过算法预测客户访问的转化结果,从而更好地完善产品设计、提升用户体验。


1.3 数据说明:

此次数据是携程用户一周的访问数据,为保护客户隐私,已经将数据经过了脱敏,和实际商品的订单量、浏览量、转化率等有一些差距,不影响问题的可解性。


2 读取数据


# 显示全部特征
df.head()

image.png

3 切分数据


# 划分训练集,测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=666)

3.1 理解数据

可以看到变量比较的多,先进行分类,除去目标变量label,此数据集的字段可以分成三个类别:订单相关指标、客户行为相关指标、酒店相关指标。

image.png

image.png

4 特征工程


# 用训练集进行数据探索
train = pd.concat([X_train,y_train],axis=1)


4.1 数据预处理

image.png

image.png

4.1.1 删除不必要的列

X_train.pop("sampleid")
X_test.pop("sampleid")
train.pop("sampleid")

4.1.2 数据类型转换

字符串类型的特征需要处理成数值型才能建模,将arrival和d相减得到"提前预定的天数",作为新的特征

# 增加列
# 将两个日期变量由字符串转换为日期格式类型
train["arrial"] = pd.to_datimetain["arrval"])
X_tst["arival"] = d.to_daetime(X_est["arival"])
# 生成提前预定时间列(衍生变量)
X_trin["day_adanced"] = (X_rain["arival"]-Xtrain["d"]).dt.days
## 删除列
X_tran.dro(columns="d","arrivl"],inpace=True)

4.1.3 缺失值的变量生成一个指示哑变量

zsl = tain.isnll().sum()[tain.isnll(.sum()!=0].inex

4.1.4 根据业务经验填补空缺值

ordernum_oneyear 用户年订单数为0 ,lasthtlordergap 11%用600000填充 88%用600000填充 一年内距离上次下单时长,ordercanncelednum 用0填充 用户一年内取消订单数,ordercanceledprecent 用0t填充 用户一年内取消订

单率 242114 242114 -为空 有2种情况 1:新用户未下订单的空-88.42% 214097 2.老用户1年以上未消费的空 增加编码列未下订单新用户和 1年未下订单的老用户

price_sensitive -0 ,中位数填充 价格敏感指数,consuming_capacity -0 中位数填充 消费能力指数 226108 -为空情况 1.从未下过单的新用户214097 2.12011个人为空原因暂不明确

uv_pre -24小时历史浏览次数最多酒店历史uv. cr_pre -0,中位数填充 -24小时历史浏览次数最多酒店历史cr -0,中位数填充 29397 -为空 1.用户当天未登录APP 28633 2.刚上线的新酒店178 586 无uv,cr记录 编码添加 该APP刚上线的新酒店 764 29397

customereval_pre2 用0填充-24小时历史浏览酒店客户评分均值, landhalfhours -24小时内登陆时长 -用0填充28633 -为空:用户当天未登录APP 28633

hotelcr ,hoteluv -中位数填充 797


【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(下):https://developer.aliyun.com/article/1496761

相关文章
|
2天前
|
机器学习/深度学习 传感器 算法
基于Mediapipe深度学习算法的手势识别系统【含python源码+PyqtUI界面+原理详解】-python手势识别 深度学习实战项目
基于Mediapipe深度学习算法的手势识别系统【含python源码+PyqtUI界面+原理详解】-python手势识别 深度学习实战项目
|
2天前
|
机器学习/深度学习 传感器 人工智能
敢不敢和AI比猜拳?能赢算我输----基于手势识别的AI猜拳游戏【含python源码+PyqtUI界面+原理详解】-python手势识别 深度学习实战项目
敢不敢和AI比猜拳?能赢算我输----基于手势识别的AI猜拳游戏【含python源码+PyqtUI界面+原理详解】-python手势识别 深度学习实战项目
|
2天前
|
数据可视化 计算机视觉 Python
活体检测眨眼、张嘴、点头、摇头动作一网打尽:人脸面部活体检测系统【含Python源码+PyqtUI界面+原理详解】
活体检测眨眼、张嘴、点头、摇头动作一网打尽:人脸面部活体检测系统【含Python源码+PyqtUI界面+原理详解】
|
2天前
|
机器学习/深度学习 人机交互 Python
基于深度学习的人脸面部表情识别系统【含Python源码+PyqtUI界面+原理详解】
基于深度学习的人脸面部表情识别系统【含Python源码+PyqtUI界面+原理详解】
基于深度学习的人脸面部表情识别系统【含Python源码+PyqtUI界面+原理详解】
|
3天前
|
机器学习/深度学习 算法 计算机视觉
基于opencv的SVM算法的车牌识别系统设计与实现
基于opencv的SVM算法的车牌识别系统设计与实现
基于opencv的SVM算法的车牌识别系统设计与实现
|
4天前
|
机器学习/深度学习 存储 算法
使用支持向量机算法解决手写体识别问题
使用支持向量机算法解决手写体识别问题
12 2
|
4天前
|
机器学习/深度学习 存储 缓存
支持向量机算法
支持向量机算法
11 2
|
6天前
|
存储 算法 数据挖掘
【贪心算法经典应用】哈夫曼编码原理与算法详解 python
【贪心算法经典应用】哈夫曼编码原理与算法详解 python