网游玩家流失特征提取办法(基于C5.0算法和SPSS Modeler)

简介: 引言网游行业的数据挖掘技术一直来说都比较神秘,除了很多业内熟知的数据指标,更多的更深层次的数据解析和挖掘一直都是一个神秘的领域,作用和指导虚拟经济的运作,挖掘玩家行为,指定运营活动方案等等,无时无刻都得利用数据作为驱动,然而过分的利用数据驱动业务则会陷入一些误区,进而会导致一些重大决策失误出现,数据终归是数据,有时候数据也会撒谎。

引言
网游行业的数据挖掘技术一直来说都比较神秘,除了很多业内熟知的数据指标,更多的更深层次的数据解析和挖掘一直都是一个神秘的领域,作用和指导虚拟经济的运作,挖掘玩家行为,指定运营活动方案等等,无时无刻都得利用数据作为驱动,然而过分的利用数据驱动业务则会陷入一些误区,进而会导致一些重大决策失误出现,数据终归是数据,有时候数据也会撒谎。
在网游行业的数据挖掘方面,很多电信企业的数据挖掘方案是值得参考和利用的。比如电信客户流失的特征提取,客户细分,客户流失预警,消费分析,套餐或者礼包制定模型。
今天要说的是网游产品玩家流失特征提取与分析,对于一款网游产品而言,流失率的分析要从产品上线就一直伴随着,目的在于建立一套完整的针对产品的流失预警模型,然而在建立模型之前,我们还要提取流失特征,只有这样最终才能做到防止过高流失率冲击游戏整体人气和收益,而同时针对这些特征,我们有目的的开展一些活动套餐和服务,最终稳定我们会产生较大流失的群体,附加的经过流失预警模型,彻底防范收益和人气的下滑。
在开始研究网游流失特征提取之前,先介绍一个之前模仿做过的电信客户流失特征提取案例,如果这个案例能够理解,那么网游产品的流失特征案例也就可以顺理成章的推导出来。
一、电信案例:
利用特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果。
电信客户数据非常多,其中包含一些客户个人信息,例如年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别,还包含一些客户使用电信服务信息,例如使用电信服务时间,是否开通无线服务,是否开通语音信箱服务,是否开通亲情号服务,以及上月基本话费,上月长话费,上月上网费,累计基本话费,累计长话费,累计上网费等。
举一个例子,如下客户信息表:

该信息表是把一些不重要的属性值删除,将有大量不同取值且无概化操作符的属性或者可用其它属性来代替它的较高层概念的那些属性删除。比如客户信息表中的用户标识、身份证号码等,它们的取值太多且无法在该取值域内找到概化操作符,应将其删除。
再此之后要进行属性概化(属性概化阈值控制技术沿属性概念分层上卷或者下钻进行概化),之后要把连续型属性概化为区间,这就是将数据进行了数据预处理,上述的过程通过SPSS Modeler可以自动的完成。
数据的预处理完成后,下一步就是要结合算法来进行特征的提取,这里使用C5.0构建电信客户的流失决策树。有关C5.0的介绍已经在之前的文章写过了,这里不再累述。
最后使用Modeler创建模型如下:

下面我们分析一下这个模型
利用 C5.0 所具有的函数定义将属性进行排列,具有最高信息增益的属性选作给集合 S 的测试属性。创建一个根节点,并以该属性标记,对属性的每个值创建分支,然后递归建树,可构造一个树状结果图。其中每一个节点都是属性中具有最大增益的属性,生成的树状结果图如下可见:

从树状分析结论来对某电信公司主动流失客户的具体情况进行分析,可以看出在本地通话费小于等于 4.976 分钟 / 月的人群中客户最容易流失,这是因为这一部分人大多有相对稳定的工作、收入相对较高,基本上每人都有自己的移动通信工具,孩子较大且大多在外读书或者已经上班,家中很少有人在,因使用频率低而销户。为挽留这类客户,就应该针对他们工作相对稳定并已经定性、不需要为打拼天下花大量的时间和精力、需要决策而必须了解和掌握大量信息、休闲娱乐的时间相对较多而且固定等特点,采取“固话 + 宽带”绑定的方法一定会受到他们的欢迎。

年轻 e 族(年龄 , 小于等于 39)收入少、赶新潮、思维活跃、攀比心理较强,因而用以受到新的竞争因素影响而成为易流失的客户,针对这部分人的情况,可以采用各种优惠办法,或赠送时尚彩铃,或发展为各种等级的 VIP 会员等办法,来增加对年轻人的吸引力。
比如中国移动针对年轻人的动感地带品牌套餐:

年收入低于 38950 元的低收入群体也是易流失客户,电信公司可以针对这类低收入客户,采取零月租,接听免费,赠送话费等实用措施,留住低收入客户。

相对应的就有年收入高于 51669 元的客户,可能这类客户很多竞争公司会来拉拢,这类客户会因为需要联系业务或是别的要求,经常需要打电话,所以电信可以投其所好,对这类稍高收入群开办套餐,比如 200 元包月任意打、且免除漫游费、接听免费等优惠活动。(等等可根据其他细分情况提出有针对性的挽留优惠活动)
这方面比如中国移动的全球通套餐系列服务:

另外,对易流失客户群 , 采取提高服务质量(如进行客户满意度调查、客户投诉分析、客户咨询和查询焦点分析等)、适当的优惠赠送活动等办法来提高竞争力,加强企业与客户之前的感情沟通,从而留住客户。

当我们提取了用户的特征后,我们可以根据这些特征来为用户指定详细的套餐计划,最大限度的满足用户的需求。比如中国移动的推荐套餐服务。其实这也是一种数据收集的手段,首先根据用户的消费习惯提取用户的一些特征和需求,之后制定一些套餐为用户服务,然后再根据这些特征建立BI系统分析用户的需求并推出一些个性化的定制服务。
http://www.ln.10086.cn/myfeePackage/recomm.html

二、网游产品流失用户分析
其实采取的方法和电信客户流失分析比较相近,最终根据提取的特征,进行流失预警和个性化服务的推广,玩家需要什么是通过玩家的最早需求产生的,进而玩家的整体特征就被描述出来了。
什么是玩家最早的需求?
最早的需求就是用户认知度非常高的需求,这种认知一方面要遵循行业规律,一方面要在游戏设计阶段就已经覆盖了,比如当现在置身在赌场时,你的第一想法是要去赌两把,这时的特征提取很大程度上是依据行业的标配和设计人员的设计,因为此时没有数据进行参考,只能通过一些调研工作进行大概的分析和把握,当游戏上线运营时,在初期的六个月是最佳的调整时期,因为此时用户规模比较大,结合推广和游戏本身人气的增长,快速抓取时间进行流失和用户行为特征的分析,矫正初始设计阶段的玩家特征判定,最后我们会形成类似移动个性套餐的推荐服务。

这样的推荐系统实际上也是一个BI系统,当我们在网游中进行礼包推广,VIP方案制定,搜索功能实现都可以借鉴这样的方案。
下面就简单说一下玩家流失特征提取与应用
1. 属性过滤
网游中玩家身上有很多属性,但是不是所有属性都是我们需要和使用的,我们需要的只是一部分,因此在众多的属性中我们要进行过滤,流出一部分属性进行分析。要分析网游玩家的流失特征,关于玩家的个人信息是不能利用的(比如身份证,居住地,性别等等),因此要分析玩家的流失特征要大量提取游戏中的数据点,简单列了一下大概有以下的几个:

2. 基于Modeler平台的C5.0算法事实特征提取
(1)利用modeler的“特征选择”节点删除无用字段,比如单个类别过大,缺失值过多,变异系数低于阈值。
单个类别过大
单个类别中的记录最大百分比筛选相对于记录总数而言,同个类别中具有过多记录的字段。例如,如果数据库中 95% 的客户开同一类型的车,则此信息无助于区分客户。任何超过指定最大值的字段都将被筛选掉。
缺失值过多
具有过多缺失值的字段,几乎不提供任何预测信息。
变异系数低于阈值
此度量值是输入字段标准偏差与输入字段均值之间的比值。如果此值接近 0,则变量值的变异性就不高,则信息无助于区分客户。
(2)利用“特征选择”节点选择重要字段
将滤除非重要性的字段。重要性是在建模之前在“特征选择”节点中定义的。
(3)利用“过滤”节点处理含有大量缺失数据的字段
在最终建模预测客户流失之前,我们还需要对整个数据进行分析,识别所有含有大量缺失数据的字段。这里运用“数据审核节”节点。
通常我们对于这种有效值比较低的字段的做法是用它的均值代替它的空值与无效值,我们用“填充”节点来实现对空值与无效值的替换。
(4)利用 C5.0 创建并分析模型
此时可以使用Modeler进行模型创建和分析,并得出结论,之后还要进行数据的审核校验,当建模和评估模型得出来的结果几乎差不多时,且准确率达到 90% 以上。表明使用该算法进行玩家流失的分析和预测是可行的和有效的,它可以帮助运营者更好地了解玩家的流失受到哪些因素的影响,以便在今后的市场营销中有针对性的对那些玩家流失率高的玩家做好服务工作,防止玩家的流失引发的经营危机,这对于提高收益和人气有重要意义。
玩家资源是网游公司的生命,保留并巩固玩家资源对网游公司来说意义重大。C5.0 节点是数据挖掘中一个常用的节点,其算法理论清晰、方法简单、适用于处理大规模的数据问题,因此是一种知识获取的有用工具。将 C5.0 算法应用于玩家流失分析,能够帮助网游公司深入了解玩家流失的原因,改进玩家服务,对提高玩家的留存率,具有十分重要的应用价值。
参考
ID3 算法在电信客户流失中的应用
IBM DeveloperWorks http://www.ibm.com/developerworks/cn/data/library/techarticle/dm-1112wuly/

相关文章
|
算法 语音技术
基于MFCC特征提取和HMM模型的语音合成算法matlab仿真
基于MFCC特征提取和HMM模型的语音合成算法matlab仿真
|
1月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于MSER和HOG特征提取的SVM交通标志检测和识别算法matlab仿真
### 算法简介 1. **算法运行效果图预览**:展示算法效果,完整程序运行后无水印。 2. **算法运行软件版本**:Matlab 2017b。 3. **部分核心程序**:完整版代码包含中文注释及操作步骤视频。 4. **算法理论概述**: - **MSER**:用于检测显著区域,提取图像中稳定区域,适用于光照变化下的交通标志检测。 - **HOG特征提取**:通过计算图像小区域的梯度直方图捕捉局部纹理信息,用于物体检测。 - **SVM**:寻找最大化间隔的超平面以分类样本。 整个算法流程图见下图。
|
5月前
|
机器学习/深度学习 算法
基于BP神经网络和小波变换特征提取的烟草香型分类算法matlab仿真,分为浓香型,清香型和中间香型
```markdown 探索烟草香型分类:使用Matlab2022a中的BP神经网络结合小波变换。小波分析揭示香气成分的局部特征,降低维度,PCA等用于特征选择。BP网络随后处理这些特征,以区分浓香、清香和中间香型。 ```
|
5月前
|
机器学习/深度学习 算法 语音技术
基于语音信号MFCC特征提取和GRNN神经网络的人员身份检测算法matlab仿真
**语音识别算法概览** MATLAB2022a中实现,结合MFCC与GRNN技术进行说话人身份检测。MFCC利用人耳感知特性提取语音频谱特征,GRNN作为非线性映射工具,擅长序列学习,确保高效识别。预加重、分帧、加窗、FFT、滤波器组、IDCT构成MFCC步骤,GRNN以其快速学习与鲁棒性处理不稳定数据。适用于多种领域。
|
6月前
|
机器学习/深度学习 算法 数据挖掘
【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(下)
【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(下)
|
6月前
|
机器学习/深度学习 算法 搜索推荐
【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(上)
【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例
|
6月前
电信公司churn数据客户流失k近邻(knn)模型预测分析
电信公司churn数据客户流失k近邻(knn)模型预测分析
|
11月前
|
机器学习/深度学习 算法 数据库
基于HOG特征提取和GRNN神经网络的人脸表情识别算法matlab仿真,测试使用JAFFE表情数据库
基于HOG特征提取和GRNN神经网络的人脸表情识别算法matlab仿真,测试使用JAFFE表情数据库
|
11月前
|
算法 计算机视觉
图像特征提取--ORB算法
图像特征提取--ORB算法
111 0
|
机器学习/深度学习 算法 语音技术
基于MFCC特征提取和神经网络的语音信号识别算法matlab仿真
基于MFCC特征提取和神经网络的语音信号识别算法matlab仿真
268 3