
暂无个人介绍
2021年11月
离散化处理的必要性如下:
节约计算资源,提高计算效率。
算法模型(尤其是分类模型)的计算需要。虽然很多模型,例如决策树可以支持输入连续型数据,但是决策树本身会先将连续型数据转化为离散型数据,因此离散化转换是一个必要步骤。
增强模型的稳定性和准确度。数据离散化之后,处于异常状态的数据不会明显地突出异常特征,而是会被划分为一个子集中的一部分,因此异常数据对模型的影响会大大降低,尤其是基于距离计算的模型(例如K均值、协同过滤等)效果明显。
特定数据处理和分析的必要步骤,尤其在图像处理方面应用广泛。大多数图像做特征检测(以及其他基于特征的分析)时,都需要先将图像做二值化处理,二值化也是离散化的一种。
模型结果应用和部署的需要。如果原始数据的值域分布过多,或值域划分不符合业务逻辑,那么模型结果将很难被业务理解并应用。
资料来源:《Python数据分析与数据化运营(第2版)》,文章链接:https://developer.aliyun.com/article/726313
整群抽样是先将所有样本分为几个小群体集,然后随机抽样几个小群体集来代表总体。这种操作方法与之前的3种方法的差异点在于该方法抽取的是小群体集,而不是每个数据个体本身。该方法虽然简单易行,但是样本的分布受限于小群体集的划分,抽样误差较大。这种方法适用于小群体集的特征差异比较小的数据,并且对划分小群体集有更高要求。
资料来源:《Python数据分析与数据化运营(第2版)》,文章链接:https://developer.aliyun.com/article/726313
分层抽样是先将所有个体样本按照某种特征划分为几个类别,然后从每个类别中使用随机抽样或等距抽样的方法选择个体组成样本。这种操作方法能明显降低抽样误差,并且便于针对不同类别的数据样本进行单独研究,因此是一种较好的实现方法。该方法适用于带有分类逻辑的属性、标签等特征的数据。
资料来源:《Python数据分析与数据化运营(第2版)》,文章链接:https://developer.aliyun.com/article/726313
等距抽样是先将总体中的每个个体按顺序编号,然后计算出抽样间隔,再按照固定抽样间隔抽取个体。这种操作方法易于理解、简便易行,但当总体样本的分布呈现明显的分布规律时容易产生偏差,例如增减趋势、周期性规律等。该方法适用于个体分布均匀或呈现明显的均匀分布规律,无明显趋势或周期性规律的数据。
资料来源:《Python数据分析与数据化运营(第2版)》,文章链接:https://developer.aliyun.com/article/726313
该抽样方法是按等概率原则直接从总样本中抽取n个样本,这种随机抽样方法简单、易于操作,但是它并不能保证样本能完美代表总体。这种抽样的基本前提是所有样本个体都是等概率分布的,但真实情况却是多数样本都不是或无法判断是否是等概率分布的。在简单随机抽样中,得到的结果是不重复的样本集,还可以使用有放回的简单随机抽样,这样得到的样本集中会存在重复数据。该方法适用于个体分布均匀的场景。
资料来源:《Python数据分析与数据化运营(第2版)》,文章链接:https://developer.aliyun.com/article/726313
异常检测场景。大多数企业中的异常个案都是少量的,比如恶意刷单、黄牛订单、信用卡欺诈、电力窃电、设备故障等。这些数据样本所占的比例通常是整体样本中很少的一部分。以信用卡欺诈为例,刷实体信用卡欺诈的比例一般在0.1%以内。
客户流失场景。大型企业的流失客户相对于整体客户通常是少量的,尤其对于具有垄断地位的行业巨擘,例如电信、石油、网络运营商等更是如此。
罕见事件的分析。罕见事件与异常检测类似,都属于发生个案较少的情况;但不同点在于异常检测通常都有是预先定义好的规则和逻辑,并且大多数异常事件都对会企业运营造成负面影响,因此针对异常事件的检测和预防非常重要;但罕见事件则无法预判,并且也没有明显的积极和消极影响倾向。例如,由于某网络大V无意中转发了企业的一条趣味广告,导致用户流量明显提升便属于此类。
发生低频率的事件。这种事件是预期或计划性事件,但是发生频率非常低。例如,每年一次的“双11”购物节一般都会产生较高的销售额,但放到全年来看,这一天的销售额占比很可能只有不到1%,尤其对于很少参与活动的公司而言,这种情况更加明显。这种就属于典型的低频率事件。
资料来源:《Python数据分析与数据化运营(第2版)》,文章链接:https://developer.aliyun.com/article/726313