暂无个人介绍
2022年04月
有些特征不符合高斯分布,那么可以通过一些函数变换使其符合高斯分布,以便于使用上述统计方法。常用的变换函数:,其中c为非负常数;,c为0-1之间的一个分数。
a.无监督方法:使用分位点定阈值、找历史数据的分布曲线的拐点; b.有监督模型:看验证集的准召曲线
箱线图算法不需要数据服从特定分布,比如数据分布不符合高斯分布时可以使用该方法。
(1)先将指标做STL时序分解,得到seasonal,trend,residual成分,如图3所示; (2)用GESD (generalized extreme studentized deviate)算法对trend+residual成分进行异常检测; (3)为增强对异常点的鲁棒性,将GESD算法中的mean,std等统计量用median, MAD(median absolute deviation)替换; (4)异常分输出:abnorm_score = (value - median)/MAD, value为当前值,median为序列的中位数。负分表示异常下跌,正分表示异常上升。
STL是一种单维度时间指标异常检测算法
适合数据呈周期性规律的场景中。如:1.监控APP的DAU的环比和同比,以及时发现DAU上涨或者下跌;2.监控实时广告点击、消耗的环比和同比,以及时发现变化。当上述比值超过一定阈值(阈值参考第10部分)则判定出现异常。
指数移动平均(Exponential Moving Average, EMA)和加权移动平均类似,但不同之处是各数值的加权按指数递减,而非线性递减。此外,在指数衰减中,无论往前看多远的数据,该期数据的系数都不会衰减到 0,而仅仅是向 0 逼近。因此,指数移动平均实际上是一个无穷级数,即无论多久远的数据都会在计算当期的指数移动平均数值时,起到一定的作用,只不过离当前太远的数据的权重非常低。
加权移动平均比简单移动平均对近期的变化更加敏感,加权移动平均的滞后性小于简单移动平均。但由于仅采用线性权重衰减,加权移动平均仍然存在一定的滞后性。
a.对噪声数据进行平滑处理,即用移动均值替代当前时刻取值以过滤噪声; b.预测未来的取值。
简单移动平均、加权移动平均、指数移动平均
移动平均是一种分析时间序列的常用工具,它可过滤高频噪声和检测异常点
先用无监督方法挖掘异常样本,再用有监督模型融合多个特征挖掘更多作弊。
缺少ground truth。
又称为离群点检测,是找出与预期对象的行为差异较大的对象的一个检测过程。这些被检测出的对象被称为异常点或者离群点。异常点检测在生产生活中有着广泛应用,比如信用卡反欺诈、工业损毁检测、广告点击反作弊等。
维护 Region,处理对这些 Region 对IO 请求,负责切分在运行过程中变过大的 Region。
主要为各个 RegionServer 分配 Region,负责 RegionServer 对负载均衡,管理用户对于 Table 对 CRUD 操作。
可以通过 HBase 提供的各式语言API 库访问集群。API 库也会维护一个本地缓存来加快对 HBase 对访问,比如缓存中记录着 Region 的位置信息。
一般由一个 Master 和多个 RegionServer 组成。
客户端库(API)、一台主服务器(Master)、多台Region服务器(RegionServer)