准实时异常检测系统

简介: 本文为您介绍利用实时计算设计准实时(延迟在100ms以内)异常检测系统。 背景介绍 比如一家银行要做一个实时的交易检测,判断每笔交易是否是正常交易:如果用户的用户名和密码被盗取,系统能够在盗取者发起交易的瞬间检测到风险来决定是否冻结这笔交易。

案例与解决方案汇总页:
阿里云实时计算产品案例&解决方案汇总

本文为您介绍利用实时计算设计准实时(延迟在100ms以内)异常检测系统。

背景介绍

比如一家银行要做一个实时的交易检测,判断每笔交易是否是正常交易:如果用户的用户名和密码被盗取,系统能够在盗取者发起交易的瞬间检测到风险来决定是否冻结这笔交易。这种场景对实时性的要求非常高,否则会阻碍用户正常交易,所以叫做准实时系统。

由于行动者可能会根据系统的结果进行调整,所以规则也会更新,实时计算和离线的处理用来研究规则是否需要更新以及规则如何更新。

准实时异常检测系统架构与模块综述

准实时异常检测系统架构: 
系统架构
  • 在线系统:完成在线检测功能,可以是Web服务的形式:
    • 针对单条事件进行检测。
    • 根据全局上下文进行检测,比如全局黑名单。
    • 根据用户画像或近期一段时间的信息进行检测,比如最近20次交易时间与地点。
  • Kafka:把事件与检测的结果及其原因发送到下游。
  • 实时计算近实时处理
    • 汇总统计全局的检测状态,并做同期对比,比如某条规则的拦截率突然发生较大变化、全局通过率突然增高或降低等等。
    • 近实时的更新用户的属性,比如最近的交易时间和地点。
  • Maxcompute/Hadoop存储与离线分析:用于保留历史记录,并由业务&开发人员探索性的研究有没有新的模式。
  • HBase:保存用户画像。

关键模板

  • 在线检测系统

    以Web服务器为例,它的主要任务就是检阅到来的事件并反馈同意或拒绝。

    针对每一个进入的事件,可以进行三个层次的检测:

    • 事件级检测

      只用该事件本身就能完成检测,比如格式判断或基本规则验证(a属性必须大于10小于30,b属性不能为空等等)。

    • 全局上下文检测

      在全局信息中的上下文中,比如存在一个全局的黑名单,判断该用户是否在黑名单中。或者某属性大于或小雨全局的平均值等。

    • 画像内容检测

      针对该行动者本身的跨多条记录分析,比如该用户前100次交易都发生在杭州,而本次交易发生在北京且距上次交易只有10分钟,那就有理由发出异常信号。

    所以这个系统至少要保存三方面的信息,

    • 整个检测的过程
    • 进行判断的规则
    • 所需的全局数据

    除此之外,根据需要决定是否把用户画像在本地做缓存。

  • Kafka

    Kafka主要用来把检测的事件、检测的结果、拒绝或通过的原因等数据发送到下游,供实时计算和离线计算进行处理。

  • 实时计算近实时处理

    使用Kafka处理后的数据针对当前的策略进行新一轮的防御性检测。

    系统应该关注一些宏观指标,比如总量,平均值,某个群体的行为等等。这些指标发生了变化往往表示某些规则已经失效。

    举例如下:

    • 某条规则之前的拦截率是20%,突然降低到了5%;
    • 某天规则上线后,大量的正常用户均被拦截掉了;
    • 某个人在电子产品上的花费突然增长了100倍,但同时其他人也有很多类似的行为,这可能具有某种说得通的解释(比如iphone上市);
    • 某人连续几次行为,单次都正常,但不应该有这么多次,比如一天内连续买了100次同一产品;
    • 识别某种组合多条正常行为的组合,这种组合是异常的,比如用户买菜刀是正常的,买车票是正常的,买绳子也是正常的,去加油站加油也是正常的,但短时间内同时做这些事情就不是正常的。通过全局分析能够发现这种行为的模式。

    业务人员根据实时计算产生的近实时结果能够及时发现规则有没有问题,进而对规则作出调整。

  • Maxcompute/Hadoop离线存储于探索性分析

    通过脚本、SQL或机器学习算法来进行探索性分析,发现新的模型,比如通过聚类算法把用户进行聚类、对行为打标后进行模型的训练等等。

  • HBase用户画像

    HBase保存着实时计算&离线计算产生的用户画像,供检测系统使用。之所以选择HBase主要是为了满足实时查询的需求。

总结

上面给出了一个准实时异常检测系统的概念性设计,业务逻辑虽然简单,但整个系统本身是非常完整且具有良好扩展性的,您可以在这个基础上进一步去完善。

目录
相关文章
|
SQL 机器学习/深度学习 存储
七大经典技术场景!Apache Flink 在多维领域应用的 40+ 实践案例
随着 Apache Flink 自身的发展,越来越多的企业选择 Apache Flink 应用于自身的业务场景,如底层平台建设、实时数仓、实时推荐、实时分析、实时大屏、风控、数据湖等场景中,解决实时计算的需求。
七大经典技术场景!Apache Flink 在多维领域应用的 40+ 实践案例
|
5月前
|
存储 数据采集 数据挖掘
终于有人把数据中台讲明白了
企业数据日益庞大,报表堆积、系统分散,决策时却常面临数据难找、难懂的问题。为此,“数据中台”应运而生。它如同数据服务工厂,将原始数据转化为可复用的智能服务,打通数据孤岛,提升业务响应速度,助力企业实现数据驱动。本文详解数据中台的本质、架构与核心价值,揭示其如何真正赋能企业未来。
终于有人把数据中台讲明白了
|
6月前
|
SQL 运维 监控
抖音基于Flink的DataOps能力实践
本文整理自抖音集团数据工程师黄鑫在Flink Forward Asia 2024的分享,围绕抖音实时数据研发的现状与挑战、DataOps能力建设及未来规划展开,涵盖需求管理、开发测试、发布运维等全流程实践,旨在提升数据质量与开发效率,实现高效稳定的数据交付。
447 18
抖音基于Flink的DataOps能力实践
|
5月前
|
存储 人工智能 监控
淘宝闪购基于Flink&Paimon的Lakehouse生产实践:从实时数仓到湖仓一体化的演进之路
本文整理自淘宝闪购(饿了么)大数据架构师王沛斌在 Flink Forward Asia 2025 上海站的分享,深度解析其基于 Apache Flink 与 Paimon 的 Lakehouse 架构演进与落地实践,涵盖实时数仓发展、技术选型、平台建设及未来展望。
1146 0
淘宝闪购基于Flink&Paimon的Lakehouse生产实践:从实时数仓到湖仓一体化的演进之路
|
消息中间件 存储 供应链
数据仓库介绍与实时数仓案例
1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
44965 237
|
数据处理 Apache 流计算
实时计算引擎 Flink:从入门到深入理解
本篇详细介绍了Apache Flink实时计算引擎的基本概念和核心功能。从入门到深入,逐步介绍了Flink的数据源与接收、数据转换与计算、窗口操作以及状态管理等方面的内容,并附带代码示例进行实际操作演示。通过阅读本文,读者可以建立起对Flink实时计算引擎的全面理解,为实际项目中的实时数据处理提供了有力的指导和实践基础。
5518 2
|
数据采集 机器学习/深度学习 人工智能
云栖实录 | GenAI 时代 AI Infra 工程技术趋势与平台演进
本文根据2024云栖大会实录整理而成,演讲信息如下: 演讲人:林伟 | 阿里云智能集团研究员、阿里云人工智能平台 PAI 负责人;黄博远|阿里云智能集团资深产品专家、阿里云人工智能平台 PAI 产品负责人 活动:2024 云栖大会 - AI Infra 核心技术专场、人工智能平台 PAI 年度发布专场
|
运维 算法 大数据
基于实时计算(Flink)与高斯模型构建实时异常检测系统
案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 1. 概述 异常检测(anomaly detection)指的是对不符合预期模式或数据集(英语:dataset)中其他项目的项目、事件或观测值的识别。
8624 0
|
流计算 NoSQL Redis
基于Flink和规则引擎的实时风控解决方案
对一个互联网产品来说,典型的风控场景包括:注册风控、登陆风控、交易风控、活动风控等,而风控的最佳效果是防患于未然,所以事前事中和事后三种实现方案中,又以事前预警和事中控制最好。 这要求风控系统一定要有实时性。
14405 155
软件项目常见风险及其预防措施
(1)合同风险 签订的合同不科学、不严谨,项目边界和各方面责任界定不清楚等是影响项目成败的重大因素之一。 预防这种风险的办法是项目建设之初项目经理就需要全面准确地了解合同各条款的内容、尽早和合同各方就模糊或不明确的条款签订补充协议。
7437 0