如何基于大数据及AI平台实现业务系统实时化?

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 后疫情时代的新社会模式及经济形态必将催生出新的商业模式,在线业务及相关应用场景的流量呈现井喷式发展,常规的离线系统及离线机器学习平台已无法满足业务发展要求。

作者:高旸(吾与),阿里巴巴高级技术专家

1. 前言

随着互联网“人口红利”的“消耗殆尽”,基于“T+1”或者离线计算的机器学习平台及推荐系统转化率与效果日趋“平淡”。后疫情时代的新社会模式及经济形态必将催生出新的商业模式,在线业务及相关应用场景的流量呈现井喷式发展,常规的离线系统及离线机器学习平台已无法满足业务发展要求。人口红利吃尽之后,基于大数据及AI平台的业务系统在时间维度上的思考将变得至关重要,通过业务系统实时化向时间要价值已经成为主流趋势。基于流式计算引擎的在线机器学习平台将越来越被重视, 通过增量模型的准实时或实时推荐系统更能“因时而异” 充分捕捉目标用户瞬息万变的需求,从而进行精准推荐和变现。实时推荐系统也从最早的电商场景, 扩展到社交场景, 在线教育场景, 游戏场景及更广阔的在线场景。

本文介绍重点介绍基于阿里云大数据及AI产品家族的实时计算Flink及PAI Alink机器学习算法平台,以及该产品组合在实时推荐场景(适用于电商、游戏及在线教育解决方案)、实时评分卡场景(适用于金融、安全及营销风控解决方案)以及异常检测场景(适用于工业领域及其他产业互联网领域)的场景应用。

2. 实时计算引擎及机器学习算法平台介绍

2.1 阿里云实时计算Flink

阿里云实时计算Flink作为Apache Flink创始团队的商业化产品,从极致(较传统微批模式)的实时数据处理维度,为企业大数据处理及业务实时化提供了可能。商业化的统一开发及管控平台,成熟、准标准化的SQL及元数据管理能力,让业务人员及数据分析师大幅度提升开发效率, SQL配合UDF基本可以解决80%+的业务场景。企业级的State Backend – Gemini大幅度提升IO效率,整体执行引擎较开源3倍以上的性能提升。

VVP.png

基于阿里云Kubernetes的全新Serverless全托管云上实时计算Flink服务,使用全新的硬多租技术方案,基于VPC提供网络层隔离,阿里云安全容器提供计算层隔离,基于弹性云盘提供存储级隔离,通过用户级Master及超级Master实现极致资源弹性下的多租户隔离。基于负载的细粒度弹性伸缩, 充分提高资源使用率, 降低整体TCO。新一代的Serverless实时计算Flink产品为在线机器学习算法平台提供了坚实(“时“)的基础。

2.png

2.2 阿里云PAI Alink机器学习算法平台

3.png

与SparkML算法相比,Alink算法更全面,性能更优异,场景更丰富(同时支持流批),本地化更出色(支持中文分词)是快速搭建在线机器学习系统的不二之选。

4.png

3. 基于实时计算Flink-机器学习场景介绍:

3.1实时推荐场景:

从根据用户点击和浏览的内容实时推送的电商场景,到社交媒体根据用户阅读的内容实时“喂送“的实时推荐系统,再到游戏推送平台根据用户行为实时推送的游戏系统,实时推荐系统俨然已经成为了在线业务系统的核心。

5.png

阿里云PAI Alink算法平台提供: 召回(例如:ALS、FM、Deep Walk等),特征编码(OneHot、MultiHot及GBDT等) ,排序(LR及FFM等)以及Online算法(OnlineFM及Ftrl)流式和批式的算法能力全流程构建能力。配合阿里云实时计算Flink海量样本实时拼接能力,能够快速端到端实现离在线一体化的推荐系统。

6.png

通过特征工程批式训练初始化模型,通过实时样本拼接配合流式算法(OnlineFM及Ftrl) 生成增量的模型,最终提供统一模型的整体结果预测,更实时更动态的提升推荐效果。

7.png

3.2 评分卡场景介绍:

阿里云实时计算Flink及PAI Alink产品组合可以帮助客户快速搭建实时金融风控解决方案。评分卡在金融场景有广泛的应用,能否构建准确的评分卡模型关系到能否安全的开展支付、贷款、保险、理财、信用等业务,评分卡常被用于信用评估领域,比如信用卡风险评估,贷款发放;评分卡也会用来作为分数评估,比如客户质量打分,信用分。涉及金融的场景都需要:可追溯、可审计及可解释,如下的评分卡模型就具备很好的可解释性。例如:用户年龄27岁,性别男,婚姻状况已婚,学历本科,月收入10000。根据如下评分卡,该用户的评分为:评分 = 223(基准分) + 8(年龄) + 4(性别评分)+ 8(婚姻状况)+ 8(学历评分)+ 13(月收入评分)= 264分。

8.png

阿里云实时计算Flink及PAI Alink产品组合提供最先进的评分卡解决方案, 分箱将每个特征按照需求进行分箱训练;评分卡训练生成评分模型;样本稳定性通过PSI等指标衡量样本稳定性;模型评估,评估二分类模型效果。该解决方案支持多特征维度模型训练,支持大规模样本建模。

9.png

3.3 异常检测场景

异常检测及时序分析是一个较为常见并且应用广泛的场景,在工业界的应用尤甚。利用阿里云实时计算Flink及PAI Alink产品组合可以帮助客户快速搭建异常检测解决方案。实时计算Flink强大的性能与Alink丰富的算法库机相结合,可以帮助数据分析和应用开发人员实现数据处理、特征工程、模型训练、预测等多个环节端到端的处理。在异常检测场景下,Alink支持时间序列异常检测、异常集检测两个核心场景。

在时间序列异常检测中,Alink具备种类齐全、批流一体、性能优异、并行计算、使用方便等优势。针对不同的使用场景,分为基于时序预测和时序分解两种类型:

  • 时序预测算法适合流式数据,即时响应
  • 时序分解算法适合全量数据,能够从全量数据中挖掘有效信息。

Alink也提供了时序预测和时序分解算法,用户可以单独使用。

10.png

异常集检测是风控场景的核心诉求之一。Alink 异常集检测中具备如下优势:

  • 巨型图支持 - 支持上亿边的图数据
  • 在线更新 - 随时加上异常种子均可局部异常检测
  • 快速运算 - 只对局部图进行运算,节约计算资源

在盗用、欺诈、作弊、商户、借贷套现等各风险域都有异常集检测的需求存在。基于GraphRAD,Alink实现了半监督的异常集检测,RiskCommunityDetector。算法输入连接关系以及已知的黑点,即可对全图进行分析,捕获其它黑用户,降低业务运行过程中的风险,为业务安全保驾护航,避免可能发生的重大损失。

11.png

4. 后记

通过上文的介绍,想必大家已经对阿里云实时计算Flink及PAI产品组合跃跃欲试了,可以快速开通全托管实时计算Flink 体验最新的Serverless产品服务。实时计算Flink触达直通车:https://www.aliyun.com/product/bigdata/sc

12.png

通过开通阿里云E-MapReduce Dataflow集群,快速搭建基于阿里云实时计算Flink的PAI Alink算法平台。PAI Alink触达直通车:https://www.aliyun.com/product/emapreduce

13.png

实时计算 Flink 版产品交流群

实时计算交流群.jpg

阿里云实时计算Flink - 解决方案:
https://developer.aliyun.com/article/765097
阿里云实时计算Flink - 场景案例:
https://ververica.cn/corporate-practice
阿里云实时计算Flink - 产品详情页:
https://www.aliyun.com/product/bigdata/product/sc

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
25天前
|
存储 大数据 数据处理
PHP 与大数据:构建高效数据处理系统
传统的数据处理系统往往难以应对大规模数据的处理需求,而PHP作为一种常用的服务器端脚本语言,在数据处理方面也有其独特的优势。本文将探讨如何利用PHP构建高效的大数据处理系统,结合实际案例分析其应用场景及优势所在。
15 2
|
1月前
|
机器学习/深度学习 人工智能 监控
AI算法分析,智慧城管AI智能识别系统源码
AI视频分析技术应用于智慧城管系统,通过监控摄像头实时识别违法行为,如违规摆摊、垃圾、违章停车等,实现非现场执法和预警。算法平台检测街面秩序(出店、游商、机动车、占道)和市容环境(垃圾、晾晒、垃圾桶、路面不洁、漂浮物、乱堆物料),助力及时处理问题,提升城市管理效率。
AI算法分析,智慧城管AI智能识别系统源码
|
1月前
|
人工智能 搜索推荐 机器人
Rasa: 帮助企业更快搭建“AI对话助手”的低代码平台
【2月更文挑战第24天】Rasa: 帮助企业更快搭建“AI对话助手”的低代码平台
33 2
Rasa: 帮助企业更快搭建“AI对话助手”的低代码平台
|
3天前
|
人工智能 决策智能
【AI Agent系列】【MetaGPT多智能体学习】3. 开发一个简单的多智能体系统,兼看MetaGPT多智能体运行机制
【AI Agent系列】【MetaGPT多智能体学习】3. 开发一个简单的多智能体系统,兼看MetaGPT多智能体运行机制
29 0
|
3天前
|
人工智能 监控 数据处理
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
18 0
|
3天前
|
人工智能 监控 数据可视化
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】0. 一文全览Tracing功能,让你的程序运行过程一目了然
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】0. 一文全览Tracing功能,让你的程序运行过程一目了然
8 0
|
3天前
|
人工智能 安全 机器人
AI电销机器人系统源码部署:freeswitch安装Windows
在Windows上安装FreeSWITCH:访问官网下载安装程序,运行并按提示安装;选择安装路径和组件;等待安装完成;配置FreeSWITCH,修改设置;启动服务;测试其功能;如遇问题,参考官方文档或进行调试故障排除。记得定期更新维护以保证稳定安全。
|
8天前
|
人工智能 前端开发 Java
Java语言开发的AI智慧导诊系统源码springboot+redis 3D互联网智导诊系统源码
智慧导诊解决盲目就诊问题,减轻分诊工作压力。降低挂错号比例,优化就诊流程,有效提高线上线下医疗机构接诊效率。可通过人体画像选择症状部位,了解对应病症信息和推荐就医科室。
147 10
|
15天前
|
机器学习/深度学习 人工智能 安全
Azure Databricks实战:在云上轻松进行大数据分析与AI开发
【4月更文挑战第8天】Databricks在大数据分析和AI开发中表现出色,简化流程并提高效率。文中列举了三个应用场景:数据湖分析、实时流处理和AI机器学习,并阐述了Databricks的一体化平台、云原生弹性及企业级安全优势。博主认为,Databricks提升了研发效能,无缝集成Azure生态,并具有持续创新潜力,是应对大数据挑战和加速AI创新的理想工具。
40 0
|
19天前
|
机器学习/深度学习 人工智能 运维
构建未来:AI驱动的自适应网络安全防御系统
【4月更文挑战第7天】 在数字时代的浪潮中,网络安全已成为维系信息完整性、保障用户隐私和确保商业连续性的关键。传统的安全防御策略,受限于其静态性质和对新型威胁的响应迟缓,已难以满足日益增长的安全需求。本文将探讨如何利用人工智能(AI)技术打造一个自适应的网络安全防御系统,该系统能够实时分析网络流量,自动识别并响应未知威胁,从而提供更为强大和灵活的保护机制。通过深入剖析AI算法的核心原理及其在网络安全中的应用,我们将展望一个由AI赋能的、更加智能和安全的网络环境。
28 0