拥有几百个模型的机构和企业,怎么进行模型管理

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 数百个模型放在面前,金融机构要如何高效管理

拥有几百个模型的机构和企业,怎么进行模型管理
数百个模型放在面前,金融机构要如何高效管理

疫情推动金融机构加速数字化转型。依托人工智能、大数据等技术,金融机构建立各类模型,特别是以机器学习为代表的数据模型,被广泛运用在风险计量、客户准入、资本计量、拨备计提、客户管理、反洗钱、反欺诈、精准营销等领域。在用户行为模式改变,监管趋严下,模型应用于辅助银行业务决策,满足业务发展需要,有效提升风险管理能力。

模型在推进普惠金融产品标准化、画像精准化、获客批量化、服务便捷化等方面都具有极强的支撑作用,在丰富普惠金融产品,拓宽普惠金融服务渠道,更好为小微企业、农民、老年人等特殊群体做好金融服务具有重大意义。金融机构一方面是利用大数据技术,降低信息不对称程度,实现客户画像的精准化,提升服务能力;另一方面就是依托大数据模型、实现信贷产品全流程线上化操作,大幅提升普惠金融的办理效率,提升批量化获客的能力。

模型统一管理的需求

基于业务发展,金融机构各业务部门基于其自身的营销或风险管理需求独立开展了数据挖掘和模型开发等工作,由此已经制作上线了成百上千甚至更多的模型。从模型开发到管理监控,都需要耗费大量人力与时间,并且存在各种合规和安全风险。如何高效地对模型体系进行统筹管理和整体监控?成为摆在金融机构面前的挑战。

2020年7月,银保监会发布的《商业银行互联网贷款管理暂行办法》,其中特别提到对线上信贷业务全流程的各类风险模型的监管要求,包括身份认证模型、反欺诈模型、反洗钱模型、合规模型、风险评价模型、风险定价模型、授信审批模型、风险预警模型、贷款清收模型等。

模型的最终目的是辅助决策,因此金融机构在工作实践中模型管理是非常必要的,需要结合业务变化和需求对模型进行全流程的管理,制定模型风险管理制度,对模型进行分级分类,新模型的设计开发、定期对模型进行升级更迭等。因此需要通过统一的模型管理平台来实现集中管理、自动化监测,以实现对潜在模型风险的控制和缓释。

Xintell如何进行模型的管理

为了助金融机构建模难、升级更新慢、模型管理复杂的问题,顶象2018年推出了专业模型解决方案——Xintell智能模型平台。

基于关联网络和深度学习技术的Xintell智能模型平台,结合Hadoop生态和自研组件,将复杂的数据处理、挖掘、机器学习过程标准化,提供从数据处理、特征衍生、模型构建到最终模型上线的一站式建模服务,结合拖拉拽式操作大幅降低建模门槛,提升建模工程师、数据科学家的工作效率,让运营人员和业务人员也能直接上手操作实践,帮助企业通过对大数据的模型训练在反欺诈、风控、营销、客户分群等场景提供模型支持,并能够根据时间变化进行动态升级与优化,极大降低建模和模型管理门槛。

全生命周期管理。顶象Xintell覆盖从模型开发到投产再到变更、迭代、退出的完整生命周期,形成统一的模型目录、多维度视角大盘,从全局到个体,通盘掌握模型资产信息,辅助管理决策。通过在线模型服务的仪表盘,可以便捷地查看历史上模型的调用量和平均耗时,及时发现模型的异常。通过将模型输出的结果和真实的标签按一定规范写入指定的表中,还可以监控模型的KS、PSI等指标,用于评估模型性能是否发生衰退。

全流程协同管理。模型建设是一个系统工程,需要数据、算法、开发、业务等不同人员协作完成等,顶象Xintell实现同一个项目空间下,配置不同角色的操作权限。团队成员之间可以互相查看代码,进行code review或相互学习。通过加锁的功能,可以防止自己的代码或已发布的调度任务被他人误修改。此外,不同项目空间的代码相互隔离,从而可以支持多个项目同时开发,支持将HiveSQL脚本和Python脚本发布版本,支持版本回溯,从而实现代码的版本管理。在调度任务中可以调度指定版本的脚本文件。

融合多类数据库与文件。顶象Xintell采用Hive表管理所有的数据,支持与常见的数据库进行对接,包括但不限于Hive、Oracle、MySQL、ES、MongoDB、Kafka、Cassandra等。可发布成数据同步任务,集成到调度任务中实现定时自动运行。Xintell也支持往Hive表中直接导入csv、txt、log等常见类型的数据文件。各个表从不同的数据源汇总到Hive表中后,或进一步经过关联、清洗、加工,形成数据集市,供后续的建模等任务使用。

实现数据与特征的标准化。顶象Xintell沉淀高频常用特征,统一数据源、统一计算、存储和管理,让不同的建模场景可能用到相同的业务数据,辅以相关的特征说明,并提供通用的特征管理功能。目前已有二代征信特征库,未来计划开发更多场景的特征库。

快速调试部署与迭代。顶象Xintell支持一键将模型部署为在线模型,以API的形式对外提供模型调用服务。自带对在线模型服务的监控功能,可将整套操作流程配置为定期自动运行的调度任务。衔接模型研发、测试和生产环境,提供快捷、统一管控的模型测试、上线部署流程和通道。快速对模型进行集成测试、部署运行和迭代更新,缩短建设周期。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
19天前
|
人工智能 JSON PyTorch
TPO:告别微调!这个AI框架让大模型实时进化:无需训练直接优化,输入问题越用越聪明,输出质量暴涨50%
TPO(Test-Time Prompt Optimization)框架,通过奖励模型和迭代反馈优化大语言模型输出,无需训练即可显著提升性能,支持动态对齐人类偏好,降低优化成本。
176 8
TPO:告别微调!这个AI框架让大模型实时进化:无需训练直接优化,输入问题越用越聪明,输出质量暴涨50%
|
2月前
|
人工智能 算法 数据处理
InternLM3开源发布!4T数据达到18T效果,成本省75%,首度融合深度思考与对话能力!
1月15日,上海人工智能实验室对书生大模型进行重要版本升级,书生·浦语3.0(InternLM3)通过精炼数据框架,大幅提升了数据效率,并实现思维密度的跃升。仅使用4T训练数据的InternLM3-8B-Instruct,其综合性能超过了同量级开源模型,节约训练成本75%以上;同时,InternLM3首次在通用模型中实现了常规对话与深度思考能力融合,可应对更多真实使用场景。
127 1
|
6月前
|
存储 人工智能 数据格式
总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集
【9月更文挑战第18天】鹏城实验室提出的ARIO(All Robots In One)标准,为具身智能领域带来了统一的数据格式、丰富的感知模态及多样化的真实与模拟数据,显著提升了数据集的质量与规模,助力智能系统更好地与物理世界互动。基于此标准构建的大规模数据集包含约300万个片段,覆盖258个系列和321,064个任务,极大地推动了具身智能的研究与发展。然而,该数据集也面临着存储需求高、系统互操作性及应用场景适应性等挑战。论文详情见:http://arxiv.org/abs/2408.10899。
157 11
|
7月前
|
算法 语音技术
支付宝商业化广告算法问题之在ODL模型优化过程中,采取什么策略来提高模型的泛化能力呢
支付宝商业化广告算法问题之在ODL模型优化过程中,采取什么策略来提高模型的泛化能力呢
|
10月前
|
机器学习/深度学习 编解码 人工智能
什么样才算好图——从生图模型质量度量方法看模型能力的发展(下)
什么样才算好图——从生图模型质量度量方法看模型能力的发展(下)
467 1
|
10月前
|
机器学习/深度学习 数据采集 计算机视觉
什么样才算好图——从生图模型质量度量方法看模型能力的发展(上)
什么样才算好图——从生图模型质量度量方法看模型能力的发展
257 1
|
10月前
|
存储 搜索推荐 算法
大模型开发:在构建推荐系统时,你会考虑哪些因素?
构建推荐系统涉及关键因素:用户行为数据(理解兴趣)、物品属性(相似性分析)、上下文信息(时间、地点)、冷启动问题(新用户/物品推荐)、可扩展性与性能(高效算法)、多样性(避免单一推荐)、可解释性(增强信任)和评估优化(准确性和用户满意度)。通过综合运用这些因素,打造精准且有效的推荐服务。
190 1
|
10月前
|
人工智能
全方位解析PAI:数据准备、模型开发、模型训练一网打尽
全方位解析PAI:数据准备、模型开发、模型训练一网打尽 随着人工智能技术的飞速发展,越来越多的企业开始关注并投入到AI的研发中。然而,AI的研发并非易事,从数据准备、模型开发、模型训练到模型服务,每一个环节都需要专业的工具和平台来支持。阿里云的PAI(Powered by AI)正是一个涵盖了数据准备、模型开发、模型训练、模型服务全流程的AI工作平台。本文将为您详细介绍PAI的各个子产品的产品线上规格及使用指引。
254 2
|
机器学习/深度学习 人工智能 算法
无需人工标注,自生成指令框架打破ChatGPT等LLM的成本瓶颈
无需人工标注,自生成指令框架打破ChatGPT等LLM的成本瓶颈
183 0
无需人工标注,自生成指令框架打破ChatGPT等LLM的成本瓶颈
|
机器学习/深度学习 分布式计算 大数据
客户流失?来看看大厂如何基于spark+机器学习构建千万数据规模上的用户留存模型 ⛵
如何在海量用户中精准预测哪些客户即将流失?本文结合音乐流媒体平台 Sparkify 数据,详细讲解一个客户流失建模预测案例的全流程:探索性数据分析 EDA、数据处理、进一步数据探索、建模优化、结果评估。【代码与数据集亲测可运行】
5133 3
客户流失?来看看大厂如何基于spark+机器学习构建千万数据规模上的用户留存模型 ⛵