拥有几百个模型的机构和企业,怎么进行模型管理

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 数百个模型放在面前,金融机构要如何高效管理

拥有几百个模型的机构和企业,怎么进行模型管理
数百个模型放在面前,金融机构要如何高效管理

疫情推动金融机构加速数字化转型。依托人工智能、大数据等技术,金融机构建立各类模型,特别是以机器学习为代表的数据模型,被广泛运用在风险计量、客户准入、资本计量、拨备计提、客户管理、反洗钱、反欺诈、精准营销等领域。在用户行为模式改变,监管趋严下,模型应用于辅助银行业务决策,满足业务发展需要,有效提升风险管理能力。

模型在推进普惠金融产品标准化、画像精准化、获客批量化、服务便捷化等方面都具有极强的支撑作用,在丰富普惠金融产品,拓宽普惠金融服务渠道,更好为小微企业、农民、老年人等特殊群体做好金融服务具有重大意义。金融机构一方面是利用大数据技术,降低信息不对称程度,实现客户画像的精准化,提升服务能力;另一方面就是依托大数据模型、实现信贷产品全流程线上化操作,大幅提升普惠金融的办理效率,提升批量化获客的能力。

模型统一管理的需求

基于业务发展,金融机构各业务部门基于其自身的营销或风险管理需求独立开展了数据挖掘和模型开发等工作,由此已经制作上线了成百上千甚至更多的模型。从模型开发到管理监控,都需要耗费大量人力与时间,并且存在各种合规和安全风险。如何高效地对模型体系进行统筹管理和整体监控?成为摆在金融机构面前的挑战。

2020年7月,银保监会发布的《商业银行互联网贷款管理暂行办法》,其中特别提到对线上信贷业务全流程的各类风险模型的监管要求,包括身份认证模型、反欺诈模型、反洗钱模型、合规模型、风险评价模型、风险定价模型、授信审批模型、风险预警模型、贷款清收模型等。

模型的最终目的是辅助决策,因此金融机构在工作实践中模型管理是非常必要的,需要结合业务变化和需求对模型进行全流程的管理,制定模型风险管理制度,对模型进行分级分类,新模型的设计开发、定期对模型进行升级更迭等。因此需要通过统一的模型管理平台来实现集中管理、自动化监测,以实现对潜在模型风险的控制和缓释。

Xintell如何进行模型的管理

为了助金融机构建模难、升级更新慢、模型管理复杂的问题,顶象2018年推出了专业模型解决方案——Xintell智能模型平台。

基于关联网络和深度学习技术的Xintell智能模型平台,结合Hadoop生态和自研组件,将复杂的数据处理、挖掘、机器学习过程标准化,提供从数据处理、特征衍生、模型构建到最终模型上线的一站式建模服务,结合拖拉拽式操作大幅降低建模门槛,提升建模工程师、数据科学家的工作效率,让运营人员和业务人员也能直接上手操作实践,帮助企业通过对大数据的模型训练在反欺诈、风控、营销、客户分群等场景提供模型支持,并能够根据时间变化进行动态升级与优化,极大降低建模和模型管理门槛。

全生命周期管理。顶象Xintell覆盖从模型开发到投产再到变更、迭代、退出的完整生命周期,形成统一的模型目录、多维度视角大盘,从全局到个体,通盘掌握模型资产信息,辅助管理决策。通过在线模型服务的仪表盘,可以便捷地查看历史上模型的调用量和平均耗时,及时发现模型的异常。通过将模型输出的结果和真实的标签按一定规范写入指定的表中,还可以监控模型的KS、PSI等指标,用于评估模型性能是否发生衰退。

全流程协同管理。模型建设是一个系统工程,需要数据、算法、开发、业务等不同人员协作完成等,顶象Xintell实现同一个项目空间下,配置不同角色的操作权限。团队成员之间可以互相查看代码,进行code review或相互学习。通过加锁的功能,可以防止自己的代码或已发布的调度任务被他人误修改。此外,不同项目空间的代码相互隔离,从而可以支持多个项目同时开发,支持将HiveSQL脚本和Python脚本发布版本,支持版本回溯,从而实现代码的版本管理。在调度任务中可以调度指定版本的脚本文件。

融合多类数据库与文件。顶象Xintell采用Hive表管理所有的数据,支持与常见的数据库进行对接,包括但不限于Hive、Oracle、MySQL、ES、MongoDB、Kafka、Cassandra等。可发布成数据同步任务,集成到调度任务中实现定时自动运行。Xintell也支持往Hive表中直接导入csv、txt、log等常见类型的数据文件。各个表从不同的数据源汇总到Hive表中后,或进一步经过关联、清洗、加工,形成数据集市,供后续的建模等任务使用。

实现数据与特征的标准化。顶象Xintell沉淀高频常用特征,统一数据源、统一计算、存储和管理,让不同的建模场景可能用到相同的业务数据,辅以相关的特征说明,并提供通用的特征管理功能。目前已有二代征信特征库,未来计划开发更多场景的特征库。

快速调试部署与迭代。顶象Xintell支持一键将模型部署为在线模型,以API的形式对外提供模型调用服务。自带对在线模型服务的监控功能,可将整套操作流程配置为定期自动运行的调度任务。衔接模型研发、测试和生产环境,提供快捷、统一管控的模型测试、上线部署流程和通道。快速对模型进行集成测试、部署运行和迭代更新,缩短建设周期。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
机器学习/深度学习 人工智能 算法
阿里公开自研AI集群细节:64个GPU,百万分类训练速度提升4倍
从节点架构到网络架构,再到通信算法,阿里巴巴把自研的高性能AI集群技术细节写成了论文,并对外公布。
阿里公开自研AI集群细节:64个GPU,百万分类训练速度提升4倍
|
1月前
|
存储 人工智能 图计算
MiniRAG:迷你 RAG 系统加成小型语言模型,爆发出与大型语言模型相当的性能
MiniRAG 是香港大学推出的新型 RAG 系统,专为资源受限场景设计,支持高效知识检索与推理,适用于多种应用场景。
184 12
MiniRAG:迷你 RAG 系统加成小型语言模型,爆发出与大型语言模型相当的性能
|
8天前
|
人工智能
RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你LLM+外部数据的正确使用姿势
在人工智能领域,大型语言模型(LLM)结合外部数据展现出强大能力,尤其检索增强生成(RAG)和微调技术备受关注。然而,不同专业领域的有效部署仍面临挑战,如准确检索数据、理解用户意图等。综述文章《Retrieval Augmented Generation (RAG) and Beyond》提出RAG任务分类方法,将用户查询分为四个级别,并探讨了外部数据集成的三种形式:上下文、小型模型和微调。文章提供了宝贵见解和实用指导,帮助更好地利用LLM潜力解决实际问题。论文链接:https://arxiv.org/abs/2409.14924
43 6
|
5月前
|
存储 人工智能 前端开发
搭建企业内部的大语言模型系统
该内容主要介绍了开源大语言模型及其管理方法。首先对比了商业大模型(如ChatGPT)与支持私有部署的开源大模型(如Mistral、Meta Llama),强调了开源模型在安全和隐私方面的优势。接着详细列出了多种大语言模型管理工具,如HuggingFace、Ollama等,并展示了Ollama的快速部署和使用方法。此外,还介绍了大语言模型的应用前端,包括开源平台Ollama-chatbot、PrivateGPT等,以及它们的具体部署步骤和配置示例。最后提供了非私有OpenAI-powered部署方案及其API调用示例。
|
30天前
|
人工智能 算法 数据处理
InternLM3开源发布!4T数据达到18T效果,成本省75%,首度融合深度思考与对话能力!
1月15日,上海人工智能实验室对书生大模型进行重要版本升级,书生·浦语3.0(InternLM3)通过精炼数据框架,大幅提升了数据效率,并实现思维密度的跃升。仅使用4T训练数据的InternLM3-8B-Instruct,其综合性能超过了同量级开源模型,节约训练成本75%以上;同时,InternLM3首次在通用模型中实现了常规对话与深度思考能力融合,可应对更多真实使用场景。
|
3月前
|
人工智能 自然语言处理 测试技术
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【10月更文挑战第29天】Playground v3(PGv3)是最新发布的文本到图像生成模型,其在多个测试基准上取得了最先进的性能。与传统模型不同,PGv3采用了一种全新的结构,将大型语言模型与图像生成模型深度融合,展现出卓越的文本提示遵循、复杂推理和准确的文本渲染能力。此外,PGv3还具备超越人类的图形设计能力,支持精确的RGB颜色控制和多语言理解,为设计师和创意工作者提供了强大的工具。尽管存在一些挑战,但PGv3的发布标志着文本到图像生成技术的重大突破。
74 6
|
5月前
|
存储 人工智能 数据格式
总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集
【9月更文挑战第18天】鹏城实验室提出的ARIO(All Robots In One)标准,为具身智能领域带来了统一的数据格式、丰富的感知模态及多样化的真实与模拟数据,显著提升了数据集的质量与规模,助力智能系统更好地与物理世界互动。基于此标准构建的大规模数据集包含约300万个片段,覆盖258个系列和321,064个任务,极大地推动了具身智能的研究与发展。然而,该数据集也面临着存储需求高、系统互操作性及应用场景适应性等挑战。论文详情见:http://arxiv.org/abs/2408.10899。
142 11
|
6月前
|
数据采集 人工智能 机器人
OpenAI的最新产品对企业业务意味着什么
OpenAI的最新产品对企业业务意味着什么
|
7月前
|
人工智能 领域建模
应用工程化架构问题之AI计算机中的大模型评估体系发生变化如何解决
应用工程化架构问题之AI计算机中的大模型评估体系发生变化如何解决
|
9月前
|
存储 数据可视化 项目管理
挖掘2024年最新项目管理系统榜单:哪些系统值得双倍关注?
以下是内容摘要: 2024年最值得关注的项目管理系统包括Zoho Projects、Smartsheet、MS Project、Trello和Wrike。Zoho Projects以其全面的解决方案和国内数据中心脱颖而出,Smartsheet以其电子表格样式和任务管理见长,MS Project适合复杂项目管理,Trello以其看板式界面适合轻量级协作,而Wrike则是强大且适合远程团队的选项。每款系统都有其独特优势和适用场景,用户可根据实际需求选择。
57 1