Xintell——全生命周期的模型建设+智能数据中台

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 在业务反欺诈、运营及数据分析上,经常会涉及到模型

1111111111111111111111111111111.jpg

在业务反欺诈、运营及数据分析上,经常会涉及到模型。模型就是基于目标群体的大规模采样数据,挖掘出某个实际问题或客观事物的现象本质及运行规律,利用抽象的概念分析存在问题或风险,计算推演出减轻、防范问题或风险的对策过程,并形成一套体系化的策略或规则集。

模型建设是一个复杂的过程,一般需要几个或十几个专业开发人员,耗费几个月乃至大半年才能够完成一个模型建设。如果有新的数据、样本更新,就需要重新计算分析才能完成。此外很多公司和机构并不具备独立建设模型的能力,因此会委托第三方机构帮助其建立模型或者直接使用一些通用标准模型。然而不同企业机构的业务场景不同,流程标准和需求目标有差异,直接使用通用标准模型往往不尽如人意。

越来越多的企业希望从积累的海量数据中挖掘出业务价值,因此开始组建自己的算法团队。一方面,避免模型建设外包时,带来的隐私数据泄露的风险;另一方面,能够构建专属业务的模型,并且可以根据业务、需求以及数据的更新及时进行更迭。

为了助力企业解决建模难、升级更新慢、模型管理复杂的问题,包含顶象等多家公司推出了专业模型解决方案。

以顶象Xintell智能模型平台为例。基于关联网络和深度学习技术,结合Hadoop生态和自研组件,将复杂的数据处理、挖掘、机器学习过程标准化,提供从数据处理、特征衍生、模型构建到最终模型上线的一站式建模服务,结合拖拉拽式操作大幅降低建模门槛,提升建模工程师、数据科学家的工作效率,让运营人员和业务人员也能直接上手操作实践,帮助企业通过对大数据的模型训练在反欺诈、风控、营销、客户分群等场景提供模型支持,并能够根据时间变化进行动态升级与优化,极大降低建模门槛。
222222222222222222222222222222222.jpg

建模灵活。支持HiveSQL脚本、Python脚本(Jupyter Notebook)和可视化建模三种开发方式,均可以发布为调度任务并可任意进行组合,实现强大的自动化流程。

可视化。可视化的建模方式,让不懂技术的业务人员,以拖拉拽的方式在画布上连接成流程图,不需要写代码或仅仅写少量的代码,能够以设定组件参数的方式训练出一个完整的模型。

部署快。Xintell基于企业本身的大数据平台,支持导入PMML格式和Python源码的任何第三方模型,能够能灵活地与企业已有的系统对接;一键式部署方便快捷,比同类建模产品的部署速度减少80%。

可解释性强。Xintell内置自研的一整套评分卡建模组件,适用于各种对可解释性要求高的建模场景。

全生命周期的模型开发与管理平台
在软件工程领域,软件开发生命周期(Software Development Life Cycle,SDLC)包含了软件从开始到发布的不同阶段:需求收集、设计、软件开发、测试和质量保证、部署、维护。机器学习建模,作为软件开发的一个分支,同样遵循着这样的流程,而模型的开发仅仅是其中的一个环节。

建模人员有喜欢编程写代码的,也有喜欢可视化建模的。就提供模型开发功能而言,不同的建模平台之间大同小异,甚至作为一个以私有化部署方式为主的轻量级建模平台,Xintell在某些方面的功能和其他开放的数据科学平台相比是不足的,比如不提供常见的公共数据集和预训练模型、没有可以提供学习资源和交流的开发者社区。但Xintell的优势在于其覆盖了模型全生命周期的管理功能,在对模型工程化的支持方面,目前是领先于其他竞品的。

333333333333333333333333.jpg

Python 建模

55555555555555555555555555.jpg

“低代码”建模

所谓工程化,至少包含以下环节:部署开发好的模型,实时或定期采集数据,调用模型,然后将模型的输出结果进行展示或对接下游业务系统,并监控模型的性能、定期评估模型的效果,必要时对模型进行迭代更新。

使用Xintell平台开发模型,可以保证整个工程化的过程是便捷、高效的。例如:支持一键将模型部署为在线模型(可指定部署的实例个数),以API的形式对外提供模型调用服务;自带对在线模型服务的监控功能;可将整套操作流程配置为定期自动运行的调度任务。因此,Xintell不仅仅是一个模型开发平台,更是一个模型管理平台,其功能覆盖了建模的全生命周期。

狭义的模型管理

狭义而言,模型管理分为两个方面:管理同一个模型的多个版本;管理多个不同的模型。

前者,部署在Xintell上的在线模型,可以一键切换版本。

后者,Xintell支持导入任意Python源代码或PMML格式的外部模型,然后进行批量预测,或部署为在线模型供实时调用。具体的功能介绍可参阅相关文档,在此不详细展开介绍。
55555555555555555555555555.jpg

“融合式”模型开发

广义的模型管理

广义而言,除了管理不同模型和模型的不同版本外,模型管理还包括:

数据管理。Xintell采用Hive表管理所有的数据,支持与常见的数据库进行对接,包括但不限于Hive、Oracle、MySQL、ES、MongoDB、Kafka、Cassandra等。可发布成数据同步任务,集成到调度任务中实现定时自动运行。Xintell也支持往Hive表中直接导入csv、txt、log等常见类型的数据文件。

各个表从不同的数据源汇总到Hive表中后,或进一步经过关联、清洗、加工,形成数据集市,供后续的建模等任务使用。

特征管理。不同的建模场景可能用到相同的业务数据,如果不进行集中管理,可能造成特征的重复加工。为了增加特征的可复用性,特别是存在数据加工人员和建模人员两个角色时,有必要对特征进行管理,辅以相关的特征说明。在特征管理方面的功能Xintell正在不断完善。目前已有二代征信特征库,未来计划开发更多场景的特征库,并提供通用的特征管理功能。

代码管理。不同项目空间的代码相互隔离,从而可以支持多个项目同时开发。支持将HiveSQL脚本和Python脚本发布版本,支持版本回溯,从而实现代码的版本管理。在调度任务中可以调度指定版本的脚本文件。

文档和资源管理。模型的代码目录下可以创建Markdown文档,记录模型的需求设计、代码说明等相关信息。除此之外,Xintell平台提供了文件资源管理功能,可以视作是一个简易的FTP,建模团队成员可以上传模型相关的文件资料(如测试报告、bad case、第三方库、数据字典等),与其他成员共享。

模型运维。Xintell提供了在线模型服务的仪表盘,可以便捷地查看历史上模型的调用量和平均耗时,及时发现模型的异常。通过将模型输出的结果和真实的标签按一定规范写入指定的表中,还可以监控模型的KS、PSI等指标,用于评估模型性能是否发生衰退。

权限管理。这是比较容易被忽视的一点,但对于团队协作是必不可少的。通常同一个项目空间下,有项目管理员和模型开发人员两种角色,可以配置不同角色的操作权限。特别地,团队成员之间可以互相查看代码,进行code review或相互学习;而通过加锁的功能,可以防止自己的代码或已发布的调度任务被他人误修改。

团队协作平台

软件工程中有一个名词叫“协同开发”,相关领域的专家们设计了各种协同开发工具,来帮助软件开发团队更好、更快地进行协作和开发,最为典型的代表之一就是Git,一个代码协作和管理工具。正因为其健全的模型管理功能,Xintell也可视为一个建模团队的协同开发平台。

一个典型的使用场景就是高校实验室。一位导师可能需要指导多个学生撰写数人工智能领域的论文,或是带领多个学生参与一个模型项目的开发。如果能有一套像Xintell这样的平台,给学生提供基本的模型开发和代码管理工具,给团队提供代码、资源共享的渠道,能大大提高协同开发的效率,减轻导师指导和管理的难度。

Xintell也是一个智能数据中台
从数据中挖掘价值,只有通过训练机器学习模型这一种方式吗?显然不是。模型只是数据应用的一种方式而已,其他常见的需求还有制作统计报表、构建关联网络并展示、输出数据处理与分析结果等。那么,Xintell平台的使用也不仅仅局限于需要建模的场景。

数据报表

业务人员往往需要将过往一段时间的业务数据从各个维度进行统计分析,然后做成报表,以便发现业务或客群的变化趋势,从而为更好地开展未来的业务提供决策依据,这就是BI。Xintell也提供了简易的报表制作的功能,相比常见的BI工具,Xintell的优势在于能够整合来着不同数据源的数据;可以实现复杂的数据分析与处理;以及可以通过调度任务实现定期自动生成报表。

当然,如果觉得Xintell中生成的报表不够美观、灵活,还可以通过数据同步的方式,将处理好的数据同步到其他专业的BI工具进行可视化。

知识图谱

事物之间普遍存在着纷繁复杂的联系的,模型利用的往往是个体的特征,无法刻画出个体之间的关联。而通过构建关联网络或图谱,进而划分团伙计算团伙指标或应用各类图算法,能够弥补这一短板。

Xintell平台集成了图数据库ArangoDB,并封装了常见的图算法。关联网络技术常用于检测团伙欺诈风险,如代理人欺诈、信用卡套现检测、信贷申请反欺诈、营销反欺诈等场景。利用集成的图数据库,Xintell可以实现具有关联关系的数据(如团伙)的展示与查询。事实上,很多时候也有必要在图谱中展示模型预测的结果,如可以在代理人团队中展示对代理人欺诈风险的预测,以便进一步识别一些团队中的异常。

类似地,如果已经有或需要用其他图谱工具展示关联网络的话,可以在Xintell上完成节点表和关系表的加工,然后再同步到其他数据库中。

数据服务

Xintell支持配置数据服务,通过"导入字段",可以快速将Hive表的字段结构复制到数据服务中。业务方通过发起Http请求,提供查询参数访问数据服务。

常见的应用场景包括对外部系统提供用户画像、模型预测结果等的查询。

数据枢纽

调度任务这一功能是Xintell的一大灵魂。在私有化部署的Xintell平台上,当建模团队完成模型交付之后,客户未必会使用Xintell开发新的模型,但通常会创建新的调度任务,实现与模型并不直接相关的其他任务,比如数据集市的构建、指标的计算、报表的制作等。毫不夸张地说,调度任务可能比模型开发和管理更常用。

调度任务之所以强大,是因为其灵活。在Xintell平台上,可以将数据同步、HiveSQL脚本、Python脚本和可视化建模这四类发布成任务,然后通过连线的方式,在调用任务的画布中构建为任务流,并可以进一步指定任务流的运行时间和周期,实现任务流的定期定时自动运行。

当然,想要定期定时自动执行一段脚本,并非只能依赖于Xintell平台,但利用Xintell平台,可以对调度任务进行便捷地管理,如开启/关闭任务、任务错峰排期、配置任务预警等。事实上,在私有化部署的Xintell平台上,同时配置了几十个调度任务是非常常见的。

在某种意义上,可以将Xintell视为一个数据枢纽,而不是仅仅是模型平台。通过调度任务,可以实现从数据同步、数据处理、数据应用(数据统计分析,调用模型,构建关联网络,运用图算法)、数据可视化(图谱展示、报表生成)、数据价值输出(图谱查询,在线模型服务,数据服务,同步到其他业务系统)等一整套流程,其核心便是对数据的调度,故称之为枢纽,数据枢纽。而Xintell的价值也不仅仅在提供模型开发和管理的工具,更在于赋能客户,帮助客户更便捷地从自身的业务数据中挖掘出价值,并加以充分利用,反哺于其业务。

哪些企业适合选用Xintell?
毫无疑问,需要进行建模的团队肯定是Xintell的企业和组织,因为他们需要一个模型的协同开发、管理和运维平台。这个团队可以隶属于高校的实验室,可以隶属于某个企业甚至某个业务部门。但在笔者看来,任何一个拥有数据、希望从数据中挖掘价值从而为业务助力的企业,都是Xintell的潜在客户。特别是正在经历、或有计划进行数字化转型的传统行业的企业。他们在组建自己算法团队的同时,也亟需一套Xintell平台帮助他们管理包括模型在内的数据应用,特别是在对工程化的支持方面,Xintell是不二的选择。无论是组建自己的建模团队,还是希望将已有的模型进行集中管理,亦或进行其他数据应用的开发(如构建关联网络,提供图谱展示与查询),Xintell都有用武之地。

当前,采购Xintell平台的更多的是银行等金融行业的机构,显然,Xintell的市场潜力很大,机会远远没有被发掘。因为Xintell不仅仅是一个模型开发平台,更是一个模型管理平台、团队协作平台;不仅仅是一个数据服务平台,更是一个智能数据中台。

——————
业务安全产品:[免费试用]https://user.dingxiang-inc.com/user/register#/

发布于 2022-11-17 11:45・IP 属地浙江

相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
存储 API
LangChain与智能Agent构建问题之MetaGPT中工程师智能体代码错误如何解决
LangChain与智能Agent构建问题之MetaGPT中工程师智能体代码错误如何解决
201 1
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1392 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
8月前
|
运维 分布式计算 监控
Dataphin深度评测:企业级数据中台的智能实践利器
Dataphin是一款以全链路治理、智能提效和高兼容性为核心的企业级数据中台工具,特别适用于中大型企业的复杂数据场景。其流批一体能力、资源监控工具及行业化模板库可显著提升数据治理水平并降低运维成本。通过周期补数据功能,历史数据修复效率提升约60%;智能建模功能使建模时间缩短50%。尽管在数据源支持(如SAP HANA、DB2)和用户体验上仍有改进空间,但其强大的功能使其成为构建企业级数据中台的优选工具,尤其适合零售、金融等行业需要高效数据治理与实时分析的企业。
|
7月前
|
SQL 数据采集 分布式计算
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
Dataphin是一款智能数据建设与治理平台,基于阿里巴巴OneData方法论,提供从数据采集、建模研发到资产治理、数据服务的全链路智能化能力。它帮助企业解决数据口径混乱、质量参差等问题,构建标准化、资产化、服务化的数据中台体系。本文通过详细的操作步骤,介绍了如何使用Dataphin进行离线数仓搭建,包括规划数仓、数据集成、数据处理、运维补数据及验证数据等环节。尽管平台功能强大,但在部署文档更新、新手友好度及基础功能完善性方面仍有提升空间。未来可引入SQL智能纠错、自然语言生成报告等功能,进一步增强用户体验与数据治理效率。
770 34
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
|
7月前
|
存储 人工智能 自然语言处理
LangChain RAG入门教程:构建基于私有文档的智能问答助手
本文介绍如何利用检索增强生成(RAG)技术与LangChain框架构建基于特定文档集合的AI问答系统。通过结合检索系统和生成机制,RAG能有效降低传统语言模型的知识局限与幻觉问题,提升回答准确性。文章详细展示了从环境配置、知识库构建到系统集成的全流程,并提供优化策略以改进检索与响应质量。此技术适用于专业领域信息检索与生成,为定制化AI应用奠定了基础。
2369 5
LangChain RAG入门教程:构建基于私有文档的智能问答助手
|
存储 人工智能 搜索推荐
解锁AI新境界:LangChain+RAG实战秘籍,让你的企业决策更智能,引领商业未来新潮流!
【10月更文挑战第4天】本文通过详细的实战演练,指导读者如何在LangChain框架中集成检索增强生成(RAG)技术,以提升大型语言模型的准确性与可靠性。RAG通过整合外部知识源,已在生成式AI领域展现出巨大潜力。文中提供了从数据加载到创建检索器的完整步骤,并探讨了RAG在企业问答系统、决策支持及客户服务中的应用。通过构建知识库、选择合适的嵌入模型及持续优化系统,企业可以充分利用现有数据,实现高效的商业落地。
453 6
|
8月前
|
机器学习/深度学习 自然语言处理 自动驾驶
如何看待LangChain与智能Agent,二者有什么区别
LangChain是一种专注于自然语言处理的框架,通过链式结构连接多个模型组件,实现复杂任务如问答、对话生成等。其六大核心组件包括模型、检索、代理、链、记忆和回调,帮助开发者快速构建基于大语言模型的应用。智能Agent则是一种能够感知环境、推理决策并采取行动的智能体,涵盖更广泛的智能行为,如自动驾驶、智能家居等。两者分别侧重于语言处理和全面智能行为的技术实现,为不同应用场景提供强大支持。
520 0
|
JSON 数据格式 Python
LangChain与智能Agent构建问题之运行生成的软件如何解决
LangChain与智能Agent构建问题之运行生成的软件如何解决
155 0
|
机器学习/深度学习 人工智能 开发框架
解锁AI新纪元:LangChain保姆级RAG实战,助你抢占大模型发展趋势红利,共赴智能未来之旅!
【10月更文挑战第4天】本文详细介绍检索增强生成(RAG)技术的发展趋势及其在大型语言模型(LLM)中的应用优势,如知识丰富性、上下文理解和可解释性。通过LangChain框架进行实战演练,演示从知识库加载、文档分割、向量化到构建检索器的全过程,并提供示例代码。掌握RAG技术有助于企业在问答系统、文本生成等领域把握大模型的红利期,应对检索效率和模型融合等挑战。
702 14

热门文章

最新文章