YashanDB演讲实录|别彬彬:金融科技对智能化创新系统的机遇与路径

简介: 本文分享了“2024国产数据库创新生态大会”中深算院采石矶、钓鱼城系统技术总监别彬彬的演讲实录,主题为《金融科技对智能化创新系统的机遇与路径》。文章详细介绍了深算院三大核心产品中的采石矶数据质量系统和钓鱼城数据分析系统。采石矶专注于自动发现与修复数据质量问题,在物流、数据交易及大模型语料准备领域有显著应用;钓鱼城通过结合逻辑推理与机器学习,助力工业制造和银行金融领域的智能决策,提升效率与准确性。两者共同推动高质量数据与智能化系统的深度融合,挖掘数据深层价值。

本文为“2024国产数据库创新生态大会”深算院采石矶、钓鱼城系统技术总监别彬彬的演讲实录分享,主题为 《金融科技对智能化创新系统的机遇与路径》,欢迎阅读。

各位领导、嘉宾,下午好!非常荣幸今天能与大家一同探讨金融科技创新的话题。

智能化系统新范式:AI+ = 机器学习 + 逻辑规则

分享之前,我想先和大家讨论一个有趣的问题:成吉思汗和发现万有引力定律的牛顿之间有什么关系?这个问题我曾问过专业学者和大型语言模型,包括ChatGPT,得到的回答都是:二者都是影响人类历史的伟人。然而,它们之间的实际关系却并未揭示出来。

我们相信这个世界上人、事、物总有着千丝万缕的关系,基于这种好奇心,我们试着用一些新方法、新技术寻找答案。通过图关联技术结合逻辑推理,我们发现成吉思汗对欧洲的征战导致物资交换频繁,引发鼠疫传播,进而引发伦敦瘟疫大爆发,这使得牛顿被迫离开剑桥大学,回到乡间度过了高产的两年,并在此期间发现了万有引力定律、微积分原理等重要理论。这样深层次的关系,专家做不到,千亿参数模型做不到,但可以被图关联分析揭示出来。

在深算院,我们主要有三大核心产品:崖山数据库系统、采石矶数据质量系统,以及钓鱼城数据分析系统。今天我想着重介绍后两者。

image.png

采石矶:自动数据质量冲突发现与可信修复

数据质量问题一直是困扰数据工作者的难题。OpenAI为了训练ChatGPT,花费了长达七年时间准备语料,而仅花费了一个月训练模型,这充分说明了数据质量的重要性,数据质量也是公认的大数据最难问题。樊文飞院士早年在贝尔实验室就一直研究数据质量的修复问题,随后提出了大数据质量保证模型——REE理论,能够自动化地发现数据中的错误并进行可信修复。采石矶系统可以完成两项重要任务:一是自动发现数据中的错误,二是根据发现的错误进行可信的修复。基于这些能力,采石矶系统在一些关键领域做出了很显著的成果。

image.png

首先是数据连接领域,在与国内最大的物流集团公司的合作中,该物流公司希望对17万张数据表进行主题归整。人工方式进行了两年时间,且只能完成10%的进度。而采石矶系统在短短四天内就完成了这一任务,梳理了17万张数据表与三张主数据结构表之间的关系。

其次是数据要素领域,采石矶系统目前已在上海数据交易所上线,负责买卖双方的数据质量评估和提升。上海数据交易所目前是国内最大的、最成功的数据交易机构之一,采石矶系统通过快速发现数据中的错误,帮助客户增加数据资产的价值。我们不仅能发现错误,还能进行数据质量提升,实现数据资产价值进一步提升。

最后,在大模型语料准备领域,采石矶系统也有重要的应用,主要体现在三个方面:一是非结构化数据的解析与提取。大语言模型的训练需要大量HTML或文本数据,这些数据通常是非结构化的,需要进行解析提取,占据了数据准备工作量的40%。二是人机协同标注,据最新的实验结果,采石矶系统在辅助标注方面的准确率超过了美国独角兽企业Scale.AI。三是文本数据中的事实性错误发现,采石矶系统可以发现并修复文本语料中的事实性错误,减缓大模型在训练过程中产生“幻觉”。

钓鱼城:逻辑与统计结合的工业数据决策系统

钓鱼城数据分析系统通过将逻辑推理与机器学习相结合,在图数据结构上实现统一推理。其核心理论GAR创新性地将机器学习预测结果和逻辑推断实现统一框架,一方面,我们将机器学习的结果放在X中,可提高数据决策的准确性,另一方面,将机器学习的结果放在Y中可以实现对黑盒模型的可解释。在工业应用场景中,钓鱼城系统还展现出自动化程度高的优势,对比机器学习,其建模过程中需要大量的人工操作,如人工洗数据、人工特征工程、模型调参,这些工作非常依赖程序员的主观能动性,但钓鱼城系统的自动规则发现则使整个分析过程高度自动化。

钓鱼城系统已在两个主要的行业做了应用。首先是制造业,例如电池制造、化工、烟叶配方设计等,逻辑推理的可解释性使得钓鱼城系统能够辅助工业决策。特别是在锂电池生产过程中的化成分容环节,钓鱼城系统已经在国内头部电池厂上线并跑,成功处理了600万支电芯的容量预测。逻辑推理方法的引入使得系统在面对复杂决策时具有更高的可解释性和可靠性。

image.png

其次是银行金融领域,钓鱼城系统帮助银行在商机与危机识别方面取得了显著成果。我们将银行的数据分析分为“商机”和“危机”两大类。商机方面,我们在零售营销、智能推送、投流拉新等环节取得了突破,系统的实际应用中将ROI从1.7提升到4.8。风险控制方面,我们与大型银行和消费金融机构合作,在反欺诈和高危群体识别等方面,将风险人群的识别准确率从40%提升到71%。

未来,钓鱼城系统将致力于在银行领域构建企业级的新型数据经营平台,依托樊院士的核心理论,将机器学习与逻辑规则结合,利用增量图计算技术,形成“圈链群”思路,为银行的商机和危机管理提供一站式服务,真正实现业务人员在系统上的自主操作,无需IT人员介入。

image.png

最后,我们希望通过钓鱼城、采石矶这两个基础软件平台实现真正的AI+,只有高质量的数据与先进的智能系统相结合,才能从数据中挖掘出深层次的价值。谢谢大家!

image.png

相关文章
|
6月前
|
存储 JSON 分布式计算
StarRocks + Paimon 在阿里集团 Lakehouse 的探索与实践
阿里集团在推进湖仓一体化建设过程中,依托 StarRocks 强大的 OLAP 查询能力与 Paimon 的高效数据入湖特性,实现了流批一体、存储成本大幅下降、查询性能数倍提升的显著成效: A+ 业务借助 Paimon 的准实时入湖,显著降低了存储成本,并引入 StarRocks 提升查询性能。升级后,数据时效提前60分钟,开发效率提升50%;JSON列化存储减少50%,查询性能提升最高达10倍;OLAP分析中,非JOIN查询快1倍,JOIN查询快5倍。 饿了么升级为准实时Lakehouse架构后,在时效性仅损失1-5分钟的前提下,实现Flink资源缩减、StarRocks查询性能提升(仅5%
587 60
StarRocks + Paimon 在阿里集团 Lakehouse 的探索与实践
|
6月前
【📕分布式锁通关指南 08】源码剖析redisson可重入锁之释放及阻塞与非阻塞获取
本文深入剖析了Redisson中可重入锁的释放锁Lua脚本实现及其获取锁的两种方式(阻塞与非阻塞)。释放锁流程包括前置检查、重入计数处理、锁删除及消息发布等步骤。非阻塞获取锁(tryLock)通过有限时间等待返回布尔值,适合需快速反馈的场景;阻塞获取锁(lock)则无限等待直至成功,适用于必须获取锁的场景。两者在等待策略、返回值和中断处理上存在显著差异。本文为理解分布式锁实现提供了详实参考。
245 11
【📕分布式锁通关指南 08】源码剖析redisson可重入锁之释放及阻塞与非阻塞获取
|
6月前
|
存储 Java 编译器
鸿蒙开发:ArkTs数据类型
最后一点是,ArkTS不支持any和unknown类型,需要显式指定具体类型,否则会报异常,具体原因是,这是ArkTS的特性之一,那就是使用静态类型;如果程序采用静态类型,即所有类型在编译时都是已知的,那么开发者就能够容易理解代码中使用了哪些数据结构。同时,由于所有类型在程序实际运行前都是已知的,编译器可以提前验证代码的正确性,从而可以减少运行时的类型检查,有助于提升性能。
277 8
鸿蒙开发:ArkTs数据类型
|
6月前
|
存储 人工智能 运维
idc机房智能运维解决方案
华汇数据中心一体化智能运维方案应运而生,以“自主可控、精准洞察、智能决策”三大核心能力,助力企业实现运维效率提升与综合成本下降的数字化转型目标。
362 24
|
人工智能 机器人 API
一键打造你的专属钉钉AI助手
【8月更文挑战第7天】一键打造你的专属钉钉AI助手
732 15
一键打造你的专属钉钉AI助手
|
Windows
windows调整pagefile.sys,hiberfil.sys 大小
windows调整pagefile.sys,hiberfil.sys 大小
614 1
|
存储 缓存 安全
⚡OWASF 十大 API 安全问题盘点
本文介绍了OWASP 2023年关于API安全的Top 10问题,包括对象级别授权漏洞(BOLA)、认证漏洞、对象属性级别授权漏洞、不受限制的资源消耗、函数级别授权漏洞(BFLA)、不受限制地接触敏感业务流程、服务端请求伪造(SSRF)、安全配置错误、库存管理不当和不安全的API使用。每个问题都详细介绍了其安全弱点、影响和预防措施。
Echarts——如何默认选中图表并显示tooltip
Echarts——如何默认选中图表并显示tooltip
474 1
|
编解码 图形学 iOS开发
AVPro Movie Capture☀️一、一款U3D录屏插件介绍
AVPro Movie Capture☀️一、一款U3D录屏插件介绍
|
机器学习/深度学习 人工智能 算法
贝叶斯优化实战(一)(1)
贝叶斯优化实战(一)
1124 0
贝叶斯优化实战(一)(1)