五矿期货:悦数图数据库在金融期货行业的应用与实践探索

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介: 安全知识图谱,我们认为是作为安全领域的一个专用知识图谱,它可以结合安全知识经验和数据发挥知识整合的优势,将离散分布的多元异构的安全数据组织起来,加速安全领域的智能化和自动化。

本文整理自 五矿集团-五矿期货有限公司副总经理-张剑锋 在 NUC 2022 年度用户大会上的分享。

大家好,我是五矿期货的张剑锋。今天十分感谢悦数科技能够提供这个跟各位专家,还有行业技术大拿们当面学习和交流的机会。

首先介绍一下期货行业。在中国的六大金融行业里面,银行,保险,还有信托,是银保监会体系下的,俗称大金融行业。期货行业属于证监会管辖下,有证券期货和基金,属于小金融行业。

我们这个行业有三大主要的功能:发现价格,管理风险,还有配置资源。发现价格重点给大家介绍一下,因为期货市场的参与者众多,除了有生产者、贸易商,还有我们消费者,以及市场上大量的投机者。因为有这样不同类型的大量的交易者在期货市场上通过多空博弈产生出来一个价格,是相对客观和真实的,所以可以用于指导这些产业客户和实体经济相关参与者安排自己的生产和经营活动。

期货行业最主要的作用是服务实体经济和产业客户,所以我们这个行业的特点也是和实体经济挂钩会比较紧密。这几年才兴起的像保险+期货、乡村振兴、场外期权等等都是直接服务产业客户的业务模式。

下面介绍下五矿期货的一些情况。 五矿期货是中国五矿集团旗下的金融企业,五矿集团是 16 年五矿集团和中冶集团两家世界 500 强企业战略性重组,最新的世界 500 强排名是 58位。五矿集团是国家的金属资源领域的冶金建设国家队,我们的控股股东是五矿资本有限公司,是 A 股的上市公司,也是隶属五矿集团的,然后我们也是一个 A 股市场稀缺的全牌照的金融控股公司

为什么要搭建知识图谱平台?

知识图谱的价值

关于知识图谱的价值,我来谈一下我们的理解。

因为期货行业是一个信息高度密集的行业,我们日常的经营过程中会产生大量的结构化数据,数据类型也很多。除了像各种的客户的交易数据,还有一些像客户行为埋点数据、用户事件数据等等。同时还有很多非结构化的数据, 像各类研究报告,新闻资讯。

另外,由于监管对我们业务有特殊要求,比如客户开通特定品种要求的双录等会产生大量的音频视频数据,所以(拥有)大量多维的、多类型的数据是期货投资行业的一个特点。我们认为利用知识图谱能够实现数据的汇集和治理、知识挖掘和应用,以及辅助业务分析和决策

另外,期货行业也是知识密集型行业,因为期货行业的业务规则很复杂还会经常变化,所以如何把知识沉淀到公司,作为公司知识的传承,还有在知识基础上做相应的智能化的应用都是非常重要的,所以我们认为知识图谱在我们这个行业会有很大的作用和意义。

知识图谱的优点

从技术方面,知识图谱的优点大概有四个方面——

第一,灵活的多维数据叠加

孤岛的数据其实是没有太多意义,也不利于数据的挖掘和分析。而图结构比较灵活,通过图的点面关系,可以把有价值的多维数据叠加和连接在一起,会有更大的意义。

第二,依托经验分析可解释

因为在图谱上模型设计和决策,它的计算路径和过程是很清晰的,可以使用图很方便地回溯推导过程,并可以和人的经验相互应证。

第三,数据的高效直观表达

图数据相对来说是比较容易可视化的,通过将知识图谱可视化展示给用户,可以使用户快速学习或者是发现新的知识。

第四,增强现有模型准确率

因为使用知识图谱技术把整个数据拉通之后,有助于数据的数据质量的提升,同时可以提高整个模型的准确率。

使用过程中面临的困境

在我们实践和探索过程中,我们也遇到了一些困难。总结起来主要有三点,第一个就是因为知识图谱技术相对来说比较新,在我们这个行业里应用几乎没有,所以我们只能去摸着石头过河去一步一步来,这个过程其实蛮艰辛的。

第二个就是人才,我们对传统的数据库还是有一些人才储备的,但是现有新的领域,招聘人员、储备人员、培养人员都需要很长的时间,这是第二个痛点。

第三个就是业务部门认知不到位,这也导致参与度不高,所以推进就没那么快,所以刚建的时候走走停停,推的过程就比较困难。

如何走出困境

面临这种困境,我们很庆幸就是说找到两家很好的合作伙伴,一个是今天的东道主悦数科技,我们认为他们是一家很好、很可靠的公司,悦数 图数据库除了稳定可靠、性能高效,另外还是国产的,而且是支持信创的。因为我们公司是证监会指定的信创试点单位,所以综合考虑我们认为「悦数图数据库」是最佳的选择方案

另外要感谢的就是普适智能,因为我们是缺乏技术储备的,我们就比较依赖厂商的支持。普适智能是很专业地专注于知识图谱的应用,而且他们愿意深耕金融行业,对金融行业的业务模式有比较深的沉淀,所以他们可以给我们提供一站式的知识图谱平台的解决方案

我们很多的业务场景都是悦数和普适在驻场和我们业务部门、技术部门一起配合很长时间梳理清楚,把业务搬到知识平台上,帮我们一步一步搭建起到现在这样一个平台,所以在此十分感谢这两个公司。

知识图谱在期货行业的应用场景

场景一:辅助投研

这是我们投研平台知识图谱应用的一个逻辑图。首先我们公司会有很多的内部数据,包括一些非公开的数据、行业的数据,还有一些外部数据,包括我们购买的很多商业数据源、数据研报等等。内外部数据打通之后,我们依托知识图谱平台实现了知识的沉淀复用,为后续产业链的研究,研报的生成,以及风险预测等等这些业务场景去赋能

这是我们整个投研过程的描绘:研究员从发现线索出发,然后整理相关资料,经过分析研究框架的判断,最终形成投资决策和应用。

传统来说以前就是数据纯粹的罗列,检索也比较简单,然后我们用知识图谱平台可以实现自定义的投研主页,让用户每天高效获取他所需要的信息,而不需要去浪费过多时间去找线索。另外就是我们优化了检索算法和信息展示的交互界面,形成了更加贴合用户习惯的页面,提升了信息获取的效率和用户的使用感受。

之前数据比较割裂,因为搜集数据的渠道来源很多,也很不方便,通过这个平台把多维的数据整合,加上自有数据的上传,还有指标编辑等功能,实现了数据收集效率的大幅提升。

然后我们底层使用的是批流一体的图谱技术,让数据更加及时,拓展性也更强了。以前的分析判断过程是研究人员分析判断完全依赖个人经验,分析工具也比较少,导致效率比较低。我们通过机器学习来辅助数据的分析和挖掘,能够主动定位可能的分析方向,提高探索效率

在决策和应用阶段,以前研究人员仅是能够生成这个报告,但是写的报告一个是精度可能比较低,另外它的准确度有可能会比较模糊,所以我们联通了用户的分析过程和报告产生的过程,然后能够快速获取研究分析所依赖的数据以及分析的流程,帮助他们去提升整个分析的逻辑,让数据和研究员的个人经验去做一个印证。有可能他的知识或者他的框架可能有错误和偏差,通过这样的数据分析也可以优化。

具体来说,辅助投研场景是这样的——因为期货行业里面有很多品种是存在比较强的相关关系的。比如说原油,它的衍生品有燃料油、化纤、化工类产品、沥青等等。

一个品种的价格变动,对相关的品种都是有影响的,所以我们投研平台第一步就要先要找到对应关系,把它在这个平台上用图谱形式去展示出来,然后通过一些模型的训练,除了找到影响的关系之外,还要找到影响的程度,就是它的权重。

当然了,这要经过大量的模型训练或者验证,通过找到一个品种价格变化传导到其他相关品种价格的关系,来辅助研究人员做相应的研判

除了品种之间有较强的相关性之外,期货行业有些相关品种的产业链是比较强的,因为上游可能有很多层级,下游消费方可能也有很多的节点,所以我们以研究员的视角,在平台上绘制出整个产业链的结构图,目的是找到整个产业链的价格传导机制

图上展示的就是能源板块的一个产业链。比如煤炭,除了国家的政策会影响到煤炭的生产之外,衍生品的情况也有影响。煤炭的衍生品也就是产业链下游,就是焦煤、焦炭,还有动力煤。动力煤是用来发电的,焦煤焦炭是用来炼钢的,第一步先练成粗钢,然后粗钢再炼成螺纹钢和热轧卷板,同时钢这个黑色品种又和铁矿石有关系,铁矿石除了炼钢之外,它还有像锰铁锰硅之类的一些副产,研究人员在这个平台上可以把这个品种的整个上下游产业链和它的关联关系去描绘出来。

对研究人员本身来说,他借助这个平台可以提升自己的知识,同时这个平台在使用过程中也会逐渐的增强自身的能力和价值

场景二:金融事件分析

第二个场景是金融事件分析。因为期货行业的价格影响,除了既有的产业链模型之外,还有很多突发性事件,类似于黑天鹅事件, 所以舆情或者资讯对商品的价格可能也会有很大的影响。

所以我们也做了这样一个模型,而且这个模型会持续地去打上时间的标签,因为时间对行情的影响是有很大的影响的,越老的资讯可能影响度就更低一些。

举个例子,年初的俄乌战争对期货市场上的行情影响比较大,主要影响是两个,一个是镍这个品种大家可能都知道或者都看到过。因为俄罗斯是镍主要的供应国,发生战争之后,俄罗斯的镍不能够给中国出口,所以导致镍出现了极端的行情。同时,下游产品像不锈钢主要是用镍去生产的,所以间接也影响到不锈钢这个品种的价格走势。

所以我们希望能够以关联这个数据为基础,从期货行业固有的逻辑和实时事件双管齐下,通过平台实时洞察不同事件组合对特定商品价格影响的强度,同时也随时观察期货相关联的历史事件。

场景三:合规风控

场景三是合规风控,因为期货行业是一个高风险行业,所以无论是监管机构,还是期货公司自身的风控要求都十分严格,合规风控能力也是我们一个核心竞争力。

一般来说,我们有两类风控模型,一个是不同的客户在同一个 MAC 地址下,买卖期货合约品种以及它的交易行为时间点高度一致,它可能会存在“拖拉机账户”,也就说是一个客户操控了多个账户,这在期货行业里是不允许的。通过图上的交叉关系或者汇聚的密集程度,合规风控人员很容易地去判断出这类行为

另外一类就是同一个账户,同时存在多个交易的 IP 和 MAC 地址,这类行为可能是有配资嫌疑的,结合其他数据和模型,我们可以更加精准地判断它是否存在配资的嫌疑。这对合规风控来说,极大提高了它的判断能力,我们可以对这类交易进行提前的干预,有效避免合规风险。

场景四:客户洞察

第四类场景是客户洞察,我们基于客户交易行为进行汇总,把他们进行一些社群划分,比如感兴趣交易哪些品种、感兴趣哪类研报,我们把这些作为划分依据,用于进行相对精准的一些推送。

因为期货行业服务的同质化比较严重,所以我们也希望能够通过数据来做数字化的运营,给客户提供差异化的服务和精准营销,实现更好的客户体验

场景五:智能运维 AIOps

AIOps 是我们最近才梳理的一个场景。像我们公司有十几个机房部署在全国各地,可能有上千台服务器,整个交易系统会产生大量的数据和日志等,而且不同的机房不同的系统之间网络也都是通的,一些应用组件都是互相调用的关系,它其实本身就是一个巨大的网络。

所以我们把这些运维的数据,服务调用的数据,还有批量作业数据设备部署的数据以及系统运行的日志数据,整合到这个平台里,然后把他们的关系提取出来,实体也提取出来,构建这样一个智能运维的模型。

我们可以更加细化到具体的运维设计场景,比如说故障影响分析,当某个节点或设备出现故障时,和它有关联的系统或应用也可能会存在问题。接下来根据业务调用关系,它(故障)有可能会传达到别的系统,还有可能会影响到不同类型的客户,所以我们要把关系描绘出来,以进行一些系统切换或故障通知等等。

另外就是变更,因为业务系统 80%  的风险,或者说它的故障运维事件,都是因为这个系统升级变更造成的。升级某一个组件可能会影响到哪些系统、哪些客户需要哪些部门的人去做一些干预或协调、怎么更好地去应急等,我觉得在图谱上都可以实现,以便更好地指导我们的日常运营工作。

还有像系统架构的分析,像系统架构合不合理、有没有存在单点的故障,这些我觉得都可以在图谱这个平台上去实现。

场景六:网络安全

另外一个就是网络安全,这块我们觉得也是可以应用到的。因为我们现在有这样一个安全监控平台,它的规则是基于系统产生的日志,如果日志发生了或者是平台感受到它和现有的规则不匹配,系统会产生告警信息。但是告警信息是一种孤岛, 哪里出现问题哪里告警,但是我们希望能够把整个安全模型构建出来,然后找出故障的传导机制,进而分析出它可能会对哪些系统或者说网络安全环境造成影响

另外一个就是攻击行为或者说病毒,通过知识图谱可以更加方便、有效地回溯它的路径或者预测攻击行为,这样能够更加智能化地去辅助我们的安全管理人员去做好安全管理工作。

所以安全知识图谱,我们认为是作为安全领域的一个专用知识图谱,它可以结合安全知识经验和数据发挥知识整合的优势,将离散分布的多元异构的安全数据组织起来,加速安全领域的智能化和自动化

总结&期望

作为第一家和悦数图数据库合作的期货公司,我们很荣幸,也希望更多的技术专家能够关注到期货这个行业,能够输送人才去指导期货行业金融科技的发展。所以最后感谢悦数科技,谢谢大家。

相关实践学习
阿里云图数据库GDB入门与应用
图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。它支持Apache TinkerPop Gremlin查询语言,可以帮您快速构建基于高度连接的数据集的应用程序。GDB非常适合社交网络、欺诈检测、推荐引擎、实时图谱、网络/IT运营这类高度互连数据集的场景。 GDB由阿里云自主研发,具备如下优势: 标准图查询语言:支持属性图,高度兼容Gremlin图查询语言。 高度优化的自研引擎:高度优化的自研图计算层和存储层,云盘多副本保障数据超高可靠,支持ACID事务。 服务高可用:支持高可用实例,节点故障迅速转移,保障业务连续性。 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。 产品主页:https://www.aliyun.com/product/gdb
相关文章
|
29天前
|
存储 Oracle 关系型数据库
Oracle数据库的应用场景有哪些?
【10月更文挑战第15天】Oracle数据库的应用场景有哪些?
153 64
|
9天前
|
关系型数据库 MySQL Linux
Linux环境下MySQL数据库自动定时备份实践
数据库备份是确保数据安全的重要措施。在Linux环境下,实现MySQL数据库的自动定时备份可以通过多种方式完成。本文将介绍如何使用`cron`定时任务和`mysqldump`工具来实现MySQL数据库的每日自动备份。
27 3
|
11天前
|
缓存 NoSQL 数据库
运用云数据库 Tair 构建缓存为应用提速,完成任务得苹果音响、充电套装等好礼!
本活动将带大家了解云数据库 Tair(兼容 Redis),通过体验构建缓存以提速应用,完成任务,即可领取罗马仕安卓充电套装,限量1000个,先到先得。邀请好友共同参与活动,还可赢取苹果 HomePod mini、小米蓝牙耳机等精美好礼!
|
21天前
|
NoSQL Cloud Native atlas
探索云原生数据库:MongoDB Atlas 的实践与思考
【10月更文挑战第21天】本文探讨了MongoDB Atlas的核心特性、实践应用及对云原生数据库未来的思考。MongoDB Atlas作为MongoDB的云原生版本,提供全球分布式、完全托管、弹性伸缩和安全合规等优势,支持快速部署、数据全球化、自动化运维和灵活定价。文章还讨论了云原生数据库的未来趋势,如架构灵活性、智能化运维和混合云支持,并分享了实施MongoDB Atlas的最佳实践。
|
18天前
|
SQL Java 数据库连接
在Java应用中,数据库访问常成为性能瓶颈。连接池技术通过预建立并复用数据库连接,有效减少连接开销,提升访问效率
在Java应用中,数据库访问常成为性能瓶颈。连接池技术通过预建立并复用数据库连接,有效减少连接开销,提升访问效率。本文介绍了连接池的工作原理、优势及实现方法,并提供了HikariCP的示例代码。
32 3
|
22天前
|
NoSQL Cloud Native atlas
探索云原生数据库:MongoDB Atlas 的实践与思考
【10月更文挑战第20天】本文探讨了MongoDB Atlas的核心特性、实践应用及对未来云原生数据库的思考。MongoDB Atlas作为云原生数据库服务,具备全球分布、完全托管、弹性伸缩和安全合规等优势,支持快速部署、数据全球化、自动化运维和灵活定价。文章还讨论了实施MongoDB Atlas的最佳实践和职业心得,展望了云原生数据库的发展趋势。
|
18天前
|
存储 Java 关系型数据库
在Java开发中,数据库连接是应用与数据交互的关键环节。本文通过案例分析,深入探讨Java连接池的原理与最佳实践
在Java开发中,数据库连接是应用与数据交互的关键环节。本文通过案例分析,深入探讨Java连接池的原理与最佳实践,包括连接创建、分配、复用和释放等操作,并通过电商应用实例展示了如何选择合适的连接池库(如HikariCP)和配置参数,实现高效、稳定的数据库连接管理。
34 2
|
25天前
|
SQL Java 数据库
Spring Boot与Flyway:数据库版本控制的自动化实践
【10月更文挑战第19天】 在软件开发中,数据库的版本控制是一个至关重要的环节,它确保了数据库结构的一致性和项目的顺利迭代。Spring Boot结合Flyway提供了一种自动化的数据库版本控制解决方案,极大地简化了数据库迁移管理。本文将详细介绍如何使用Spring Boot和Flyway实现数据库版本的自动化控制。
23 2
|
27天前
|
XML 存储 数据库
XML在数据库中有哪些应用?
【10月更文挑战第17天】XML在数据库中有哪些应用?
26 2
|
29天前
|
供应链 数据库
数据库事务安全性控制有什么应用场景吗
【10月更文挑战第15天】数据库事务安全性控制有什么应用场景吗