本文整理自 五矿集团-五矿期货有限公司副总经理-张剑锋 在 NUC 2022 年度用户大会上的分享。
大家好,我是五矿期货的张剑锋。今天十分感谢悦数科技能够提供这个跟各位专家,还有行业技术大拿们当面学习和交流的机会。
首先介绍一下期货行业。在中国的六大金融行业里面,银行,保险,还有信托,是银保监会体系下的,俗称大金融行业。期货行业属于证监会管辖下,有证券期货和基金,属于小金融行业。
我们这个行业有三大主要的功能:发现价格,管理风险,还有配置资源。发现价格重点给大家介绍一下,因为期货市场的参与者众多,除了有生产者、贸易商,还有我们消费者,以及市场上大量的投机者。因为有这样不同类型的大量的交易者在期货市场上通过多空博弈产生出来一个价格,是相对客观和真实的,所以可以用于指导这些产业客户和实体经济相关参与者安排自己的生产和经营活动。
期货行业最主要的作用是服务实体经济和产业客户,所以我们这个行业的特点也是和实体经济挂钩会比较紧密。这几年才兴起的像保险+期货、乡村振兴、场外期权等等都是直接服务产业客户的业务模式。
下面介绍下五矿期货的一些情况。 五矿期货是中国五矿集团旗下的金融企业,五矿集团是 16 年五矿集团和中冶集团两家世界 500 强企业战略性重组,最新的世界 500 强排名是 58位。五矿集团是国家的金属资源领域的冶金建设国家队,我们的控股股东是五矿资本有限公司,是 A 股的上市公司,也是隶属五矿集团的,然后我们也是一个 A 股市场稀缺的全牌照的金融控股公司。
为什么要搭建知识图谱平台?
知识图谱的价值
关于知识图谱的价值,我来谈一下我们的理解。
因为期货行业是一个信息高度密集的行业,我们日常的经营过程中会产生大量的结构化数据,数据类型也很多。除了像各种的客户的交易数据,还有一些像客户行为埋点数据、用户事件数据等等。同时还有很多非结构化的数据, 像各类研究报告,新闻资讯。
另外,由于监管对我们业务有特殊要求,比如客户开通特定品种要求的双录等会产生大量的音频视频数据,所以(拥有)大量多维的、多类型的数据是期货投资行业的一个特点。我们认为利用知识图谱能够实现数据的汇集和治理、知识挖掘和应用,以及辅助业务分析和决策。
另外,期货行业也是知识密集型行业,因为期货行业的业务规则很复杂还会经常变化,所以如何把知识沉淀到公司,作为公司知识的传承,还有在知识基础上做相应的智能化的应用都是非常重要的,所以我们认为知识图谱在我们这个行业会有很大的作用和意义。
知识图谱的优点
从技术方面,知识图谱的优点大概有四个方面——
第一,灵活的多维数据叠加
孤岛的数据其实是没有太多意义,也不利于数据的挖掘和分析。而图结构比较灵活,通过图的点面关系,可以把有价值的多维数据叠加和连接在一起,会有更大的意义。
第二,依托经验分析可解释
因为在图谱上模型设计和决策,它的计算路径和过程是很清晰的,可以使用图很方便地回溯推导过程,并可以和人的经验相互应证。
第三,数据的高效直观表达
图数据相对来说是比较容易可视化的,通过将知识图谱可视化展示给用户,可以使用户快速学习或者是发现新的知识。
第四,增强现有模型准确率
因为使用知识图谱技术把整个数据拉通之后,有助于数据的数据质量的提升,同时可以提高整个模型的准确率。
使用过程中面临的困境
在我们实践和探索过程中,我们也遇到了一些困难。总结起来主要有三点,第一个就是因为知识图谱技术相对来说比较新,在我们这个行业里应用几乎没有,所以我们只能去摸着石头过河去一步一步来,这个过程其实蛮艰辛的。
第二个就是人才,我们对传统的数据库还是有一些人才储备的,但是现有新的领域,招聘人员、储备人员、培养人员都需要很长的时间,这是第二个痛点。
第三个就是业务部门认知不到位,这也导致参与度不高,所以推进就没那么快,所以刚建的时候走走停停,推的过程就比较困难。
如何走出困境
面临这种困境,我们很庆幸就是说找到两家很好的合作伙伴,一个是今天的东道主悦数科技,我们认为他们是一家很好、很可靠的公司,悦数 图数据库除了稳定可靠、性能高效,另外还是国产的,而且是支持信创的。因为我们公司是证监会指定的信创试点单位,所以综合考虑我们认为「悦数图数据库」是最佳的选择方案。
另外要感谢的就是普适智能,因为我们是缺乏技术储备的,我们就比较依赖厂商的支持。普适智能是很专业地专注于知识图谱的应用,而且他们愿意深耕金融行业,对金融行业的业务模式有比较深的沉淀,所以他们可以给我们提供一站式的知识图谱平台的解决方案。
我们很多的业务场景都是悦数和普适在驻场和我们业务部门、技术部门一起配合很长时间梳理清楚,把业务搬到知识平台上,帮我们一步一步搭建起到现在这样一个平台,所以在此十分感谢这两个公司。
知识图谱在期货行业的应用场景
场景一:辅助投研
这是我们投研平台知识图谱应用的一个逻辑图。首先我们公司会有很多的内部数据,包括一些非公开的数据、行业的数据,还有一些外部数据,包括我们购买的很多商业数据源、数据研报等等。内外部数据打通之后,我们依托知识图谱平台实现了知识的沉淀复用,为后续产业链的研究,研报的生成,以及风险预测等等这些业务场景去赋能。
这是我们整个投研过程的描绘:研究员从发现线索出发,然后整理相关资料,经过分析研究框架的判断,最终形成投资决策和应用。
传统来说以前就是数据纯粹的罗列,检索也比较简单,然后我们用知识图谱平台可以实现自定义的投研主页,让用户每天高效获取他所需要的信息,而不需要去浪费过多时间去找线索。另外就是我们优化了检索算法和信息展示的交互界面,形成了更加贴合用户习惯的页面,提升了信息获取的效率和用户的使用感受。
之前数据比较割裂,因为搜集数据的渠道来源很多,也很不方便,通过这个平台把多维的数据整合,加上自有数据的上传,还有指标编辑等功能,实现了数据收集效率的大幅提升。
然后我们底层使用的是批流一体的图谱技术,让数据更加及时,拓展性也更强了。以前的分析判断过程是研究人员分析判断完全依赖个人经验,分析工具也比较少,导致效率比较低。我们通过机器学习来辅助数据的分析和挖掘,能够主动定位可能的分析方向,提高探索效率。
在决策和应用阶段,以前研究人员仅是能够生成这个报告,但是写的报告一个是精度可能比较低,另外它的准确度有可能会比较模糊,所以我们联通了用户的分析过程和报告产生的过程,然后能够快速获取研究分析所依赖的数据以及分析的流程,帮助他们去提升整个分析的逻辑,让数据和研究员的个人经验去做一个印证。有可能他的知识或者他的框架可能有错误和偏差,通过这样的数据分析也可以优化。
具体来说,辅助投研场景是这样的——因为期货行业里面有很多品种是存在比较强的相关关系的。比如说原油,它的衍生品有燃料油、化纤、化工类产品、沥青等等。
一个品种的价格变动,对相关的品种都是有影响的,所以我们投研平台第一步就要先要找到对应关系,把它在这个平台上用图谱形式去展示出来,然后通过一些模型的训练,除了找到影响的关系之外,还要找到影响的程度,就是它的权重。
当然了,这要经过大量的模型训练或者验证,通过找到一个品种价格变化传导到其他相关品种价格的关系,来辅助研究人员做相应的研判。
除了品种之间有较强的相关性之外,期货行业有些相关品种的产业链是比较强的,因为上游可能有很多层级,下游消费方可能也有很多的节点,所以我们以研究员的视角,在平台上绘制出整个产业链的结构图,目的是找到整个产业链的价格传导机制。
图上展示的就是能源板块的一个产业链。比如煤炭,除了国家的政策会影响到煤炭的生产之外,衍生品的情况也有影响。煤炭的衍生品也就是产业链下游,就是焦煤、焦炭,还有动力煤。动力煤是用来发电的,焦煤焦炭是用来炼钢的,第一步先练成粗钢,然后粗钢再炼成螺纹钢和热轧卷板,同时钢这个黑色品种又和铁矿石有关系,铁矿石除了炼钢之外,它还有像锰铁锰硅之类的一些副产,研究人员在这个平台上可以把这个品种的整个上下游产业链和它的关联关系去描绘出来。
对研究人员本身来说,他借助这个平台可以提升自己的知识,同时这个平台在使用过程中也会逐渐的增强自身的能力和价值。
场景二:金融事件分析
第二个场景是金融事件分析。因为期货行业的价格影响,除了既有的产业链模型之外,还有很多突发性事件,类似于黑天鹅事件, 所以舆情或者资讯对商品的价格可能也会有很大的影响。
所以我们也做了这样一个模型,而且这个模型会持续地去打上时间的标签,因为时间对行情的影响是有很大的影响的,越老的资讯可能影响度就更低一些。
举个例子,年初的俄乌战争对期货市场上的行情影响比较大,主要影响是两个,一个是镍这个品种大家可能都知道或者都看到过。因为俄罗斯是镍主要的供应国,发生战争之后,俄罗斯的镍不能够给中国出口,所以导致镍出现了极端的行情。同时,下游产品像不锈钢主要是用镍去生产的,所以间接也影响到不锈钢这个品种的价格走势。
所以我们希望能够以关联这个数据为基础,从期货行业固有的逻辑和实时事件双管齐下,通过平台实时洞察不同事件组合对特定商品价格影响的强度,同时也随时观察期货相关联的历史事件。
场景三:合规风控
场景三是合规风控,因为期货行业是一个高风险行业,所以无论是监管机构,还是期货公司自身的风控要求都十分严格,合规风控能力也是我们一个核心竞争力。
一般来说,我们有两类风控模型,一个是不同的客户在同一个 MAC 地址下,买卖期货合约品种以及它的交易行为时间点高度一致,它可能会存在“拖拉机账户”,也就说是一个客户操控了多个账户,这在期货行业里是不允许的。通过图上的交叉关系或者汇聚的密集程度,合规风控人员很容易地去判断出这类行为。
另外一类就是同一个账户,同时存在多个交易的 IP 和 MAC 地址,这类行为可能是有配资嫌疑的,结合其他数据和模型,我们可以更加精准地判断它是否存在配资的嫌疑。这对合规风控来说,极大提高了它的判断能力,我们可以对这类交易进行提前的干预,有效避免合规风险。
场景四:客户洞察
第四类场景是客户洞察,我们基于客户交易行为进行汇总,把他们进行一些社群划分,比如感兴趣交易哪些品种、感兴趣哪类研报,我们把这些作为划分依据,用于进行相对精准的一些推送。
因为期货行业服务的同质化比较严重,所以我们也希望能够通过数据来做数字化的运营,给客户提供差异化的服务和精准营销,实现更好的客户体验。
场景五:智能运维 AIOps
AIOps 是我们最近才梳理的一个场景。像我们公司有十几个机房部署在全国各地,可能有上千台服务器,整个交易系统会产生大量的数据和日志等,而且不同的机房不同的系统之间网络也都是通的,一些应用组件都是互相调用的关系,它其实本身就是一个巨大的网络。
所以我们把这些运维的数据,服务调用的数据,还有批量作业数据设备部署的数据以及系统运行的日志数据,整合到这个平台里,然后把他们的关系提取出来,实体也提取出来,构建这样一个智能运维的模型。
我们可以更加细化到具体的运维设计场景,比如说故障影响分析,当某个节点或设备出现故障时,和它有关联的系统或应用也可能会存在问题。接下来根据业务调用关系,它(故障)有可能会传达到别的系统,还有可能会影响到不同类型的客户,所以我们要把关系描绘出来,以进行一些系统切换或故障通知等等。
另外就是变更,因为业务系统 80% 的风险,或者说它的故障运维事件,都是因为这个系统升级变更造成的。升级某一个组件可能会影响到哪些系统、哪些客户需要哪些部门的人去做一些干预或协调、怎么更好地去应急等,我觉得在图谱上都可以实现,以便更好地指导我们的日常运营工作。
还有像系统架构的分析,像系统架构合不合理、有没有存在单点的故障,这些我觉得都可以在图谱这个平台上去实现。
场景六:网络安全
另外一个就是网络安全,这块我们觉得也是可以应用到的。因为我们现在有这样一个安全监控平台,它的规则是基于系统产生的日志,如果日志发生了或者是平台感受到它和现有的规则不匹配,系统会产生告警信息。但是告警信息是一种孤岛, 哪里出现问题哪里告警,但是我们希望能够把整个安全模型构建出来,然后找出故障的传导机制,进而分析出它可能会对哪些系统或者说网络安全环境造成影响。
另外一个就是攻击行为或者说病毒,通过知识图谱可以更加方便、有效地回溯它的路径或者预测攻击行为,这样能够更加智能化地去辅助我们的安全管理人员去做好安全管理工作。
所以安全知识图谱,我们认为是作为安全领域的一个专用知识图谱,它可以结合安全知识经验和数据发挥知识整合的优势,将离散分布的多元异构的安全数据组织起来,加速安全领域的智能化和自动化。
总结&期望
作为第一家和悦数图数据库合作的期货公司,我们很荣幸,也希望更多的技术专家能够关注到期货这个行业,能够输送人才去指导期货行业金融科技的发展。所以最后感谢悦数科技,谢谢大家。