服务量化投资,基于知识图谱的事件表征框架研究入选SIGIR

简介: 瞰点科技和上海交大的研究团队提出了一种服务于量化投资的基于知识图谱的事件表征框架,称为 Knowledge Graph-based Event Embedding Framework(KGEEF)。通过在真实股票市场上进行的大规模实验表明,本文提出的方法显著有助于量化投资的策略提升。


研究表明金融市场对于新闻事件的反应具有滞后性,并且相同事件对不同股票在不同时间段内的影响程度都是有差异的。如何将富含信息量的新闻事件融合进量化投资模型中是工业界与学术界面临的共同挑战。针对上述问题,瞰点科技与上海交大研究团队共同研发了基于知识图谱的事件表征框架来服务于量化投资模型策略。该成果发表于 ACM SIGIR 中,由于在表征中嵌入了金融领域知识图谱,所以使用上述表征构建的投资策略在真实股票市场中获得了良好的收益表现。

微信图片_20211206105543.jpg

简介


金融市场的价格波动是对新闻和事件的一种反应。通常来说,从海量新闻中获取有效的事件表征能辅助投资者采取更合理的决策。近年来,一些研究开始应用自然语言处理(NLP)技术来学习新闻事件的分布式表征并基于此构建事件驱动的交易策略。

经典方法(例如 bags-of-words、命名实体)可以捕获事件元组中的基础特征,但是这些特征并没有反应事件之间的内在关系。随着表征学习和 NLP 技术的发展,研究者开始利用深度学习等技术来表征结构化事件,这样相似的事件即可以在特征空间中更加接近。然而股票的价格波动不仅取决于其自身的情况,与其关联的企业所涉及的事件也高度相关。因此,如何从这种彼此关联的事件信息中学习有效表征是量化投资领域的重要课题。

微信图片_20211206105601.jpg


论文地址:https://dl.acm.org/doi/abs/10.1145/3397271.3401427

在本文中,瞰点科技和上海交大的研究团队提出了一种服务于量化投资的基于知识图谱的事件表征框架,我们称之为 Knowledge Graph-based Event Embedding Framework(KGEEF)。该框架首先从原始新闻文本中提取结构关系和事件元组,将关系知识和属性知识存储在金融知识图谱(FinKG)中,其中节点表示实体,边对应实体之间的关系。随后,KGEEF 将知识图谱与事件一起学习联合表征,用于后续量化投资预测模型。最后,通过在真实股票市场上进行的大规模实验表明,本文提出的方法显著有助于量化投资的策略提升。

模型和方法

微信图片_20211206105605.jpg

图 KGEEF 框架


本文提出的方法主要包含三层:

1)多源输入层:将原始文本转换为事件元组(Event Tuple)、关系元组(Relation Tuple)和知识图谱(FinKG)。本文使用序列学习模型来检测新闻文本中的实体关系,然后将检测出的实体关系存储在知识图谱中。

2)事件表征学习层:将预训练的事件元组、关系元组和节点在知识图谱中的表征作为输入,得到事件层(Event Layer)、图谱层(Graph Layer)、关系层(Relation Layer)的中间特征。随后使用 Multi-source Attention 网络学习多个来源的共同特征作为输出。

3)检测与优化层:以实体、事件和图谱特征为输入,学习其是一个真实事件或关系的可能性,并且采用事件损失和关系损失联合优化的方法对模型进行训练。

微信图片_20211206105609.jpg

图 量化投资事件表征工作流


上图展示了量化投资事件表征的工作流程,主要包含四个模块:

  • 历史语料库图谱建设模块(KG Construction):通过关系检测模型从原始新闻语料库生成实体关系。如果检测到关系,则在知识图谱中储存下来。
  • 事件表征学习模块(Event Presentation Learning):该模块以事件和知识图谱作为输入,生成训练好的模型以及相应的表征词典。
  • 新事件处理模块(New Event Process):从新闻数据中提取事件元组,然后利用构建的知识图谱和表征词典获得相应事件和实体的特征。
  • 量化投资模块(Quantitative Investment):以事件和图谱的联合特征作为输入,输出用于量化投资的预测推断。


实验
最后,该研究通过实验来评估 KGEEF 的有效性,下表中展示了事件相似度评价和量化投资任务中事件表征的有效性实验结果。

微信图片_20211206105613.jpg

表 事件表征相似度任务结果


KGEEF 框架同时也部署到了新闻资讯平台的微信小程序中,下图展示了其运行的效果。

微信图片_20211206105616.jpg

图 模型在移动程序的部署


图 (a) 显示了聚合之后的热点新闻事件。图 (b) 展示了中国石油天然气集团公司 (CBPC: 601857) 的价格以及模型抽取出的相应事件。在相关事件视图(c)中,该研究的模型同时抽取出了关于塔里木油田 (上游工厂)、中国海洋石油总公司(竞争对手) 和熔喷布 (石化工业下游产品) 需求增加的消息。该例子展示了本文提出的模型在事件自动抽取和表征方面的有效性。

结论


金融事件的高质量表征对于事件驱动的量化投资具有重要价值。在本文中,瞰点科技研究团队提出了基于知识图谱的事件表征框架,用于学习金融领域中的事件和实体间的内在关系,例如产业链上下游关系。并且通过实验验证了所提出的方法在金融事件检测、量化投资策略构建等方面的有效性。

微信图片_20211206105620.jpg


参考文献[1]. Yao, Liang, Chengsheng Mao, and Yuan Luo. "Graph convolutional networks for text classification." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. 2019.[2]. Kewei Hou. 2007. Industry information diffusion and the lead-lag effect in stock returns. The Review of Financial Studies 20, 4 (2007), 1113–1138.[3]. Swarnadeep Saha et al. 2018. Open information extraction from conjunctive sentences. In Proceedings of the 27th International Conference on Computational Linguistics. 2288–2299.[4]. Yankai Lin, Shiqi Shen, Zhiyuan Liu, Huanbo Luan, and Maosong Sun. 2016. Neural relation extraction with selective attention over instances. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2124–2133.[5]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 4171–4186.[6]. Shirui Pan, Jia Wu, Xingquan Zhu, Chengqi Zhang, and Yang Wang. 2016. Triparty deep network representation. Network 11, 9 (2016), 12.[7]. Aditya Grover and Jure Leskovec. 2016. node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 855–864.

相关文章
|
机器学习/深度学习 自然语言处理 数据挖掘
【论文精读】TNNLS 2022 - 基于深度学习的事件抽取研究综述
【论文精读】TNNLS 2022 - 基于深度学习的事件抽取研究综述
|
人工智能 搜索推荐 算法
爱思唯尔的KBS——模板、投稿、返修、接收的总结
爱思唯尔的KBS——模板、投稿、返修、接收的总结
3568 3
GoLand创建项目过程
GoLand创建项目过程
222 0
|
10月前
|
PHP 开发工具 开发者
Xdebug在PHP中的应用
Xdebug 是一款非常实用的 PHP 调试工具,它为开发者提供了丰富的功能和便利,帮助开发者更高效地进行调试工作。熟练掌握 Xdebug 的使用方法,对于提高 PHP 开发质量和效率具有重要意义。
250 56
|
10月前
|
数据采集 前端开发 API
基于Qwen2大模型实现的中药智能化筛选助手
本文介绍了利用大语言模型微调技术在中药方剂智能化筛选与优化中的应用。项目涵盖微调环境搭建、数据预处理、智能体构建及效果评估等环节,展示了模型在生成新中药方剂上的创新能力和实用性。
基于Qwen2大模型实现的中药智能化筛选助手
|
10月前
|
设计模式 数据可视化 Java
如何在 IDEA 中设置类路径
在 IntelliJ IDEA 中设置类路径,可以通过项目结构配置或模块设置来添加所需的库和依赖。具体步骤包括打开项目结构对话框、选择模块、添加类路径等。
1767 18
为您的网站添加通用网站底部美化代码
为您的网站添加通用网站底部美化代码
328 1
为您的网站添加通用网站底部美化代码
|
机器学习/深度学习 人工智能 算法
社交网络分析4(上):社交网络链路预测分析、Logistic回归模型、LLSLP方法(LightGBM 堆叠链路预测)、正则化方法、多重共线性
社交网络分析4(上):社交网络链路预测分析、Logistic回归模型、LLSLP方法(LightGBM 堆叠链路预测)、正则化方法、多重共线性
721 0
社交网络分析4(上):社交网络链路预测分析、Logistic回归模型、LLSLP方法(LightGBM 堆叠链路预测)、正则化方法、多重共线性
|
Python
Python教程:一文了解如何使用Lambda 表达式和 filter函数实现过滤器
在 Python 中,Lambda 表达式是一种匿名函数,也就是没有名称的函数。它允许您快速定义简单的单行函数,通常用于函数式编程中的一些场景,例如在高阶函数中作为参数传递。
567 2
|
存储 网络协议 网络安全
对象存储oss使用问题之私有图片url在服务器中无法直接打开如何解决
《对象存储OSS操作报错合集》精选了用户在使用阿里云对象存储服务(OSS)过程中出现的各种常见及疑难报错情况,包括但不限于权限问题、上传下载异常、Bucket配置错误、网络连接问题、跨域资源共享(CORS)设定错误、数据一致性问题以及API调用失败等场景。为用户降低故障排查时间,确保OSS服务的稳定运行与高效利用。
2282 0