基于大数据的量化基本面分析一定有更好的预测吗?

简介:

本文不是讨论如何使用量化基本面分析法预测公司股价。而是以郝伯特·西蒙的过程理性理论结合AlphaGo算法步骤探讨量化基本面分析法的分析方式。

量化基本面分析法(Quantamental)将量化和基本面两种方法结合起来,是近几年随着市场电子化、大数据、自然语言处理技术快速发展产生的新的基本面分析法。现在已经是DT时代,发挥海量数据价值已成为可能。以下讨论都是假设已合法的收集相关数据包括交易、消费、关注度、GPS、卫星数据等等。

一、基于大数据的量化基本面分析法一定有更好的预测吗?

一般来说,我们会将整个经济看作一个大的动态市场系统,其中又会分割为一些子市场系统,可以认为每一个子市场系统中参与方与相关变量彼此之间的联系要比其他子系统中变量的联系要更强些。所以每个子市场系统中的参与方以及变量独立于其他子系统相对均衡动态移动。36大数据(http://www.36dsj.com/)

短期均衡及每个子系统显著主导的行为往往是波动而不可预期的。但长期动态均衡往往是可预期的,既虽然每个子系统中的变量一起动态移动,但保持了每个子系统间的相对均衡。既从微观角度考虑的时候现象是变化的,而从宏观角度考虑时,现象是不变的。现在基于之前的数据假设,我们有了关于各个子市场系统方方面面的数据,自然可以更好地统计长期动态均衡中那些稳定的关系,从而得到更加可靠的基本面分析结果。

但与此同时,我们也能听到另一种声音。在《信号与噪声》[1]书中,作者认为在大数据时代信息量呈指数增长,需要验证的假设也正在以同样的速度增长。数据中那些有意义的因果关系组合少之又少,增长的速度也不及信息本身的增长速度快。大多数数据都只是噪声。人们很难从干扰他们的噪声中分辨出有用的信号。

数据展示给我们的通常都是我们想要的结果,而且我们通常也默认这种皆大欢喜的结果。作者纳特•西尔弗还引用莎士比亚剧作中的话“人们照着自己的意思解释一切事物的原因,实际上却和这些事物本身的目的完全相反”。更大量信息能帮助我们更好预测吗?36大数据(http://www.36dsj.com/)

当然我们知道,通过深度学习和大数据,一定能得到一个更优的模式识别效果。但前提是我们假设未来和历史特征向量是符合同一概率分布。未来当然不会和历史是同一概率分布,就像彼得·林奇说的“你无法从后视镜中看到未来。”哈耶克也说过“我们做出的预测有可能被否定,因为他们只具有经验的意义。”这里也不想用深度学习成果来证明大数据在预测方面的效用。

纳特•西尔弗在其书中接下来说:”信息只有在恰当的环境下才会成为知识,没有环境,我们就无法从噪声中区分信号,不断犯错,不断尝试,这或许是贝叶斯定理应用起来最容易的一个原则:进行大量的预测。”[1]”贝叶斯定理告诉我们,任何时候获得新信息,我们都应该更新自己的预测。36大数据(http://www.36dsj.com/)

简单地说就是,不断犯错,不断尝试。真正’拥有’大数据的公司,比如谷歌公司,并不会在建立模型的问题上花费太多时间。它每年会进行上千次实验,并在真正的客户身上检验它的想法。”[1]在谷歌等互联网公司都会有完善AB测试框架,以方便不同功能快速部署AB测试,通过客户使用效果反馈不断迭代完善功能。我们知道AB测试本质上是个分离式组间实验,不断获取客户反馈既新信息持续优化模型效果。

同样我们可以认为基于大数据的量化基本面分析法,不只是用大数据补充之前基本面分析法所用数据不足,其也是通过量化和更及时的数据不断修正预测模型的过程。

二、基于过程理性的量化基本面分析法

接下来,将以郝伯特·西蒙的过程理性理论结合AlphaGo算法步骤探讨量化基本面分析法的步骤[2][3]:

1.设想可选方案集合,以及可能后果集合。

还是基本面分析法经常需要分析的那些问题,包括上下游、销量、成本、利润、财务比率等。设想不同预测值下的可选方案与可能后果。

2.评估可能后果集合的概率。

以上两步,过程理性和贝叶斯定理要求基本一致。都需要基于历史统计得到各可选方案的概率。这种预测被称作“初始观点”。”从理论上讲,我们希望将初始观点建立在过去的经验最好是社会经验的集合之上。”[1]

3.改进预测的数据,获得新数据,从而改进预测模型。

新信息和原有信息结合起来的理性过程也是应用了贝叶斯定理。同样,基于大数据的量化基本面分析法可以更及时的收集最新数据以及结果反馈来改进预测模型。

4.预测模型结果将会影响可选方案集合,以及可能后果集合,从而持续优化决策过程。

持续优化的预测模型,即是一个预期过程,可以进一步减少不确定性以及消剪了行动域即可选方案集合。这点本质上也是缓冲预测误差影响,和量化中动态对冲,不断调整风险敞口的方式是一致的。

5.从可能后果集合中,根据预期目标,选择满意的可能后果集合子集。并从可选方案集合中得到满意的可能后果集合子集对应的方案。

在AlphaGo中使用蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS)结合估值网络(Value Network)来做可选方案集合选取。其决策时也可以认为是符合过程理性的。比方AlphaGo会走一步导致赢面更小,但赢的概率更大的棋。这太不优雅了,但修改对局势的期望,减少了搜索时的空间。

而投资人、分析师会基于之前的经验与直觉做这个决策。依托的是人类的长期记忆和人类个体和集体的学习能力。纳特•西尔弗也认为从噪声中区分信号既需要科学知识,也需要直觉,那是基于人类长期记忆的。

郝伯特·西蒙对比过国际象棋世界冠军十年间不同的下法,认为这是这是全部职业强选手的集体经验而积累起来的知识的结果。专家和新手区分不仅仅是前者具有大量和多样的信息,而且是他的直觉经验使他能发现他所面对的形势中的熟悉模式,长期记忆中储存大量的棋子的共同模式,通过识别这些模式,从长期记忆中重新找到大量相关信息。

不论如何,这是一个过程决策,正如郝伯特·西蒙强调的“抉择不是由问题的客观特征所唯一确定的,而是取决于用来达到决策的启发式过程。”[2]36大数据

三、结论

基于大数据的量化基本面分析不只是弥补了公司季报时间上空白,也不只是通过方方面面的数据提供更多特征得到更好的基本面分析预测结果。其本身也是一个符合过程理性的分析方式。介于其也是随着大数据的发展刚刚起步的新的分析方法,如何不断借鉴量化、基本面分析法、大数据、机器学习等各方面的成果还有待进一步探讨。就像黄霑歌词里写的“论武功 俗世中不知边和高 或者 绝招同途异路”。


本文作者:袁峻峰

来源:51CTO

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
SQL 分布式计算 数据可视化
Tableau与大数据:可视化工具在大数据分析中的应用
【4月更文挑战第8天】Tableau是一款领先的数据可视化工具,擅长于大数据分析,提供广泛的数据连接器,支持多源整合。它与Hadoop、Spark等深度集成,实现高效大数据处理。Tableau的拖拽式界面和交互式分析功能使得非技术人员也能轻松探索数据。在实战中,Tableau用于业务监控、数据storytelling和自助式分析,推动数据民主化,提升决策效率。未来,Tableau将持续创新,扩展生态系统,并保障数据安全与合规性,助力企业最大化数据价值。
40 0
|
3天前
|
数据可视化 大数据 Python
python大数据分析处理
python大数据分析处理
8 0
|
3天前
|
机器学习/深度学习 人工智能 大数据
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
|
9天前
|
存储 机器学习/深度学习 数据采集
大数据处理与分析实战:技术深度剖析与案例分享
【5月更文挑战第2天】本文探讨了大数据处理与分析的关键环节,包括数据采集、预处理、存储、分析和可视化,并介绍了Hadoop、Spark和机器学习等核心技术。通过电商推荐系统和智慧城市交通管理的实战案例,展示了大数据在提高用户体验和解决实际问题上的效能。随着技术进步,大数据处理与分析将在更多领域发挥作用,推动社会进步。
|
12天前
|
存储 运维 监控
|
12天前
|
存储 数据可视化 大数据
大数据分析与处理:探索数据的深层价值
大数据分析与处理:探索数据的深层价值
38 2
|
22天前
|
存储 分布式计算 大数据
使用 Java 进行大数据处理和分析
【4月更文挑战第19天】本文探讨了Java在大数据处理中的关键作用,涉及Hadoop框架、HDFS数据存储、MapReduce编程模型及Spark等数据分析工具。还包括数据预处理、可视化、性能优化、安全与隐私保护以及完整处理流程。Java在金融、医疗、电商等领域有广泛应用,为大数据洞察和决策提供支持,但同时也需要开发者具备深厚的技术背景和实践经验。
|
22天前
|
缓存 大数据 Python
python利用代理IP分析大数据
python利用代理IP分析大数据
|
29天前
|
人工智能 分布式计算 安全
Azure Databricks实战:在云上轻松进行大数据分析与AI开发
【4月更文挑战第9天】探索Microsoft Azure的Databricks服务,体验其在大数据分析和AI开发中的高效性能。此平台简化流程,提升效率,适用场景包括数据湖分析、实时流处理和AI开发。核心优势在于一体化平台设计、云原生的弹性伸缩和企业级安全保障。Databricks提升研发效能,无缝集成Azure生态,且持续创新,是应对大数据挑战和加速AI创新的理想工具。
34 1
|
1月前
|
数据采集 数据可视化 算法
Python在大数据分析中的力量:Pandas、NumPy与SciPy
【4月更文挑战第8天】Pandas、NumPy和SciPy是Python数据分析的核心,构成其在大数据领域的重要地位。Pandas提供高效的数据操作,包括DataFrame和Series结构,以及数据清洗和预处理工具。NumPy专注于数组计算,提供高性能的ndarray和数学函数。SciPy则包含专业算法,适用于科学与工程计算。这三者协同工作,覆盖数据分析的全过程,形成强大的Python生态系统。随着社区的不断创新和新库的涌现,如Dask和CuDF,Python在大数据分析领域的潜力将持续增长。
39 0

热门文章

最新文章