如何用大数据炒股

简介:

我们如今生活在一个数据爆炸的世界里。百度每天响应超过60亿次的搜索请求,日处理数据超过100PB,相当于6000多座中国国家图书馆的书籍信息量总和。新浪微博每天都会发布上亿条微博。在荒无人烟的郊外,暗藏着无数大公司的信息存储中心,24小时夜以继日地运转着。


克托•迈尔-舍恩伯格在《大数据时代》一书中认为,大数据的核心就是预测,即只要数据丰富到一定程度,就可预测事情发生的可能性。例如,“从一个人乱穿马路时行进的轨迹和速度来看他能及时穿过马路的可能性”,或者通过一个人穿过马路的速度,预测车子何时应该减速从而让他及时穿过马路。


那么,如果把这种预测能力应用在股票投资上,又会如何?


目前,美国已经有许多对冲基金采用大数据技术进行投资,并且收获甚丰。中国的中证广发百度百发100指数基金(下称百发100),上线四个多月以来已上涨68%。


和传统量化投资类似,大数据投资也是依靠模型,但模型里的数据变量几何倍地增加了,在原有的金融结构化数据基础上,增加了社交言论、地理信息、卫星监测等非结构化数据,并且将这些非结构化数据进行量化,从而让模型可以吸收。


由于大数据模型对成本要求极高,业内人士认为,大数据将成为共享平台化的服务,数据和技术相当于食材和锅,基金经理和分析师可以通过平台制作自己的策略。


量化非结构数据

不要小看大数据的本领,正是这项刚刚兴起的技术已经创造了无数“未卜先知”的奇迹。


2014年,百度用大数据技术预测命中了全国18卷中12卷高考作文题目,被网友称为“神预测”。百度公司人士表示,在这个大数据池中,包含互联网积累的用户数据、历年的命题数据以及教育机构对出题方向作出的判断。


在2014年巴西世界杯比赛中,Google亦通过大数据技术成功预测了16强和8强名单。


从当年英格兰报社的信鸽、费城股票交易所的信号灯到报纸电话,再到如今的互联网、云计算、大数据,前沿技术迅速在投资领域落地。在股票策略中,大数据日益崭露头角。


做股票投资策略,需要的大数据可以分为结构化数据和非结构化数据。结构化数据,简单说就是“一堆数字”,通常包括传统量化分析中常用的CPI、PMI、市值、交易量等专业信息;非结构化数据就是社交文字、地理位置、用户行为等“还没有进行量化的信息”。


量化非结构化就是用深度模型替代简单线性模型的过程,其中所涉及的技术包括自然语言处理、语音识别、图像识别等。


金融大数据平台-通联数据CEO王政表示,通联数据采用的非结构化数据可以分为三类:第一类和人相关,包括社交言论、消费、去过的地点等;第二类与物相关,如通过正在行驶的船只和货车判断物联网情况;第三类则是卫星监测的环境信息,包括汽车流、港口装载量、新的建筑开工等情况。


卫星监测信息在美国已被投入使用,2014年Google斥资5亿美元收购了卫星公司Skybox,从而可以获得实施卫星监测信息。


结构化和非结构化数据也常常相互转化。“结构化和非结构化数据可以形象理解成把所有数据装在一个篮子里,根据应用策略不同相互转化。例如,在搜索频率调查中,用户搜索就是结构化数据;在金融策略分析中,用户搜索就是非结构化数据。”百度公司人士表示。


华尔街拿着丰厚薪水的分析师们还不知道,自己的雇主已经将大量资本投向了取代自己的机器。


2014年11月23日,高盛向Kensho公司投资1500万美元,以支持该公司的大数据平台建设。该平台很像iPhone里的Siri,可以快速整合海量数据进行分析,并且回答投资者提出的各种金融问题,例如“下月有飓风,将对美国建材板块造成什么影响?”


在Kensho处理的信息中,有80%是“非结构化”数据,例如政策文件、自然事件、地理环境、科技创新等。这类信息通常是电脑和模型难以消化的。因此,Kensho的CEO Daniel Nadler认为,华尔街过去是基于20%的信息做出100%的决策。


既然说到高盛,顺便提一下,这家华尔街老牌投行如今对大数据可谓青睐有加。除了Kensho,高盛还和Fortress信贷集团在两年前投资了8000万美元给小额融资平台On Deck Capital。这家公司的核心竞争力也是大数据,它利用大数据对中小企业进行分析,从而选出值得投资的企业并以很快的速度为之提供短期贷款。


捕捉市场情绪

上述诸多非结构化数据,归根结底是为了获得一个信息:市场情绪。


在采访中,2013年诺贝尔经济学奖得主罗伯特•席勒的观点被无数采访对象引述。可以说,大数据策略投资的创业者们无一不是席勒的信奉者。


席勒于上世纪80年代设计的投资模型至今仍被业内称道。在他的模型中,主要参考三个变量:投资项目计划的现金流、公司资本的估算成本、股票市场对投资的反应(市场情绪)。他认为,市场本身带有主观判断因素,投资者情绪会影响投资行为,而投资行为直接影响资产价格。


然而,在大数据技术诞生之前,市场情绪始终无法进行量化。


回顾人类股票投资发展史,其实就是将影响股价的因子不断量化的过程。


上世纪70年代以前,股票投资是一种定性的分析,没有数据应用,而是一门主观的艺术。随着电脑的普及,很多人开始研究驱动股价变化的规律,把传统基本面研究方法用模型代替,市盈率、市净率的概念诞生,量化投资由此兴起。


量化投资技术的兴起也带动了一批华尔街大鳄的诞生。例如,巴克莱全球投资者(BGI)在上世纪70年代就以其超越同行的电脑模型成为全球最大的基金管理公司;进入80年代,另一家基金公司文艺复兴(Renaissance)年均回报率在扣除管理费和投资收益分成等费用后仍高达34%,堪称当时最佳的对冲基金,之后十多年该基金资产亦十分稳定。


“从主观判断到量化投资,是从艺术转为科学的过程。”王政表示,上世纪70年代以前一个基本面研究员只能关注20只到50只股票,覆盖面很有限。有了量化模型就可以覆盖所有股票,这就是一个大的飞跃。此外,随着计算机处理能力的发展,信息的用量也有一个飞跃变化。过去看三个指标就够了,现在看的指标越来越多,做出的预测越来越准确。


随着21世纪的到来,量化投资又遇到了新的瓶颈,就是同质化竞争。各家机构的量化模型越来越趋同,导致投资结果同涨同跌。“能否在看到报表数据之前,用更大的数据寻找规律?”这是大数据策略创业者们试图解决的问题。


于是,量化投资的多米诺骨牌终于触碰到了席勒理论的第三层变量——市场情绪。


计算机通过分析新闻、研究报告、社交信息、搜索行为等,借助自然语言处理方法,提取有用的信息;而借助机器学习智能分析,过去量化投资只能覆盖几十个策略,大数据投资则可以覆盖成千上万个策略。


基于互联网搜索数据和社交行为的经济预测研究,已逐渐成为一个新的学术热点,并在经济、社会以及健康等领域的研究中取得了一定成果。在资本市场应用上,研究发现搜索数据可有效预测未来股市活跃度(以交易量指标衡量)及股价走势的变化。


海外就有学术研究指出,公司的名称或者相关关键词的搜索量,与该公司的股票交易量正相关。德国科学家Tobias Preis就进行了如此研究:Tobias利用谷歌搜索引擎和谷歌趋势(Google Trends),以美国标普500指数的500只股票为其样本,以2004年至2010年为观察区间,发现谷歌趋势数据的公司名称搜索量和对应股票的交易量,在每周一次的时间尺度上有高度关联性。也就是说,当某个公司名称在谷歌的搜索量活动增加时,无论股票的价格是上涨或者下跌,股票成交量与搜索量增加;反之亦然,搜索量下降,股票成交量下降。以标普500指数的样本股为基础,依据上述策略构建的模拟投资组合在六年的时间内获得了高达329%的累计收益。


在美国市场上,还有多家私募对冲基金利用Twitter和Facebook的社交数据作为反映投资者情绪和市场趋势的因子,构建对冲投资策略。利用互联网大数据进行投资策略和工具的开发已经成为世界金融投资领域的新热点。


保罗•霍丁管理的对冲基金Derwent成立于2011年5月,注册在开曼群岛,初始规模约为4000万美元, 2013年投资收益高达23.77%。该基金的投资标的包括流动性较好的股票及股票指数产品。


通联数据董事长肖风在《投资革命》中写道,Derwent的投资策略是通过实时跟踪Twitter用户的情绪,以此感知市场参与者的“贪婪与恐惧”,从而判断市场涨跌来获利。


在Derwent的网页上可以看到这样一句话:“用实时的社交媒体解码暗藏的交易机会。”保罗•霍丁在基金宣传册中表示:“多年以来,投资者已经普遍接受一种观点,即恐惧和贪婪是金融市场的驱动力。但是以前人们没有技术或数据来对人类情感进行量化。这是第四维。Derwent就是要通过即时关注Twitter中的公众情绪,指导投资。”


另一家位于美国加州的对冲基金MarketPsych与汤普森•路透合作提供了分布在119个国家不低于18864项独立指数,比如每分钟更新的心情状态(包括乐观、忧郁、快乐、害怕、生气,甚至还包括创新、诉讼及冲突情况等),而这些指数都是通过分析Twitter的数据文本,作为股市投资的信号。


此类基金还在不断涌现。金融危机后,几个台湾年轻人在波士顿组建了一家名为FlyBerry的对冲基金,口号是“Modeling the World(把世界建模)”。它的投资理念全部依托大数据技术,通过监测市场舆论和行为,对投资做出秒速判断。


关于社交媒体信息的量化应用,在股票投资之外的领域也很常见:Twitter自己也十分注重信息的开发挖掘,它与DataSift和Gnip两家公司达成了一项出售数据访问权限的协议,销售人们的想法、情绪和沟通数据,从而作为顾客的反馈意见汇总后对商业营销活动的效果进行判断。从事类似工作的公司还有DMetics,它通过对人们的购物行为进行分析,寻找影响消费者最终选择的细微原因。


回到股票世界,利用社交媒体信息做投资的公司还有StockTwits。打开这家网站,首先映入眼帘的宣传语是“看看投资者和交易员此刻正如何讨论你的股票”。正如其名,这家网站相当于“股票界的Twitter”,主要面向分析师、媒体和投资者。它通过机器和人工相结合的手段,将关于股票和市场的信息整理为140字以内的短消息供用户参考。


此外,StockTwits还整合了社交功能,并作为插件可以嵌入Twitter、Facebook和LinkedIn等主要社交平台,让人们可以轻易分享投资信息。


另一家公司Market Prophit也很有趣。这家网站的宣传语是“从社交媒体噪音中提炼市场信号”。和StockTwits相比,Market Prophit更加注重大数据的应用。它采用了先进的语义分析法,可以将Twitter里的金融对话量化为“-1(极度看空)”到“1(极度看多)”之间的投资建议。网站还根据语义量化,每天公布前十名和后十名的股票热度榜单。网站还设计了“热度地图”功能,根据投资者情绪和意见,按照不同板块,将板块内的个股按照颜色深浅进行标注,谁涨谁跌一目了然。



原文发布时间为:2015-01-06

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 机器学习/深度学习 人工智能
漫画:什么是大数据?
漫画:什么是大数据?
287 0
漫画:什么是大数据?
|
数据采集 弹性计算 数据可视化
|
存储 分布式计算 运维
揭秘“撩”大数据的正确姿势:生动示例解说大数据“三驾马车”
谷歌三驾马车如何解决海量数据存储与计算问题。
|
大数据
你是如何被“大数据”洗脑的?
在这个大数据盛行的时代,到底是应该相信常识还是相信时代呢?
1889 0
|
存储 数据可视化 大数据
关于大数据你应该了解的五件事儿
本文从基本概念、行业趋势、学习途径等几个方面介绍了大数据的相关内容,适合对大数据感兴趣的读者作为入门材料阅读。
2203 0