寻找阿托卡之旅:量化投资一席谈

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:
体育 系列新增3篇文章


主讲嘉宾:董艺婷

主持人:中关村大数据产业联盟 副秘书长 陈新河

承办:中关村大数据产业联盟


嘉宾介绍:

现任光大富尊投资有限公司研究总监。富尊是一家纯量化管理的投资公司,管理团队为前国信证券金融工程研究团队,曾连获国内金融工程最佳团队荣誉,是国内本土组建时间最长的量化团队,团队核心成员从2005年起就参与国内市场衍生品创新工作,对本土金融创新和量化投资的痛全程感受。

以下为分享实景全文:

现在我所在的公司 是一个完全以量化模式投资和管理的公司。

作为国内最早涉猎量化投资的团队,我们的状态很有意思,许多工作都是自己从0开始动手,经历了很多“凑合”的过程,也看到很多业务、市场、需求,从我们意识到,到最终实现,经历了很长很痛苦的过程。当然,好处是,这样我们总能知道三年后市场需要什么。

  

下面的内容 有很多可能和技术关系不大大家权当娱乐哈。

阿托卡,是一艘神秘的沉船,许多人相信,找到它,就找到了一个巨大的宝藏,没有人知道它沉睡在哪里。我一直觉得,量化投资就是这样一种工作——数据就是我们的海洋。找到阿托卡,除了我们必须付出的努力,还需要很多因素:谨慎、冷静、勇气,和“远在星辰之外的运气”。这样说似乎遗漏了技术——这正是我想表达的:技术是世界的一部分,它使世界更美好(也许?),然而它不能改变世界的规律,作为一个“依赖规律”生存的职业,我希望技术是我们手里的矛和盾,但不是我们的灵魂——而它让我们的灵魂更自由,更高效(在我可以承受的成本下)。



讨论技术问题,首先要看这些技术所在的环境。这是我始终成不了技术专家的最大问题——斤斤计较,想得太多。对于一个始终在国内市场做量化投资的人来说,我想先描述一下自己的生存环境和一路走来的感受。


09年,从“衍生品业务”的梦中醒来,沉浸在失业的焦虑中时,领导说,我们做量化投资研究去吧。我说好吧——可是我会么?一开始只有4个人,最起码我自己写的东西现在看来惨不忍睹,没有成熟的研究流程,没有合理的方法论讨论,可行性也堪忧。感谢那些在会议室快睡着但仍忍耐我的客户——让我们得以成长至今。然而也正是因为如此,我们承受了太多行业发展中的“技术外”或者叫做“业务外”因素带来的痛苦——收获是现在对任何问题的思考,都不再是一个独立的思考。请大家不要忽略上图中“数据”和“系统”之外的其他四个饼——如果没有它们的保护,我们随时会失业。我们想得太多,恰恰是因为我们珍惜。


2010年和2011年,当我们的团队如日中天(请原谅这个破词)的时候,我写过两篇文章,叫做通往量化投资的成功之路,每年一篇,用于分析行业发展状况,预测未来的业务领域。几年时间过去,其中的事情几乎都变成了现实,我看见很多人在雀跃,认为对冲的时代来了,“我们的时代”来了,然而我心里没有一丝高兴的感觉——这意味着更为激烈的竞争,更低的边际效应——甚至该哭吧?




讲完上面那些废话,下面可以好好讲讲,在这样的心态下,对数据和系统,我是怎么想的了。


其实上面这两张图的标题已经表明了一切。里面的每一块内容在大家看来都那么清晰明了,简单得就像今天中午的午饭,有一碗米饭,一碗汤,两碟素菜,半条鱼和一块大排。然而在我心里他们是一个复杂如宇宙的存在——无数细节问题,足够写一本可以砸断脚的书。


最起码,有那么几个不算太细节的问题:1)从哪儿来?2)能用吗?3)购买成本?4)存储和维护成本?5)预处理成本?6)其它应用中的技术问题——怎么用?怎么存?怎么保障安全?


正因为如此,每遇到一个系统商,或是研究平台提供商,或是策略提供商,我首先会问上述关于数据的问题,还会问下面要讲到的精度问题。在一次业界交流会上,对面的一位友军实在受不了我的絮叨,提醒我“对精度的过分要求如果和低智商匹配,就会有精神分裂的危险。”



和精神分裂相比,我觉得还是命比较重要。

我不知道在其它领域你们能否得到关于数据的上述服务,最起码我得不到,或者买不起。因此我们只能靠人肉去做这些工作。当一个人带着进入核爆模拟实验室的预期来到我们的工作环境时,当我让他们花几个月的时间去看数据,去做一次上述流程的时候——我在他们眼里看到了深深的失望,和被伤害的委屈——父母老师精心培养了二十余年的精英,就是干这个的吗?可是我也很委屈,如果连一个还没毕业的本科学生都能从“公开信息来源”比对出这个数据库的明显错误,这个数据库凭什么要我付出那么高的年费?我们所赖以生存的大数据,到底是个什么东西?


有人喜欢用“模糊的准确”和“精确的错误”来表达对他们的态度:对数据吹毛求疵没啥必要。我想有两件事需要说清楚:1.在资本接近零和的博弈中,有模糊的准确就一定有模糊的不准确,而后者的后果,我无法承担。2.对数据吹毛求疵,是希望消除不必要的“误差”而不是“错误”。错误就是错误,模糊和精确都可能带来错误。误差却是一个可怕的东西,它在不知不觉中可以传导成一个巨大的错误,人人都知道蝴蝶和飓风的故事,把它时刻放在心上的人却很少。


如果你忍耐了1到3年,把“吹毛求疵”这件事做好了,你就会是本土量化投资领域最有竞争力的TOP20%之一。花在这上面的时间一点儿都不会浪费——当你知道为什么数据必须是那个样子的时候,你已经懂得了很多人为什么会栽跟头,或者说,他们为什么亏钱?接下去,你可以进入一个灵魂自由的领域了。




其实上面这个流程里有很多事我也还没做。这是我理想中的后台部门能为我解决的一个工作环境。到现在为止我还在为之努力——没钱,也没人。我从未想过像我这样一个人会为这些事情烦恼(我的意思是从小到大我其实一直被认为是粗心直率的);然而现在这已经变成了我的理想之一(其它理想可能包括世界和平,蓝天绿水,动物快乐等等)。



不可避免的还是讲讲系统吧。我的检验标准暴力而直接。这里说的钱,千万不要认为只是“收益率”——它的含义是:管理成本、Quant的工作效率、交易速度和成本、风险控制的准确度和效率、资源分配的优化程度等等。而一个好的架构师,不但要懂数据,还要懂需求,知道我们这些人打算拿着数据干啥去——很多架构师不耐烦听我讲这个,或者以为他们所理解的就是我讲的,我一直认为这种工作流程是本末倒置的——当你不知道目的地在哪儿的时候就买好了路虎,可是我只不过想通过一条独木桥到对岸去。



这个,同属我的理想之一。是我在问过几个系统商同一个问题之后忍无可忍的结论,其它躺枪的系统商勿恼。


实际上我的不满并非完全来自于速度,相反,我并不追求没有必要的高速——因为那可能是以高成本为代价的,还有可能是以牺牲风控为代价的。我只是希望,无论是系统商还是我们自己,都知道时间去哪儿了——每一部份的耗时,做一个敏感性分析,并没有那么难,为什么不去做,而是选择用成本和风控来作为速度的代价?


系统商和数据商遇到我这样的客户会觉得非常烦——他们已经加班了很久,老板的利润之刀就悬在脖子上。实际上我的状态也好不到哪儿去,但我坚持,要做好一件事情,咱们得有个合理的流程,流程之一就是:了解客户需求-〉理解客户需求-〉用最高效率和最低成本完成这个需求。而不是先造出一辆车再来问我到底在什么路上开?当我想问问这辆车的汽油在某种路况和速度下的消耗速度时,你说这谁知道?


下面这张图,是我的另一个理想(呃,理想太多了)——通过系统让量化投资成为一份幸福而安全有效的工作。事实上基于这个理想的系统架构,有两个。


其中一个已经写完了三年,在其中无数人找我谈过它的商用,现在仍然没有落实:两年前是因为它太超前,客户还没培育起来,现在是因为匹配的数据和系统太贵,而我不敢冒险把技术架构给任何没有商业合同约束的潜在合作伙伴。另一个的架构搭好了有半年,我们仍在人肉准备基础数据中——


这两个系统将用于量化策略(或其它一切可以用确定资产组合来表达的策略)的评价、管理、风控、验证、配置...等等,总之就是解放一个人的思想,让它自由而快乐地思考,大量计算和验证的工作,都交给系统。(前提是,数据可靠,接口统一,函数体系符合业务逻辑,速度足够快,输出足够友好)


要达到上述目标,在我眼里,技术,是最后一个需要考虑的问题,因为每一个步骤,我们都知道howto do。现在的问题是 how to cost 和 who to do it?


再扯得远一点,当很多人发现他们也需要这样一个东西,开始往里投钱的时候,想做no1 已经没有那么简单了。我们需要的,就是从现在,就开始。


最后,请大家原谅,在这个技术大牛满天飞舞的群里,我讲了那么多和技术无关的东西。然而我相信你们懂——我只是希望数据和技术,在最懂和最爱它们的手里,在一个灵魂自由思想自由的环境里,把它们用在刀刃上,做该做的事情。希望我的几个理想能够一一实现,也希望它们给你一些启发,谢谢你们对工作的热情,这两周我总是在十点以后躲在卫生间里看这个群的演讲,它们让我重燃实现理想的希望,谢谢!


[互动内容]

Q1 xiaozhe: RW 国内的量化投资现在大概处于一个啥阶段?

董艺婷:作为其中最早的实践者之一 我们现在还处于小米加步枪的状态,2011年有人说是对冲元年,到现在也没人说量化元年,对冲不等于量化,量化也不等于对冲.


xiaozhe: 指期货还是权益投资?

董艺婷:量化投资其实是个极为烧钱的业务。关于这个问题,我和白老师讨论过。我并不赞成过度烧钱,但现在的问题是基础的环境和制度和商业配套均无。这才是it业界需要关注的机会吧。无论期货还是权益 这些都只是资产配置工具而已啊.甚至包括债券 货币 其他衍生品otc都算在里面.它们都只是量化地实现风险收益的过程中可能用到的资产工具而已。实际上国外的先例极多,各种高大上的系统和数据供应商,针对对冲基金的。技术上,软硬件上都用到了各种能想象的顶级配置。但前提是,金融行业发展到了需要这么做的阶段。而对我们来说,这一切刚刚开始,什么都没有。我们也可以烧钱,前提是证明烧钱的结果赚到更多的钱。这个边际效应是下降的。初期高边际,容易占领高地的时候,实际上是周边供应商的最好时机。然而能这么想的人很少,大家可能期待我讲,我们是怎么投资的,怎么做这个事情的怎么赚钱的。。。实际上那些“idea”在整个工作中所占的时间非常短。国外量化对冲基金的后台和前台,最起码在人力配置上是20:1的关系,当然后台可能外包。而我们,是相反的,我公司21个人,专职it只有3个。大部分开发工作,需要前台的人来做。这难道不是一个巨大的商机?我期待有人从我那些吐槽式文字中看到背后的这一点。

  

看来我需要重新理一下量化投资这个产业链。首先我们需要采购数据。然后我需要做数据质量检查,使它符合我的业务需求。然后这些数据进入我们的策略开发环节。然后我需要对这些策略做审核和管理,质量检查后,根据投资团队对风险收益的要求进行风险调整(多还是空?买什么卖什么?那是资产配置和策略配置的结论,根本不是一定a或者一定b的),然后我们的投资管理团队进行我们的资产配置和策略配置。然后进入事后风控。前面的投资阶段我还有事前和事中风控。

  

Q2王恺: @富尊投资 董艺婷 数量化对冲投资 请教一下,在证券公司等传统金融机构做量化投资和您现在相比较,优劣势在哪儿,对他们有什么建议。

董艺婷:其实在哪儿不太重要。因为准入基本一样。具体有很多细节,比如账户啊资金啊这些讨论起来太复杂了,会引发很多新问题。我们也是传统券商出来的,现在仍然是券商的全资子公司。关键还在于怎么做事,是否知道量化投资这个业务需要怎么运营怎么管理。它并不是一个一锤子买卖,找到一个或几个赚钱的模型万事大吉(好多人这样想)...

业务环境上的优势劣势 基本在细节中。而管理模式并不在乎土壤是什么。

  

Q3卿刚:观察:量化投资模型是关键

董艺婷:一定要这么说的话,那么,为高效而精准的模型提供工作环境,是更关键的。

卿刚:数据是基础

赵刚:@董艺婷 您整个公司都做量化交易?

董艺婷:是的

卿刚:理解:是一个以数据为基础的金融模型去定量的分析投资的方法。强调:纪律,系统性,套利思想和概率取胜。所以数学知识和IT工具在这里很有潜力,在想华尔街是否应该已有类似的业务软件。

董艺婷:太多了,我知道的成功案例都非常多,嘿嘿不过不要想“为啥不引进”这样的问题,众多国外金融软件引进都是很失败和惨痛的。

卿刚:当然拿来主义不可取,参考借鉴也许有必要

董艺婷:借鉴的是哪个层面?这个问题很重要,首先要理解国内金融体系的特殊之处 这个必须是业界才能回答得问题。

卿刚:毕竟国外已有3,40年的量化实操经验,架构是可以借鉴的,业务流程在国内需要本地化

董艺婷:需要本地化的第一样东西绝对不是流程。相反,它的整个流程是值得学习的。国内是太缺合理流程了,普通后台基本停留在采购电脑 安装杀毒软件链接网线采购系统和一些初级开发的范围内...这恐怕是金融行业目前最为软肋的一个部门。it行业为零售业做了那么大的推动 在这儿咋还不进攻?我们都等急了.

卿刚:流程涉及本地法律法规,如不本地化,银监,证监等是否操作不了.

董艺婷:哦 你说的是这个...是准入 不属于量化业务特有的流程.


原文发布时间为:2014-06-04

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
均值回归策略在A股ETF市场获利的可能性
【9月更文挑战第24天】均值回归策略是一种量化交易方法,依据资产价格与平均价格的关系预测价格变动。在A股ETF市场中,该策略可能带来收益,但需考虑市场复杂性和不确定性。历史数据显示某些ETF具有均值回归特征,但未来表现不确定,投资者应结合技术与基本面分析,合理决策并控制风险。
|
6月前
|
算法 数据可视化 数据挖掘
R语言指数平滑预测法分析南京出租车打车软件空载率时间序列补贴政策可行性
R语言指数平滑预测法分析南京出租车打车软件空载率时间序列补贴政策可行性
|
6月前
非线性回归beta系数估算股票市场的风险分析亚马逊股票和构建投资组合
非线性回归beta系数估算股票市场的风险分析亚马逊股票和构建投资组合
非线性回归beta系数估算股票市场的风险分析亚马逊股票和构建投资组合
|
6月前
|
机器学习/深度学习 数据可视化 数据挖掘
R语言用CPV模型的房地产信贷信用风险的度量和预测
R语言用CPV模型的房地产信贷信用风险的度量和预测
|
6月前
|
编解码 人工智能 移动开发
气候变化和人类活动对中国植被固碳的贡献量化数据月度合成产品
气候变化和人类活动对中国植被固碳的贡献量化数据月度合成产品
34 0
|
11月前
微分方程应用——人口增长模型(一)
微分方程应用——人口增长模型
188 0
|
11月前
微分方程应用——人口增长模型(二)
微分方程应用——人口增长模型
381 0
基于多场景的考虑虑热网网损的太阳能消纳能力评估研究(Matlab代码实现)
基于多场景的考虑虑热网网损的太阳能消纳能力评估研究(Matlab代码实现)
|
存储 供应链 调度
考虑储能的电价收益模型研究(Matlab代码实现)
考虑储能的电价收益模型研究(Matlab代码实现)
|
算法 数据挖掘 调度
【场景削减】基于 Kantorovich 距离的 SBR 算法场景削减研究(Matlab代码实现)
【场景削减】基于 Kantorovich 距离的 SBR 算法场景削减研究(Matlab代码实现)
191 0
下一篇
无影云桌面