国泰君安证券信息技术部总经理俞枫:券商大数据技术及应用

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
NLP自然语言处理_基础版,每接口每天50万次
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

8月29日,上海国资大数据课题启动仪式暨数据资产技术及金融行业应用沙龙在华东理工大学隆重召开。本次沙龙在上海市国有资产监督管理委员会、上海市经济和信息化委员会、上海市科学技术委员会的指导下,由上海市国有资产信息中心、华东理工大学金融大数据研究中心、上海计算机软件技术开发中心联合主办,畅享网作为媒体支持,有逾200位专家、学者、企业代表等汇聚一堂,共同探讨国资大数据的应用发展。本文为国泰君安证券信息技术部总经理俞枫所做的主题分享《券商大数据技术及应用》,由畅享网整理。

各位领导、各位专家、下午好!

今天非常荣幸有机会在这里跟大家一起探讨一下券商大数据应用的一些情况,首先从我的角度来理解一下我们对大数据发展趋势的认识,探讨一下大数据在券商行业应用的方向。

这张图大家看了可能会吓一跳,其实这是MattTurck今年发布的2017年大数据全景视图。大数据、互联网云计算是当前的应用热点,但现阶段最大的热点还是人工智能,人工智能的基础也是大数据。为什么人工智能这几年有长足发展,主要就是大数据和计算能力的发展。大数据这一两年入了一个相对来说比较快速成熟的发展周期,从全景视图上看,其技术分类是越来越细了,应用领域也越来越广。特别是在AI的技术出现以后,应该讲大数据决定了AI发展的高度,同时AI技术也已应用到大数据分析处理里面。我觉得大数据跟AI技术是一对共生的兄弟,相互促进,相互融合才能更有效地发展。从企业角度讲起来,现在大家对大数据的重视不只是口头上,大家越来越重视,已经进入到全面布局的阶段,这也是我们为什么今天在这里探讨国资大数据问题的原因。。第三个趋势是往云端发展,这点在国内发展受到一点制约,但国外的许多企业都乐意把大数据放在云端,他们很希望通过这个来吸引更多的人参与,核心也是要获得大量的训练数据。就是在机器学习过程中,因为训练数据的缺乏,很多时候要加入人工辅助学习、训练,通过人工的参与弥补原有数据样本的不足。总之,目前大数据应用的发展已经到了新的阶段,以后会越来越深入。

具体来说有几块应用比较重要,一块是基础架构,现在大家都知道流处理的重要性日益增加,Spark仍高居榜首,不过像Flink这样的有趣竞争者正在涌现。第二是分析,在AI技术的大众化和自服务工具飞速涌现的背景下,传统的数据分析是靠数据科学家,目前很大的趋势是通过人工智能技术来发展大数据分析的工具。刚才有位专家提到因子分析,现在美国最新的发展趋势就是出现了很多辅助工具,通过工具辅助做数据的复杂关联分析,可以通过机器学习找出来相关影响因子,以降低大数据的门槛,这方面的意义还是很大的。应用方面,就是跟AI相结合,适用用的领域会越来越广,这可能是我觉得大数据目前发展的一个重要趋势。

大数据解决的是数据工程的问题,负责提供管道,AI解决数据洞察的问题,也就是智能。特别是机器学习、深度学习、模式识别、自然语言处理等人工智能技术已用到大数据处理。原来大数据处理要处理一些语音、图像难度很大,AI引进使之得到了有效的推动加深。我想以后大数据处理包括应用的场景跟广度会越来越深。

从大数据在证券行业应用来看,我认为可以归纳为TO C和TO B两个方面。

第一个就是针对客户的TOC层面,核心就是提供更加个性化、场景化、智能化的普惠金融服务。随着大数据的应用,特别是与智能化技术结合起来,有可能使得我们单个投顾对客户的服务真正从原来几个人变成几万、几十万,包括上千万。跟大数据标签、个性化的标签相结合,可以实现千人千面,包括现在很时髦的像智能投顾,智能客服,这些都有可能通过AI跟大数据结合达到目标。

第二个TO B层面,主要是在于利用大数据相关技术打造数字化现代科技金融企业,实现数据驱动的业务模式创新,实现数据资产价值的变现。数据驱动的业务模式,原来业务运营是靠人、靠经验为主,现在是以数据驱动。以数据驱动的角度实现模式创新,实现价值变现。比如客户运营、社区运营、渠道运营等,目前我们公司的IT运营就实现了全数字化管理,这样所有的过程和结果都可以数量化,从管理者角度每天只要看数据报表。

国泰君安从2014年开始投入研究和应用大数据技术提升客户服务和数字化运营水平。国泰君安DMP,是把数据资产、大数据平台跟大数据应用结合起来,形成整体的解决方案。这是我们三年前开始在做的,大数据应用的场景是要来源于现实需求。可能是我们从数据里面挖潜出来的需求,也可能是我们从客户交流里来的需求。国泰君安始终秉承着以当前及潜在的业务需求为导向,探索集数据资产、平台和应用于一体的大数据整体解决方案,应用的核心是通过大数据来驱动整个业务场景的实现。


这是我们公司大数据应用的金字塔,底下的数据基础,对客户数据进行标签化处理,归类、分类,在此基础上建立业务跟IT的数据运营,第三层面是用户体验优化,第四做数据化营销服务,最上面是提供数据服务,这是实现数据价值变现的比较好的应用途径,再上面提供高层决策者的战略分析。这个金字塔是我们整个大数据应用的基石。


目前国泰君安大数据平台建设已经发展到了第二代。三年前开始做的,第一次跟IBM合作,现在我们是自主在发展,我们用很多开源软件。当前,我们已经完成第二代大数据基础平台建设,自主掌控了hadoop、Spark、Spark Streaming、Elasticsearch、Kafka、Logstash、Kylin等开源技术框架。具备了结构化、非结构化、流数据处理能力,目前已经具备了大概有400多个TB的数据量,整合了公司内外用户、客户、交易、存管、产品、资产、市场交易的数据。每天数据增加2T左右,目前来看我们已经形成一定规模的数据资产,接下来通过大数据的一些应用把价值更好的体现出来。在大数据应用探索和实践层面,已经实现了个性化推荐、季度账单、账户分析、智能投顾等对客服务,同时也在企业内部管理层面,实现了IT业务运营、营销反欺诈,实时业务大屏、营销管家等应用推广落地。

大数据助力打造智能APP

智能化并不是代替人,而是要人机同行。前段时间去美国印象很深,美林已用很多智能化的手段,但受到中低层员工很大的反弹。第一员工觉得它不完全可信,机器目前不可信其实是一个慢慢成长过程,员工越反对,它的训练学习成熟的时间就会越长。第二员工参与训练学习的积极性差,训练的效果不十分理想。所以我觉得在当前阶段谈人工智能代替人还为时尚早,如果实现人机同行,把人工智能作为一种工具,我觉得是比较好的。比如原来只能服务一个人,现在因此可以服务千万人。同样在打造智能APP的领域,可以把大数据和人工智能结合起来,为我们服务客户或者客户投资提供很好辅助工具。我们具体做了六个方面的实践,一个是智能推荐,根据客户标签、产品标签、资讯标签形成智能推荐环,第二个是智能搜索,第三是筹码分布和相似K线,还有智能诊股和账户分析。我印象很深的,大概在11年前,我的同学在家里画个性化的K线图,实际上这些靠机器计算可以很容易达到目标。第六类应用是智能诊断,主要是针对客户的实际情况,给他进行一些分析。目前,大数据的众多场景化应用对于移动APP的智能化打造提供了很大的助力。


1.相似K线

我们把它定位成投资者交易辅助工具,准备推出一个特色应用系列。相似K线的理论基础假设市场会重演的,我们使用了快速模式识别引擎,实现了相似度的毫秒级运算。原来设想搞出来以后有一个未来走势变化的概率显示,今天走出来以后涨跌有什么概率,后来相关合规部门不同意,暂时没推出。在美国,他们智能投顾也不是直接推荐股票,也只是把ETF组合推给客户,最后也是靠人自己判断的。这个应用是通过历史的数据,去找出它的相似度,然后给客户提供一些相似K线的引导,不能说是提示,客户可以根据这个东西来决策,至少多了指标分析的新角度。这个应用的难点是数据量比较大,这么多股票,要算十年的K线,每年又是200个交易日,要找出相似股票还是很难的。这个原来是不可想象,现在是可以的。这个是我们前段时间推出的应用,我觉得这个应用对客户来说还是不错的。

2.筹码分布

大家对此也是十分感兴趣的,可以帮助投资者充分利用筹码的分散与密集来研判股价的运作趋势。因为如果你要知道一个股票大概是在什么样的成本区间内运行,这样你就会主动投资,这也是基于大数据的分析,给投资者一定的提示。这里面的核心环节还是分布式计算,是基于大数据给投资者提供一种辅助的投资工具。

3.智能搜索

传统的智能搜索比如谷歌,谷歌上面,他们的搜索还蛮智能的。我们通过使用全文检索,分词等技术,将搜索智能化逐步拓展至APP全平台,提供股票、资讯、功能及社交搜索等丰富的功能,同时结合流数据处理、推荐引擎,推出搜索场景下的热点及感兴趣内容的智能化推荐。我们可以进行关联搜索,这种搜索最大的好处就是可以提高客户的体验,对投资还是非常有帮助的。特别是利用大数据推荐热点咨询,我们有一个智能引擎在里面进行搜索。最近我们也在探讨,怎么能够把市场上各种报告更好地进行规整,更好地进行分词处理,形成基于关键字的数据化揭示,也是可以帮到投资者。MIT前几年有一篇论文,就是通过facebook上对某股票的关注热度来预测下一阶段的涨跌。这里面的核心也是通过大数据的处理,里面需要用到智能化的分词等技术。

4.账户分析

通过账户诊断数据模型结合列存储及全文检索技术,实时为客户提供最全面、最专业的投资分析报告查询服务,时间跨度最长可达到2年。原来账户分析基本上还是短时间,静态的,我们提供一个能够进行,相对来说更完整的资产到证券的分析,这里面最大的难度,我们把数据很好的存储,然后有个数据诊断的模型。

5.智能推荐

我们基于机器学习、规则引擎、实时标签运算,构建用户标签、产品标签、资讯标签和智能化匹配引擎,实现海量用户实时画像和个性化营销推荐策略。如果把智能推荐做好了,客户体验就会非常高。难度第一是你的数据源是不是足够大,我们不能只是局限于自己的交易数据,还需要第三方的数据。第二能不能把我们这些信息、资讯有效的进行分类,有效地进行标签化,这里面的核心内容主要我们对原始资讯信息的处理能力,标签化的能力。在美国看到一家公司基于智能技术分析、处理、推荐各类文本,通过人工训练,就是对其推荐的一篇文章进行打分,经过几个回合的机器学习以后,它对你需要那些数据、那个关键词就能分析得非常准。当然它们目前处理中文还有难度,如果这方面有所突破的话,智能推荐的效果会更加明显,也会更加好用。

6.智能诊股

从基本面、技术面、消息面、资金面四个方面对个股进行综合打分,帮助客户进行投资选股,特别是在消息面处理时,结合了时下热点的自然语言处理、舆情分析技术,解决了从研报提取核心观点信息,对新闻进行利好利空判断的两个难点。现在越来越发现处理非结构化的数据是非常重要的,能够把它与结构化的数据很好的结合起来再去找到合适的场景,未来也是比较好的应用方向。

大数据驱动业务创新模式

1.智能办公助手

目前,越来越多的金融企业将大数据技术运用到风控领域,包括异常交易监控、网络安全台式感知、专业文档审核以及用户征信和反欺诈等。今年我们做了一个尝试,效果不错,就是进行投行申报文件AI自动复核,利用AI技术自动进行校对,基于ORC图像识别、自然语言处理、词向量分析、文本挖掘等技术,实现投行项目申报文件AI自动复核,以求最大化提升金融企业的效能,降低人工成本。从AI来说比较好的是做一种规范化的工作,做起来是最容易的。难度大的进行有效的文件识别,进行图像识别,进行自然语言的处理,包括调向量分析,文本挖掘,以后我们会有更多场景会用到这项技术,这又是一大应用场景。通过我们开发办公助手提高企业效能,美国公司也在做类似的应用,新员工进来以后会有很多问题,就搞了一个智能助手,有问题找到他,这个方法也很好。我们原来主要把智能化应用重点放在客户,其实对员工、对企业也是很有意义的。

2.营销欺诈防控

另一个风险控制的典型应用场景就是“营销欺诈防控”,为公司不断推出的各项营销推广活动(比如近期的818金融节、牛股PK大赛)进行保驾护航。怎么来进行有效的识别、防范,而且实时识别,这数据量又是非常大的,大数据通过用户行为分析、反欺诈规则识别、黑名单甄别等手段,实现了对于薅羊毛行为的实时欺诈识别和拦截。我们从去年开始总结了一套很好的规则,通过数据实时监测,进行实时的阻断,效果很好。我们有个效果数据,查询率70%以上,准确率90%,结果还会回馈给呼叫中心进行进一步的筛选,为公司节约了大量的营销成本,保障活动效果。应该讲,在营销欺诈上防控的领域,大数据还是非常有前途的。

3.3A3R互联网运营模型


这是互联网营运方面的应用,我们现在很多做互联网活动,基本上还是以经验导向,应该看到券商有很好的数字化基础。这是我们去年开始搞了一个3A3R互联网运用的模型,构建了基于3A3R模型的一整套运营指标体系,分别从感知(Awareness)、获客(Acquisition)、活跃(Activation)、留存(Retention)、收入(Revenue)、传播(Refer)六个方面,帮助掌握互联网业务现状,进行日常业务运营监测,指导运营决策,寻找业务场景。最大的特点把所有的活动运营用数字化表现出来。移动互联网发展以后采集数据的领域,采集量也会不断提升,应用的深度、广度也会不断提升。上次我就跟李处在探讨到,在国资领域内数据是很多,比如说国泰君安也有很多数据,东航也有很多数据。如果一个客户在国泰君安贷了一大笔款,他过几天又到东航订一张去美国的机票,是不是这个原有的风险等级就要进行调整了,但这件事单靠东航或国泰君安实际是无法进行数据连接的,但如国资想做就有可能了。我们很希望借助国资这么一个大的平台,能够把整个国资领域的数据服务搞起来,推进整个国资领域数据应用水平的进一步提升。

今天我简单介绍到这里,谢谢大家!





本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
18天前
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
67 4
|
27天前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
81 1
|
4天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
13 3
|
4天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
18 2
|
7天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
33 1
|
9天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
44 2
|
10天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
42 1
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
10天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
45 1
|
1月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
48 3

热门文章

最新文章

下一篇
无影云桌面