大数据下客户金融产品购买概率预测

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

模型


基本假设:客户每日的持仓,是基于当时金融市场情景以及股票属性作出决策的独立事件。

 

该逻辑回归Logistic Regression模型简单描述如下:


客户购买持仓股票概率是指客户在指定日期购买持有指定股票的概率。表述如下:


其中,为自变量,为需要判定的系数。自变量包括客户特征,股票特征,以及当日市场特征,系数, 通过回归或极大似然估计获得。之后可将估计因子应用于购买预测,求得的P∈[0,1]即为客户股票购买持仓概率。样本标记为指定客户在指定日期是否持有指定股票。以唯一客户号标记客户,以唯一股票代码标记股票,以日期标记市场数据。日终持有为 1 正样本,没有持有为 0 负样本。



◆ ◆ 

基础数据


请各位不要问我数据来源:)

 

1 客户数据

  • 基本特征:

  • 客户交易流水,可提取客户历史易特征。

  • 客户交易系统操作记录,可提取客户交易系统操作特征.

  • 外部客户数据,包括客户画像其他属性:信用属性,消费属性,兴趣爱好,社交信息等,百度的标签体系可为每个人打上24大类,268小类,几千个标签。



下表为客户特征:



2 股票数据

Wind等数据提供商提供的股票数据包括:基本信息,股本信息,财务,薪酬,关注度,行情,技术指标等。

新闻信息:目前Wind等数据提供商已将新闻主题词提取并关联相关股票,还给出了正负效应。

 

3 市场数据

Wind等数据提供商提供的市场数据包括:利率,汇率,财政,价格指数,国内外贸易,景气指数以及新闻等。

 

4 客户购买记录

客户过去一年每日持仓记录。

 

 

◆ ◆ 

数据处理与模型实施


1  数据量预估


  • 样本数:

假设客户数为1000万,目前A股有2800多股票,取过去1年购买记录为样例,大约是250天,那么产生的样本数为大约7万亿,但只需记录持仓信息,假设人均10只股票,那么需存储的记录大约为250亿条。负样本不用存储,在模型计算时产生。


  • 特征数:

客户特征关联股票特征再关联市场特征,将产生百万维以上特征,特征稀疏。


250亿条百万维稀疏矩阵,大约是几十TB。估计需50台普通PC服务器的Hadoop/Spark集群,可满足数据处理和特征提取。对TB级百万特征逻辑回归模型运算,我尝试过国内厂商基于Spark的平台,可以支持。另一条路是针对这个大规模机器学习的具体问题定制优化。我也试用过国内一家新兴大数据公司第四范式公司的数据建模产品,他们对高维稀疏矩阵做了深度定制与优化,仅在10台普通PC服务器就可以处理该数据量级别逻辑回归运算。  




2  金融特征提取


由于我们将每日交易行为作为独立事件。既假设股票特征,市场特征在样本中都是独立的,而我们在做交易决定时可能更关心特征在指定区间内的变化如股票中技术指标等。所以市场数据以及其他股票数据也需要将变化趋势转换为特征,如变化率,以及以涨跌标记变化趋势,如+代表涨-代表跌,++--表示过去四个周期的一种变化趋势。

 

由于二级市场企业公告的时间周期为季,宏观市场指标有月也有年,而新闻的时间频率可以为秒,并且客户特征也是随着时间变化的。将不同时间周期的数据统一归结为按日期的特征必须处理有大量数据。从而可以保证,样本是指定客户在其当时的特征下,根据当时的市场特征以及股票特征做出的购买持仓决定。

 

3 模型效果评估


这是我很迷惑的部分,这么高维度的特征数据,如何根据需求判断不同参数的结果优劣。一般评估模型效果都是用AUC (Area under the Curve of ROC) ROC曲线下面积,ROC为接收者操作特征曲线(Receiver Operating Characteristic Curve)。


而我们实际会选择排序列表作为推荐名单,这时,阀值Threshold的选取就很重要。一些商业的产品会使用其他参数来评估。每当看到AUC莫名的增长,总是让人喜悦的,虽然有时会发现是由于数据处理错误导致的:(


实践中,我们完全可以用模型预测过去一段时期的购买持仓,并和实际交易数据对比。在类似案例中的测试结果表明,相对于简单规则和随机预测,该模型的准确率可提供10倍以上。这个结果也是可以预期的,在高维数据,不断迭代局部优化,可以捕抓一些长尾特征。如下图,可以捕捉那些少数群体特征。




总结


1  本文讨论用逻辑回归模型预测在金融市场情景下客户对指定金融产品的购买概率。认为可以假设客户每日的持仓,是基于当时金融市场情景以及金融产品属性作出决策的独立事件。从而可以在客户特征,金融产品特征以及市场特征三个方面关联作为样本数据,并以当日购买持仓为标记使用逻辑回归做预测。另外本文还探讨了TB级百万特征金融数据处理的一些方法与经验。



2  可能的应用场景,该模型方法可应用于金融产品推荐。


也许有人会疑惑该模型的商业价值,但难道您就没看到该模型是在沿着行为金融学基本问题“基于有限理性的金融资产预期定价问题” [1]向着“看不见的手”发起挑战吗?


假设我们可以将人的金融需求特征完成特量化,又将股票特征量化,结合当时市场场景,自动撮合交易。想象下,多么美好,再也没有泡沫与股灾。

在Matrix(黑客帝国中的主机)中一切皆有定数。

 

以上言论纯属YY,人的行为当然不能完全量化:)



3  如何将金融领域知识加入机器学习模型,是我很想感兴趣的部分,欢迎讨论。



原文发布时间为:2016-02-19

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
zdl
|
1月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
153 56
|
3天前
|
数据采集 分布式计算 大数据
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame是阿里云自研的分布式计算框架,专为Python开发者设计。它支持Python接口,充分利用MaxCompute的大数据资源,提升大规模数据分析效率。本文分享了MaxFrame在分布式Pandas处理和大语言模型数据预处理中的最佳实践,展示了其在数据清洗、特征工程等方面的强大能力,并提出了改进建议。
28 13
|
3天前
|
机器学习/深度学习 分布式计算 数据处理
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame 产品评测报告
16 4
|
6天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
4月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
2天前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
27 0
|
1月前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
15天前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年11月】
大数据& AI 产品技术月刊【2024年11月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
1月前
|
机器学习/深度学习 数据采集 搜索推荐
大数据与金融风控:信用评估的新标准
【10月更文挑战第31天】在数字经济时代,大数据成为金融风控的重要资源,特别是在信用评估领域。本文探讨了大数据在金融风控中的应用,包括多维度数据收集、智能数据分析、动态信用评估和个性化风控策略,以及其优势与挑战,并展望了未来的发展趋势。
|
2月前
|
人工智能 分布式计算 大数据
大数据&AI产品月刊【2024年9月】
大数据& AI 产品技术月刊【2024年9月】,涵盖本月技术速递、2024云栖大会实录、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
下一篇
DataWorks