天弘基金大数据中心处理能力百亿级 分分钟计算海量数据

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

随着互联网浪潮的来袭,大数据正在以不可阻拦的磅礴气势,与当代同样具有革命意义的最新科技进步,如纳米技术、生物工程、物联网等一起,揭开人类新世纪的序幕。在各个行业,大数据均被多次提及,但往往这些大数据还有些“像雾像雨又像风”的感觉,老百姓从中很难体验到“大数据”的内涵,而天弘基金让投资者对大数据的梦想照进了现实,近日其以趣味图说的形式绘制了《余额宝运行一周年数据报告》,针对余额宝1亿多用户的年龄、客单量、地域、使用习惯、交易频率等数据信息,天弘基金通过多个维度以生动、活泼的内容向公众展示了“大数据”的真实魅力。

业内人士指出,一般的企业数据系统采用传统的IOE架构,处理数据量级为千万级,能处理上亿级的数据就不错了,10亿级别对一般企业来说都很难想象,处理时间更是无法保障,而天弘基金大数据中心可以做到百亿级数据的处理,且分分钟就能计算海量数据。

所谓IOE,IBM是服务器提供商,Oracle是数据库软件提供商,EMC则是存储设备提供商,三者构成了一个从软件到硬件的企业数据库系统。由这三驾马车构成的数据库系统几乎占领了全球大部分商用数据库系统市场份额,石油、金融行业也广泛地使用这套系统,价格昂贵。而天弘基金云直销系统去年9月份投入使用,成为首个去IOE的金融案例,今年天弘基金建立的大数据中心,也成功上云。

天弘基金大数据中心主管周卫国告诉记者,截至526日那天,我们《余额宝一周年大数据报告》分析应用的基础数据有53亿条,基础数据维度15个,而这15个维护又包含各种排列组合的交叉分析,简单的比如地域和年龄的交叉分析、性别的交易频率的交叉分析,复杂的会涉及许多复杂的模型,因此本次分析应用的基础数据达到96亿条,数据维度35个。正是因为天弘基金大数据中心有百亿级以上的数据处理能力,因此我们有能力去做更多复杂的模型,发散思维,从更多的角度去分析这些海量数据,以达到最真实地分析出客户行为路径,并对业务给予指导。

比如在对“客户流失”这个专题的分析上,我们除了看简单的客户转出金额、转出次数、周/月度的行为规律、提现和消费占比等等基础数据,还专门建立了一个客户流失LOGIT模型,单这一个模型便使用17个指标变量,包含1个目标变量和16个候选输入变量,使用数据有效记录数9.6亿个,在ODPS上,利用MKW LOGIT工具运行模型运行一次,约需27分钟。

这样的模型还有多个,从不同角度挖掘、分析,有时候还会用到人口学、社会学、心理学等知识,客户是在生活中鲜活的个体,想要刻画真实的全景图,既需要海量数据的分析处理,也需要科学的方法去定义一些模型。基于鲜活个体的全样本“大数据”,服务于基金投资和业务开展是我们不断努力的方向。

大数据分析,带来的流动性预测功能,已成为助力余额宝投资的绝门利器,而大数据带来的图说,同样精彩绝伦。从77日起,《余额宝运行一周年大数据报告》系列图说以每日一幅的速度,陆续在“天弘基金”官方微博披露,精彩还将继续。

原文发布时间为:2014-07-11 
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
存储 负载均衡 算法
大数据散列分区计算哈希值
大数据散列分区计算哈希值
47 4
|
2月前
|
分布式计算 大数据 Java
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
74 5
|
2月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
56 3
|
2月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
72 0
|
1月前
|
SQL 机器学习/深度学习 分布式计算
Spark快速上手:揭秘大数据处理的高效秘密,让你轻松应对海量数据
【10月更文挑战第25天】本文全面介绍了大数据处理框架 Spark,涵盖其基本概念、安装配置、编程模型及实际应用。Spark 是一个高效的分布式计算平台,支持批处理、实时流处理、SQL 查询和机器学习等任务。通过详细的技术综述和示例代码,帮助读者快速掌握 Spark 的核心技能。
89 6
|
1月前
|
分布式计算 Java MaxCompute
ODPS MR节点跑graph连通分量计算代码报错java heap space如何解决
任务启动命令:jar -resources odps-graph-connect-family-2.0-SNAPSHOT.jar -classpath ./odps-graph-connect-family-2.0-SNAPSHOT.jar ConnectFamily 若是设置参数该如何设置
|
3月前
|
人工智能 分布式计算 大数据
超级计算与大数据:推动科学研究的发展
【9月更文挑战第30天】在信息时代,超级计算和大数据技术正成为推动科学研究的关键力量。超级计算凭借强大的计算能力,在尖端科研、国防军工等领域发挥重要作用;大数据技术则提供高效的数据处理工具,促进跨学科合作与创新。两者融合不仅提升了数据处理效率,还推动了人工智能、生物科学等领域的快速发展。未来,随着技术进步和跨学科合作的加深,超级计算与大数据将在科学研究中扮演更加重要的角色。
|
4月前
|
SQL 存储 分布式计算
"SQLTask携手Tunnel:打造高效海量数据导出解决方案,轻松应对大数据挑战
【8月更文挑战第22天】SQLTask搭配Tunnel实现高效海量数据导出。SQLTask擅长执行复杂查询,但直接导出受限(约1万条)。Tunnel专注数据传输,无大小限制。二者结合,先用SQLTask获取数据,再通过Tunnel高效导出至目标位置(如CSV、OSS等),适用于大数据场景,需配置节点及连接,示例代码展示全过程,满足企业级数据处理需求。
88 2
|
4月前
|
安全 关系型数据库 MySQL
揭秘MySQL海量数据迁移终极秘籍:从逻辑备份到物理复制,解锁大数据迁移的高效与安全之道
【8月更文挑战第2天】MySQL数据量很大的数据库迁移最优方案
801 17
|
4月前
|
监控 Java 开发者
揭秘Struts 2性能监控:选对工具与方法,让你的应用跑得更快,赢在起跑线上!
【8月更文挑战第31天】在企业级应用开发中,性能监控对系统的稳定运行至关重要。针对流行的Java EE框架Struts 2,本文探讨了性能监控的工具与方法,包括商用的JProfiler、免费的VisualVM以及Struts 2自带的性能监控插件。通过示例代码展示了如何在实际项目中实施这些监控手段,帮助开发者发现和解决性能瓶颈,确保应用在高并发、高负载环境下稳定运行。选择合适的监控工具需综合考虑项目需求、成本、易用性和可扩展性等因素。
48 0