日交易笔百万级,Ping++的大数据平台架构

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 当前日交易笔数为百万级,目前已经积累了海量交易数据。如何在经过客户授权的情况下利用数据为客户赋能,并带来额外附加价值,从而提高客户黏性,Ping++亟需搭建可靠、稳定的大数据平台。
11+大数据行业应用实践请见 https://yq.aliyun.com/activity/156 ,同时这里还有流计算、机器学习、性能调优等技术实践。 此外,通过 Maxcompute及其配套产品 ,低廉的大数据分析仅需几步,详情访问 https://www.aliyun.com/product/odps ;更多精彩内容参见 云栖社区大数据频道 https://yq.aliyun.com/big-data  。

Ping++ 是上海简米网络科技有限公司旗下的聚合支付品牌,国内领先的第三方支付解决方案SaaS服务商。Ping++ 成立于2014年4月,2016年初获得由宽带资本领投的千万美元 B 轮融资。Ping++ 为零售、电商、O2O、教育、旅游、SaaS 服务等众多领域的商户提供定制化支付解决方案,累计帮助15000多家商户解决支付问题。

从安全可靠的聚合支付平台到简单无忧的聚合支付云服务,Ping++不仅极大地简化了企业与移动支付渠道和消费分期渠道的对接过程,还将日常交易管理、账务管理、大数据分析、多级商户、用户账户等功能集成到统一的管理平台。从支付接入、交易处理、业务分析到业务运营、大数据营销,Ping++以定制化全流程的解决方案来帮助企业应对在商业变现环节可能面临的诸多问题。

Ping++的百万级交易挑战

Ping++ 通过搭建在云端的支付处理平台为商户集中处理所需第三方支付渠道的交易请求并提供统一的SDK接口供商户调用,当商户的用户发起交易时,就会调用这个SDK,此时这些数据记录会存储到数据库中,包括时间、金额、渠道等信息。当前日交易笔数为百万级,目前已经积累了海量交易数据。如何在经过客户授权的情况下利用数据为客户赋能,并带来额外附加价值,从而提高客户黏性,Ping++亟需搭建可靠、稳定的大数据平台。在Ping++搭建大数据平台的过程中,存在以下挑战:

1.一站式大数据平台,可以帮助降低数据创新与创业成本,需同时具有存储、计算、BI和机器学习等功能需求:
  • 存储: 利用数据仓库存储海量支付订单数据。
  • 计算: 批处理进行 ETL 数据清洗、统计汇总、数据分析。
  • BI: 产出数据的监控指标,以图形化方式反映数据质量和趋势。
  • 机器学习: 各类场景下模型的训练及预测。
2.Ping++作为一个创业公司,前期尽可能以最低的成本去实现业务创新。但是,自己搭建符合上述4种所有要求的大数据平台,需要投入大量硬件投资、时间成本和人力成本。作为互联网创业公司,唯快不破,需要跟时间赛跑,如何快速、高效、低成本的搭建大数据平台也是亟需的。

3.安全是金融行业永远的话题,作为互联网支付服务提供商,Ping++非常重视大数据平台的安全性、稳定性和可靠性,并需要平台具有多角色多权限的账户体系。同时,Ping++ 使用严格的数据隐私保护机制,商户的数据只用于分析商户自己的生意。

Ping++的公有云供应商考量

如上所述,自建符合要求的大数据平台成本过高、周期过长,而且Ping++是做第三方服务的,秉承专业的人做专业的事情的理念,希望能够通过第三方服务去解决问题,因此一开始就决定考虑采用公有云大数据平台。“我们认为,对于初创公司和小规模团队来讲,利用云服务更加省时和经济,可以将更多精力投入于应用和业务开发。”Ping++大数据总监夏苏敏表示。

Ping++大数据技术团队对主流的公有云大数据平台进行了试用和对比,尤其是跟某国际化云计算大公司的大数据平台去进行比较,当时发现此公司在国内提供的服务并不是非常的好,而且服务器也不是非常的稳定。另外,Ping++的整个交易系统架构在阿里的金融云上,其稳定性、安全性均进行了前期的验证,而且如果大数据平台也采用阿里云在数据传输、兼容性和成本上均有很大优势。鉴于以上考虑,Ping++最后选定了阿里云的数加平台。

Ping++的解决方案及架构

Ping++围绕积累下来海量的交易数据,主要基于阿里云数加平台进行以下业务场景创新:

1.BI营销业务系统。基于用户交易行为数据进行用户画像,在用户画像的基础上提供精准营销方案,在老客户激活、提高客单价、潜客获取、转化率提升等方面对客户赋能。

2.内部监控。基于阿里云数加平台进行数据监控赋能内部管理,包括交易信息汇总、异常交易提醒、数据质量分析等。

6202a13b07f92a372ed5db895a3101ba2d484e67

数据源:来源于支付业务系统,分别使用了阿里云RDS、DRDS以及MongoDB,DRDS和RDS主要用来存储用户交易信息,MongoDB主要用来存储商品维度信息。

大数据平台:通过阿里云数加平台搭建,包含的组件及功能为:

  • 大数据计算服务(MaxCompute ,原名 ODPS): 用于数据仓库。目前有包括原始基础表、ETL 结果表、上层 ADM 应用数据集市表在内的共计 630+ 张数据表。
  • 大数据开发套件(DataIDE): 使用其中的 DAG 调度系统支撑每天例行化运行 140+ 个节点;利用提供的日志功能、报警机制、重跑补数据等多种工具进行运维工作;通过阿里云子账号和数加平台的权限体系实现了多角色多权限的账户体系。
  • Quick BI: 用于指标的图表展示。目前有 10+ 张图表以监控数据质量和辅助决策。
  • 机器学习: 利用提供的算法库解决大数据量的图模型问题、机器学习分类问题、文本分词问题等。
结果存储及检索:通过阿里云数加产品分析型数据库(AnalyticDB)同步经过DataIDE处理过的存储在MaxCompute中的数据集市表,主要是汇总后的脱敏数据,使用分析型数据库的主要原因是基于其强大的实时计算功能,可实现实时检索分析。机器学习的预测分析结果存放于MySQL进行检索分析。

应用:BI营销业务系统及内部监控。

收益:
  1. 阿里云数加为Ping++大数据实施提供了一套完整的一站式大数据解决方案,覆盖了企业数仓、商业智能、机器学习、数据可视化等领域,助力Ping++在DT时代更敏捷、更智能、更具洞察力。数加平台从数据导入、查找、开发、ETL、调度、部署、建模、BI报表、机器学习,到服务开发、发布,以及外部数据交换的完整大数据链路,一站式集成开发环境,降低Ping++数据创新与创业成本。
  2. 通过阿里云数加平台,Ping++快速搭建了大数据平台,节省了大量成本,因此可以将更多的人力、物力投入到业务创新上来。“现在我们已经开始向客户提供大数据的服务了,如果自己建的话,可能现在才刚刚把这个平台搭好,业务上的事情还没有开始做呢,整体上来讲,可以为我们节省六到八个月的时间。”夏苏敏说到。
  3. 阿里云及其数加平台提供金融企业级的安全机制,保证了Ping++业务应用的安全、可靠、稳定运行。核心产品MaxCompute更是提供多种安全机制为DT时代的企业数据资产保驾护航,如采用业界标准的API认证协议、没有超级管理员的角色、提供了丰富的项目空间内的用户管理及授权功能、将用户作业在运行时隔离、作业运行时使用最小权限、数据访问审计以及安全监控系统等。“我们曾经也遭受过一次DDos攻击,阿里云也成功的帮助我们防御了这样一次攻击。” 夏苏敏回忆道。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
13天前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
51 1
|
18天前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
96 6
|
17天前
|
存储 分布式计算 大数据
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
49 3
|
18天前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
47 2
|
18天前
|
存储 分布式计算 API
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
51 0
|
23天前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
129 1
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
17天前
|
SQL 存储 分布式计算
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
20 9
|
19天前
|
消息中间件 NoSQL Kafka
大数据-52 Kafka 基础概念和基本架构 核心API介绍 应用场景等
大数据-52 Kafka 基础概念和基本架构 核心API介绍 应用场景等
54 5
|
18天前
|
存储 分布式计算 druid
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
39 3
|
19天前
|
消息中间件 存储 分布式计算
大数据-53 Kafka 基本架构核心概念 Producer Consumer Broker Topic Partition Offset 基础概念了解
大数据-53 Kafka 基本架构核心概念 Producer Consumer Broker Topic Partition Offset 基础概念了解
50 4

相关产品

  • 云原生大数据计算服务 MaxCompute