亿级用户平台的大数据实践

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 我们现有1.6 亿用户,每周在大数据平台生成2T的数据量。我们只需2个月便建成了自己的大数据中心,每月的资源花费小于1万元。通过这一系列的数据,我们认为,我们当初的选择是正确的。
公司介绍
轻松筹于2014年9月成立,2015年9月注册用户达到100万,2016年9月注册用户突破1亿,并入选民政部网络募捐平台。到今天,轻松筹的手机号注册用户已经超过1.6亿,意味着每7个上网用户里就有1个人使用过轻松筹。
轻松筹 每天有300GB的结构化数据产生,数据量以后还会越来越大,要应对的并发量也会越来越多。所以,一个支持PB级以上的数据库来存储这些海量数据并且能够支持及时查询,成了必需。

项目背景(Why)
我们希望筹款能帮助每一位病人重获健康,同时我们也希望解决更多老百姓的社会保障问题,2016年4月18日我们首创了大病互助产品,每人只需3元钱就可以加入互助计划,目前我们已有735万会员加入。(大病互助产品解释:如果其中一人检查出30种大病中的一种,就可以获得30万的救助保障金,目前每人只需均摊5分钱。)
初步估算,1个月以后,轻松筹的互助行动将会有10000000会员, 假设每天有20个人需要救助,那么我们每天要生成2亿行交易数据;面对如此庞大的数据存储和查询,我们需要建立一个稳定、安全,有保障的大数据中心。
有数据、但是要怎么用数据?我们有以下设想:
亿级用户平台的大数据实践
  • 信任透明
如何让项目(每一次救助我们结构化存储为项目)更加公开透明?我们作为平台方需要搭建好发起人和支持者良好的沟通渠道,当支持者对项目产生质疑时,我们通过项目发起人的进展、资金公示,举报数据来源,通过大数据手段实时抓取微博、微信公众号、媒体等数据源,建立公众趋势分析功能,快速获知整个项目情况,为后续追踪提供可靠的数据支撑!
  • 风险监控
如何保证每一个项目的真实可信,每一次筹款金额是否合理?我们建立了完整的病理库,一种大病某个分类在某个地区某个医院的医疗费用范围,其中还考虑各种其他因素,比如病人是否持续缴纳社保、病人家庭的固定资产情况。通过大数据、人工智能算法等技术计算出风险指数,给予发起人和支持者一个合理筹款的范围。
  • 定向帮助
如果让项目获得更多的支持金额?经典的6度人脉理论告诉我们可以通过6个人的关系联络到世界上任何一个人,经过我们的大数据分析,我们如果精准推荐给病人的三度人脉帮助其传播,能增加大概30%的筹款金额;
  • 爱心指数
如何满足爱心人士的存在感和荣誉感?我们创新了爱心值这个概念,通过多维度给每位支持者计算出爱心值,他们身上会被贴上“全省好人代表”或者是“联合国爱心大使”的标签,最终我们希望爱心值能类似于支付宝芝麻信用分那样实现征信的作用,可以授信借贷、租车(比如支付宝花呗借贷、共享单车租车,爱心值越高,可以借贷越高或者免费骑车)等提供给第三方使用;
为什么要做大数据?
在我看来,将数据应用到产品和业务上,给用户带来价值,给公司带来增长,才是我们做大数据的真正目的。

方案(How)
利用Hadoop自建大数据平台  VS  基于阿里云数加平台
要做大数据,但是怎么做?轻松筹面临以下几个问题:
  • 缺乏大数据经验,挖坑、填坑是一个非常痛苦的事情。业务在前面一直冲,我经历过1星期不睡觉一直擦屁股的事情。如果大家玩王者荣耀都知道每个星期的战报里那个神坑队友。然而有了经验后则不同,它将具备先发优势,站在巨人的肩膀上,至少离成功更进一步。所以,我们需要拥有丰富的大数据项目经验的靠谱团队给我们支持。
  • 用户行为埋点数据不全面。虽然市面上有百度统计、友盟、talkingdata等产品,但通过这些产品,我们只能看到局部报表数据,没法做到精准查询,而且明细数据也托管在别人手里,相当于我们的数据资产命脉在别人手里,这个是我们的痛点。
  • 业务数据查询慢,传统结构数据分散有MySQL,MongoDB,日志文件等多种形式,有的业务查询需要避开业务高峰期甚至SQL查询时间要耗上1个晚上,这对于我们产品和业务的发展是非常不利的。我们需要在不影响业务正常发展的前提下,来做大数据的开发和应用。
具体该如何做?我们构想了2个计划,一是自建大数据系统;二是在成熟的产品基础上进行开发和应用;
亿级用户平台的大数据实践
自建系统
即自己用开源的Hadoop等搭建一套大数据平台。首先需要招聘能做这件事的人才,初步估算需要2个月时间,实际上我们花了好几个月也没有找到负责人。去硅谷见了一圈比如Uber、LinkedIn大数据团队、国内也找了BAT做大数据的人,但是很难找到真正适合创业阶段的人。
团队建设也是非常难,如果没有核心的大数据负责人,很多技术人员来了找不到认同感,人员流动性非常大,最后会变成即使想做但还是做不了。稳定下来至少半年时间过去了。
大数据方案具体实现时间保守估计需要5个月甚至更长,因为没有底层基础,所以在这个过程中,踩坑在所难免。1年时间下来,保守估计最终可能只完成工程以及小部分实验性产品。
但是大数据讲的不是概念,而是要用起来,还要用活;所以这个方案实际看起来更像一个理想化的工程方案,而且耗时长,对于创业公司来说,时间就是金钱,我们等不起。
所以,我们最终选择做大数据的方式如下:
亿级用户平台的大数据实践
平台选择依托阿里云数加平台:数加是阿里多年实践经验沉淀的产品,成熟、稳定、开箱即用,像轻松筹这样的创业型公司,选择数加,是一个节省时间、金钱成本的明智选择。
服务商,我们选择的是袋鼠云:之所以选择袋鼠云,是因为在大数据项目之前,我们这边已经和袋鼠云有了相关合作,主要做数据库分布式架构设计,分库分表设计,袋鼠云有良好的服务态度和技术实力,对此,我们非常信任。同时袋鼠云的CTO江枫就是原来数加团队技术负责人之一,袋鼠云是数加首个金牌合作伙伴,他们有成熟的大数据解决方案,对数加平台以及数据开发和应用理解深刻。
这样一来,我们便可以快速形成成熟的大数据体系,并且能在实战中建立自己的大数据团队,互联网公司都是轻资产,轻装上阵,才能跑得更快。
我们最终采用了袋鼠云提供的大数据架构,如下图,这是一个通用的大数据架构:
亿级用户平台的大数据实践
  • 业务数据通过数据同步同步到MaxCompute中。订单类数据,每10分钟同步一次,其它的数据,每天同步一次。
  • 行为数据,就是用户的点击、购买等行为日志数据,通过袋鼠云的云日志产品采集同步到MaxCompute中。数据的延迟在一分钟以内。
  • 在MaxCompute中,将业务数据和行为数据打通。在此基础上,进行关系链分析、画像分析、统计分析等应用。关系链分析:是想知道,筹款的传播情况。画像分析:是想了解,爱心人士的捐款偏好。统计分析:是生产成规报表,提出基础数据支持
最后,再将数据通过可视化大屏进行实时展现,并在QuickBI上生成BI报表。我们期望方案能够实现数据的存、通、用,最终实现筹款者和爱心人士的更好连接。

收获(What)
实时数据可视化,实现数据化运营
亿级用户平台轻松筹的大数据实践
数据大屏
可以实时呈现业务信息,起到实时监控,支撑更快速、更敏捷的数据决策的作用。
BI报表
通过将业务数据和行为数据结合在一起,为筹款项目的精细化运营提供数据支持。比如,可以了解某一个项目的当前的筹款状态,筹款金额趋势,筹款人数的趋势,渠道的转换率。
通过这些信息,我们了解到,这个项目是否需要推送到首页、工作号等渠道,让更多的人知道这个项目。同时,我们统计各个渠道的捐款转化率,捐款占比。通过对这些分析,提出一些对产品的改善建议。
亿级用户平台轻松筹的大数据实践
通过BI报表,让更多人使用数据,养成了对数据的使用习惯;同时,也提出了更多的报表需求;我们做决策不再是拍脑袋式的,而是根据真实数据的分析结果做更科学的决策。
这样,我们最终一步步走向数据化运营。

我们现有1.6 亿用户,每周在大数据平台生成2T的数据量。基于阿里云平台,依靠我们的服务商袋鼠云,我们只需2个月便建成了自己的大数据中心,每月的资源花费<1万元。通过这一系列的数据,我们认为,我们当初的选择是正确的。
袋鼠云日志: 基于Elasticsearch比ELK更好用的日志分析监控工具
EasyDB: 一站式数据库管理平台,Oracle/MySQL DBA运维神器

更多专业实践,点击进入云市场头条:http://yq.aliyun.com/marketplace
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
打赏
0
0
0
5
212
分享
相关文章
如何对付一个耗时6h+的ODPS任务:慢节点优化实践
本文描述了大数据处理任务(特别是涉及大量JOIN操作的任务)中遇到的性能瓶颈问题及其优化过程。
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
149 3
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
本文整理自鹰角网络大数据开发工程师朱正军在Flink Forward Asia 2024上的分享,主要涵盖四个方面:鹰角数据平台架构、数据湖选型、湖仓一体建设及未来展望。文章详细介绍了鹰角如何构建基于Paimon的数据湖,解决了Hudi入湖的痛点,并通过Trino引擎和Ranger权限管理实现高效的数据查询与管控。此外,还探讨了湖仓一体平台的落地效果及未来技术发展方向,包括Trino与Paimon的集成增强、StarRocks的应用以及Paimon全面替换Hive的计划。
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
324 1
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
104 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
DataWorks年度发布:智能化湖仓一体数据开发与治理平台的演进
阿里云在过去15年中持续为268集团提供数据服务,积累了丰富的实践经验,并连续三年在IDC中国数据治理市场份额中排名第一。新一代智能数据开发平台DateWorks推出了全新的DateStudio IDE,支持湖仓一体化开发,新增Flink计算引擎和全面适配locs,优化工作流程系统和数据目录管理。同时,阿里云正式推出个人开发环境模式和个人Notebook,提升开发者体验和效率。此外,DateWorks Copilot通过自然语言生成SQL、代码补全等功能,显著提升了数据开发与分析的效率,已累计帮助开发者生成超过3200万行代码。
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
Cisco WebEx 早期数据平台采用了多系统架构(包括 Trino、Pinot、Iceberg 、 Kyuubi 等),面临架构复杂、数据冗余存储、运维困难、资源利用率低、数据时效性差等问题。因此,引入 Apache Doris 替换了 Trino、Pinot 、 Iceberg 及 Kyuubi 技术栈,依赖于 Doris 的实时数据湖能力及高性能 OLAP 分析能力,统一数据湖仓及查询分析引擎,显著提升了查询性能及系统稳定性,同时实现资源成本降低 30%。
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
458 3
【赵渝强老师】基于大数据组件的平台架构
大数据与零售业:精准营销的实践
【10月更文挑战第31天】在信息化社会,大数据技术正成为推动零售业革新的重要驱动力。本文探讨了大数据在零售业中的应用,包括客户细分、个性化推荐、动态定价、营销自动化、预测性分析、忠诚度管理和社交网络洞察等方面,通过实际案例展示了大数据如何帮助商家洞悉消费者行为,优化决策,实现精准营销。同时,文章也讨论了大数据面临的挑战和未来展望。
电商平台如何精准抓住你的心?揭秘大数据背后的神秘推荐系统!
【10月更文挑战第12天】在信息爆炸时代,数据驱动决策成为企业优化决策的关键方法。本文以某大型电商平台的商品推荐系统为例,介绍其通过收集用户行为数据,经过预处理、特征工程、模型选择与训练、评估优化及部署监控等步骤,实现个性化商品推荐,提升用户体验和销售额的过程。
189 1

热门文章

最新文章