一站式数据湖架构,解决数据孤岛现象

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 针对亲宝宝日常业务中需要高可靠、强算力和高性价比的需求,阿里云为亲宝宝构建了一站式的数据湖解决方案。

公司介绍

亲宝宝是一个专注于为孕期以及 0—6 岁家庭提供育儿服务的移动互联网平台。公司始终坚持“用户第一”的理念,提倡“全家行动,科学养育,陪伴成长”旨在运用科技的力量,帮助家庭更好地关爱和培育孩子。

28.png

业务介绍

点望科技的核心产品“亲宝宝”于2013年正式上线,致力于为年轻家庭提供私密亲子空间、专业养育知识、线上早教、社区交流、育儿商品等一站式育儿服务。
截至目前,亲宝宝APP已经累积1亿多的注册用户,月访问量达到了 2000 万以上,日均文件传输超过 1000万个,服务超过 5000 万家庭。

随着业务发展与用户的增加,用户上传的照片、音频等数据量日趋庞大,大大增加了其数据存储的负担以及日常运营的成本。同时由于亲宝宝还为用户提供定制化的育儿课程以及商品推荐,因此如何更精准地为家长推荐早教课程育儿知识以及育儿商品,实现精细化营销,是亲宝宝发展的关键所在。

遇到的难点

数据量级大,如何做到存储成本与性能的平衡
由于亲宝宝主打为新生儿家庭提供私密亲子空间,可支持家人共同记录、分享宝宝成长的支持照片、视频、音频等内容,因此亲宝宝需要优化数据的存储,在尽可能降低数据存储的成本同时,还需要为用户提供高稳定、高可靠以及高性能的数据存储。

数据来源与种类繁多,极易造成数据孤岛现象
亲宝宝需要收集家长和宝宝的数据信息,再将数据进行清洗、计算、匹配等流程,从而为家长或宝宝推荐最适合他们的课程、养育知识或是育儿商品。因此亲宝宝需要收集大量的用户数据,而这些数据不仅仅是视频、照片、音频等易存储格式的数据,更多的是用户信息、行为数据、浏览数据等日志类数据,极易造成数据孤岛。因此如何将种类繁多且来源不同的数据进行统一收集与治理,是亲宝宝不得不面对的一个问题。

如何在尽可能低成本的情况下,增强匹配模型的准度
亲宝宝需要建立不同阶段的家长和宝宝与课程以及商品之间的匹配模型,因此需要大量的数据运算以及多次的匹配,提升模型的精准度,为用户提供更好的服务体验。因此亲宝宝需要一个灵活且高性价比的平台,来对数据进行计算与对比。

数据湖解决方案

针对亲宝宝日常业务中需要高可靠、强算力和高性价比的需求,阿里云为亲宝宝构建了一站式的数据湖解决方案。

在数据存储层面,阿里云数据湖提供了了阿里云对象存储 OSS 作为亲宝宝的数据存储平台,亲宝宝将家长记录宝宝的照片、视频和音频都放在阿里云对象存储 OSS 中进行存储,而对象存储 OSS 能为亲宝宝的数据提供 12 个9 的数据安全保护,以及 99.995% 的高可用性,能帮亲宝宝始终保障用户的体验。同时阿里云对象存储 OSS 可统一收集且存储不同类型的数据,并对接上层的计算平台或是自动化的数据处理平台。亲宝宝不必再将不同类型的数据互相进行拷贝,最大程度地减少人力与数据成本。

29.png

在数据处理层面,亲宝宝使用阿里云 DLA 来处理收集到的各类用户数据。阿里云对象存储 OSS 和阿里云 DLA完美地打通,亲宝宝可将数据从阿里云对象存储 OSS 一键投递至阿里云 DLA 中,并通过 DLA 对海量数据进行处理,筛选出有用的数据,并将数据进行打包处理,方便进行后续的计算以及日后的使用。

在数据计算层面,阿里云数据湖解决方案存储与技术解耦的架构特点,为亲宝宝提供了丰富且高性价比的离线处理模式。阿里云 EMR JINDOFS 组件的缓存加速能力,可以输出 500Gbps 以上读取吞吐,同时其超高的弹性吞吐能力,最高可完成每天数百 TB 数据计算和上百纬的原始特征抽取。帮助亲宝宝构建更为精准的模型,更好地服务用户。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
25天前
|
缓存 安全 API
【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的API网关设计实现
公司对外开放的OpenAPI-Server服务,作为核心内部系统与外部系统之间的重要通讯枢纽,每天处理数百万次的API调用、亿级别的消息推送以及TB/PB级别的数据同步。经过多年流量的持续增长,该服务体系依然稳固可靠,展现出强大的负载能力。
28 9
【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的API网关设计实现
|
6月前
|
存储 SQL 关系型数据库
TiDB亿级数据亚秒响应查询整体架构
TiDB亿级数据亚秒响应查询整体架构
351 0
|
5月前
|
存储 数据挖掘 BI
数据平台发展史-从数据仓库数据湖到数据湖仓 1
数据平台发展史-从数据仓库数据湖到数据湖仓
|
6月前
|
供应链 架构师 数据库
架构师带你搞明白微服务进阶场景实战:服务之间的数据依赖问题
数据同步 上面讲解了数据一致性的解决方案,这一篇来讲讲服务之间的数据依赖问题,还是先来说说具体的业务场景。 业务场景:如何解决微服务之间的数据依赖问题 在某个供应链系统中,存在商品、订单、采购这3个服务,它们的主数据部分结构表如下。
架构师带你搞明白微服务进阶场景实战:服务之间的数据依赖问题
|
4月前
|
存储 人工智能 Cloud Native
耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景
喜马拉雅和阿里云的合作,正走在整个互联网行业的最前沿,在新的数据底座之上,喜马拉雅的AI、大数据应用也将大放光彩。本文摘自《云栖战略参考》
46383 5
耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景
|
24天前
|
存储 消息中间件 Java
【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的高可靠消息服务设计实现
在深入研究了 **“【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的API网关设计实现”** 设计实现后,我们意识到,尽管API网关为服务商提供了高效的数据获取手段,但实时数据的获取仍然是一个亟待解决的问题。
19 1
【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的高可靠消息服务设计实现
|
27天前
|
前端开发 JavaScript API
|
2月前
|
存储 对象存储 SQL
【获奖名单公示】Hologres实时湖仓分析挑战赛
5分钟快速使用Hologres实时湖仓能力,无需移动数据,直接加速读取存储于数据湖OSS上的Hudi、Delta、Paimon等格式类型的数据
【获奖名单公示】Hologres实时湖仓分析挑战赛
|
3月前
|
消息中间件 数据挖掘 Kafka
Kafka在微服务架构中的应用:实现高效通信与数据流动
微服务架构的兴起带来了分布式系统的复杂性,而Kafka作为一款强大的分布式消息系统,为微服务之间的通信和数据流动提供了理想的解决方案。本文将深入探讨Kafka在微服务架构中的应用,并通过丰富的示例代码,帮助大家更全面地理解和应用Kafka的强大功能。
|
3月前
|
存储 设计模式 测试技术
了解三层架构:表示层、业务逻辑层、数据访问层
了解三层架构:表示层、业务逻辑层、数据访问层
88 0

相关产品

  • 文件存储NAS
  • 对象存储
  • 日志服务