一站式数据湖架构,解决数据孤岛现象

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 针对亲宝宝日常业务中需要高可靠、强算力和高性价比的需求,阿里云为亲宝宝构建了一站式的数据湖解决方案。

公司介绍

亲宝宝是一个专注于为孕期以及 0—6 岁家庭提供育儿服务的移动互联网平台。公司始终坚持“用户第一”的理念,提倡“全家行动,科学养育,陪伴成长”旨在运用科技的力量,帮助家庭更好地关爱和培育孩子。

28.png

业务介绍

点望科技的核心产品“亲宝宝”于2013年正式上线,致力于为年轻家庭提供私密亲子空间、专业养育知识、线上早教、社区交流、育儿商品等一站式育儿服务。
截至目前,亲宝宝APP已经累积1亿多的注册用户,月访问量达到了 2000 万以上,日均文件传输超过 1000万个,服务超过 5000 万家庭。

随着业务发展与用户的增加,用户上传的照片、音频等数据量日趋庞大,大大增加了其数据存储的负担以及日常运营的成本。同时由于亲宝宝还为用户提供定制化的育儿课程以及商品推荐,因此如何更精准地为家长推荐早教课程育儿知识以及育儿商品,实现精细化营销,是亲宝宝发展的关键所在。

遇到的难点

数据量级大,如何做到存储成本与性能的平衡
由于亲宝宝主打为新生儿家庭提供私密亲子空间,可支持家人共同记录、分享宝宝成长的支持照片、视频、音频等内容,因此亲宝宝需要优化数据的存储,在尽可能降低数据存储的成本同时,还需要为用户提供高稳定、高可靠以及高性能的数据存储。

数据来源与种类繁多,极易造成数据孤岛现象
亲宝宝需要收集家长和宝宝的数据信息,再将数据进行清洗、计算、匹配等流程,从而为家长或宝宝推荐最适合他们的课程、养育知识或是育儿商品。因此亲宝宝需要收集大量的用户数据,而这些数据不仅仅是视频、照片、音频等易存储格式的数据,更多的是用户信息、行为数据、浏览数据等日志类数据,极易造成数据孤岛。因此如何将种类繁多且来源不同的数据进行统一收集与治理,是亲宝宝不得不面对的一个问题。

如何在尽可能低成本的情况下,增强匹配模型的准度
亲宝宝需要建立不同阶段的家长和宝宝与课程以及商品之间的匹配模型,因此需要大量的数据运算以及多次的匹配,提升模型的精准度,为用户提供更好的服务体验。因此亲宝宝需要一个灵活且高性价比的平台,来对数据进行计算与对比。

数据湖解决方案

针对亲宝宝日常业务中需要高可靠、强算力和高性价比的需求,阿里云为亲宝宝构建了一站式的数据湖解决方案。

在数据存储层面,阿里云数据湖提供了了阿里云对象存储 OSS 作为亲宝宝的数据存储平台,亲宝宝将家长记录宝宝的照片、视频和音频都放在阿里云对象存储 OSS 中进行存储,而对象存储 OSS 能为亲宝宝的数据提供 12 个9 的数据安全保护,以及 99.995% 的高可用性,能帮亲宝宝始终保障用户的体验。同时阿里云对象存储 OSS 可统一收集且存储不同类型的数据,并对接上层的计算平台或是自动化的数据处理平台。亲宝宝不必再将不同类型的数据互相进行拷贝,最大程度地减少人力与数据成本。

29.png

在数据处理层面,亲宝宝使用阿里云 DLA 来处理收集到的各类用户数据。阿里云对象存储 OSS 和阿里云 DLA完美地打通,亲宝宝可将数据从阿里云对象存储 OSS 一键投递至阿里云 DLA 中,并通过 DLA 对海量数据进行处理,筛选出有用的数据,并将数据进行打包处理,方便进行后续的计算以及日后的使用。

在数据计算层面,阿里云数据湖解决方案存储与技术解耦的架构特点,为亲宝宝提供了丰富且高性价比的离线处理模式。阿里云 EMR JINDOFS 组件的缓存加速能力,可以输出 500Gbps 以上读取吞吐,同时其超高的弹性吞吐能力,最高可完成每天数百 TB 数据计算和上百纬的原始特征抽取。帮助亲宝宝构建更为精准的模型,更好地服务用户。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
1月前
|
存储 SQL 关系型数据库
ClickHouse(02)ClickHouse架构设计介绍概述与ClickHouse数据分片设计
ClickHouse的核心架构包括执行过程和数据存储两部分。执行过程涉及Parser与Interpreter解析SQL,通过Column、DataType、Block、Functions和Storage模块处理数据。Column是内存中列的表示,Field处理单个值,DataType负责序列化和反序列化,Block是内存中表的子集,Block Streams处理数据流。Storage代表表,使用不同的引擎如StorageMergeTree。数据存储基于分片和副本,1个分片由多个副本组成,每个节点只能拥有1个分片。
84 0
ClickHouse(02)ClickHouse架构设计介绍概述与ClickHouse数据分片设计
|
2月前
|
缓存 安全 API
【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的API网关设计实现
公司对外开放的OpenAPI-Server服务,作为核心内部系统与外部系统之间的重要通讯枢纽,每天处理数百万次的API调用、亿级别的消息推送以及TB/PB级别的数据同步。经过多年流量的持续增长,该服务体系依然稳固可靠,展现出强大的负载能力。
57 9
【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的API网关设计实现
|
6月前
|
存储 数据挖掘 BI
数据平台发展史-从数据仓库数据湖到数据湖仓 1
数据平台发展史-从数据仓库数据湖到数据湖仓
|
4月前
|
存储 设计模式 测试技术
了解三层架构:表示层、业务逻辑层、数据访问层
了解三层架构:表示层、业务逻辑层、数据访问层
269 0
|
5月前
|
存储 人工智能 Cloud Native
耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景
喜马拉雅和阿里云的合作,正走在整个互联网行业的最前沿,在新的数据底座之上,喜马拉雅的AI、大数据应用也将大放光彩。本文摘自《云栖战略参考》
46467 5
耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景
|
1月前
|
SQL 缓存 分布式计算
日增数据超10PB!揭秘沃尔玛Lakehouse架构选型之路
日增数据超10PB!揭秘沃尔玛Lakehouse架构选型之路
46 2
|
1月前
|
存储 SQL 机器学习/深度学习
通用数据湖仓一体架构正当时
通用数据湖仓一体架构正当时
65 2
|
6月前
|
SQL 监控 安全
架构设计第五讲:数据巡检系统的设计与应用
架构设计第五讲:数据巡检系统的设计与应用
138 0
|
2月前
|
存储 消息中间件 Java
【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的高可靠消息服务设计实现
在深入研究了 **“【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的API网关设计实现”** 设计实现后,我们意识到,尽管API网关为服务商提供了高效的数据获取手段,但实时数据的获取仍然是一个亟待解决的问题。
42 1
【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的高可靠消息服务设计实现
|
2月前
|
前端开发 JavaScript API