一站式数据湖架构,解决数据孤岛现象

本文涉及的产品
对象存储 OSS,标准 - 本地冗余存储 20GB 3个月
对象存储 OSS,内容安全 1000 次 1年
文件存储 NAS,50GB 3个月
简介: 针对亲宝宝日常业务中需要高可靠、强算力和高性价比的需求,阿里云为亲宝宝构建了一站式的数据湖解决方案。

公司介绍

亲宝宝是一个专注于为孕期以及 0—6 岁家庭提供育儿服务的移动互联网平台。公司始终坚持“用户第一”的理念,提倡“全家行动,科学养育,陪伴成长”旨在运用科技的力量,帮助家庭更好地关爱和培育孩子。

28.png

业务介绍

点望科技的核心产品“亲宝宝”于2013年正式上线,致力于为年轻家庭提供私密亲子空间、专业养育知识、线上早教、社区交流、育儿商品等一站式育儿服务。
截至目前,亲宝宝APP已经累积1亿多的注册用户,月访问量达到了 2000 万以上,日均文件传输超过 1000万个,服务超过 5000 万家庭。

随着业务发展与用户的增加,用户上传的照片、音频等数据量日趋庞大,大大增加了其数据存储的负担以及日常运营的成本。同时由于亲宝宝还为用户提供定制化的育儿课程以及商品推荐,因此如何更精准地为家长推荐早教课程育儿知识以及育儿商品,实现精细化营销,是亲宝宝发展的关键所在。

遇到的难点

数据量级大,如何做到存储成本与性能的平衡
由于亲宝宝主打为新生儿家庭提供私密亲子空间,可支持家人共同记录、分享宝宝成长的支持照片、视频、音频等内容,因此亲宝宝需要优化数据的存储,在尽可能降低数据存储的成本同时,还需要为用户提供高稳定、高可靠以及高性能的数据存储。

数据来源与种类繁多,极易造成数据孤岛现象
亲宝宝需要收集家长和宝宝的数据信息,再将数据进行清洗、计算、匹配等流程,从而为家长或宝宝推荐最适合他们的课程、养育知识或是育儿商品。因此亲宝宝需要收集大量的用户数据,而这些数据不仅仅是视频、照片、音频等易存储格式的数据,更多的是用户信息、行为数据、浏览数据等日志类数据,极易造成数据孤岛。因此如何将种类繁多且来源不同的数据进行统一收集与治理,是亲宝宝不得不面对的一个问题。

如何在尽可能低成本的情况下,增强匹配模型的准度
亲宝宝需要建立不同阶段的家长和宝宝与课程以及商品之间的匹配模型,因此需要大量的数据运算以及多次的匹配,提升模型的精准度,为用户提供更好的服务体验。因此亲宝宝需要一个灵活且高性价比的平台,来对数据进行计算与对比。

数据湖解决方案

针对亲宝宝日常业务中需要高可靠、强算力和高性价比的需求,阿里云为亲宝宝构建了一站式的数据湖解决方案。

在数据存储层面,阿里云数据湖提供了了阿里云对象存储 OSS 作为亲宝宝的数据存储平台,亲宝宝将家长记录宝宝的照片、视频和音频都放在阿里云对象存储 OSS 中进行存储,而对象存储 OSS 能为亲宝宝的数据提供 12 个9 的数据安全保护,以及 99.995% 的高可用性,能帮亲宝宝始终保障用户的体验。同时阿里云对象存储 OSS 可统一收集且存储不同类型的数据,并对接上层的计算平台或是自动化的数据处理平台。亲宝宝不必再将不同类型的数据互相进行拷贝,最大程度地减少人力与数据成本。

29.png

在数据处理层面,亲宝宝使用阿里云 DLA 来处理收集到的各类用户数据。阿里云对象存储 OSS 和阿里云 DLA完美地打通,亲宝宝可将数据从阿里云对象存储 OSS 一键投递至阿里云 DLA 中,并通过 DLA 对海量数据进行处理,筛选出有用的数据,并将数据进行打包处理,方便进行后续的计算以及日后的使用。

在数据计算层面,阿里云数据湖解决方案存储与技术解耦的架构特点,为亲宝宝提供了丰富且高性价比的离线处理模式。阿里云 EMR JINDOFS 组件的缓存加速能力,可以输出 500Gbps 以上读取吞吐,同时其超高的弹性吞吐能力,最高可完成每天数百 TB 数据计算和上百纬的原始特征抽取。帮助亲宝宝构建更为精准的模型,更好地服务用户。

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
相关文章
|
4月前
|
存储 BI Shell
Doris基础-架构、数据模型、数据划分
Apache Doris 是一款高性能、实时分析型数据库,基于MPP架构,支持高并发查询与复杂分析。其前身是百度的Palo项目,现为Apache顶级项目。Doris适用于报表分析、数据仓库构建、日志检索等场景,具备存算一体与存算分离两种架构,灵活适应不同业务需求。它提供主键、明细和聚合三种数据模型,便于高效处理更新、存储与统计汇总操作,广泛应用于大数据分析领域。
531 2
|
4月前
|
SQL 存储 运维
别让运维数据“各过各的”:聊聊数据湖怎么搭,才能不成“沼泽”
别让运维数据“各过各的”:聊聊数据湖怎么搭,才能不成“沼泽”
171 0
|
4月前
|
SQL 缓存 前端开发
如何开发进销存系统中的基础数据板块?(附架构图+流程图+代码参考)
进销存系统是企业管理采购、销售与库存的核心工具,能有效提升运营效率。其中,“基础数据板块”作为系统基石,决定了后续业务的准确性与扩展性。本文详解产品与仓库模块的设计实现,涵盖功能概述、表结构设计、前后端代码示例及数据流架构,助力企业构建高效稳定的数字化管理体系。
|
3月前
|
数据采集 缓存 前端开发
如何开发门店业绩上报管理系统中的商品数据板块?(附架构图+流程图+代码参考)
本文深入讲解门店业绩上报系统中商品数据板块的设计与实现,涵盖商品类别、信息、档案等内容,详细阐述技术架构、业务流程、数据库设计及开发技巧,并提供完整代码示例,助力企业构建稳定、可扩展的商品数据系统。
|
2月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
159 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
2月前
|
存储 机器学习/深度学习 数据采集
一文讲透数据仓库、数据湖、数据海的区别
企业常因数据架构不清导致报表延迟、数据矛盾、利用困难。核心解法是构建数据仓库(高效分析)、数据湖(灵活存储原始数据)和数据海(全局集成)。三者各有适用场景,需根据业务需求选择,常共存互补,助力数据驱动决策。
一文讲透数据仓库、数据湖、数据海的区别
|
2月前
|
JSON 供应链 监控
1688商品详情API技术深度解析:从接口架构到数据融合实战
1688商品详情API(item_get接口)可通过商品ID获取标题、价格、库存、SKU等核心数据,适用于价格监控、供应链管理等场景。支持JSON格式返回,需企业认证。Python示例展示如何调用接口获取商品信息。
|
3月前
|
存储 人工智能 分布式计算
数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI
阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。
|
3月前
|
数据采集 监控 数据可视化
数据量暴涨时,抓取架构该如何应对?——豆瓣电影案例调研
本案例讲述了在豆瓣电影数据采集过程中,面对数据量激增和限制机制带来的挑战,如何通过引入爬虫代理、分布式架构与异步IO等技术手段,实现采集系统的优化与扩展,最终支撑起百万级请求的稳定抓取。
143 0
数据量暴涨时,抓取架构该如何应对?——豆瓣电影案例调研
|
3月前
|
SQL 数据采集 数据处理
终于有人把数据架构讲清楚了!
本文深入浅出地解析了数据架构的核心逻辑,涵盖其定义、作用、设计方法及常见误区,助力读者构建贴合业务的数据架构。

热门文章

最新文章

下一篇
oss云网关配置