一站式数据湖架构,解决数据孤岛现象

本文涉及的产品
对象存储 OSS,20GB 3个月
文件存储 NAS,50GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: 针对亲宝宝日常业务中需要高可靠、强算力和高性价比的需求,阿里云为亲宝宝构建了一站式的数据湖解决方案。

公司介绍

亲宝宝是一个专注于为孕期以及 0—6 岁家庭提供育儿服务的移动互联网平台。公司始终坚持“用户第一”的理念,提倡“全家行动,科学养育,陪伴成长”旨在运用科技的力量,帮助家庭更好地关爱和培育孩子。

28.png

业务介绍

点望科技的核心产品“亲宝宝”于2013年正式上线,致力于为年轻家庭提供私密亲子空间、专业养育知识、线上早教、社区交流、育儿商品等一站式育儿服务。
截至目前,亲宝宝APP已经累积1亿多的注册用户,月访问量达到了 2000 万以上,日均文件传输超过 1000万个,服务超过 5000 万家庭。

随着业务发展与用户的增加,用户上传的照片、音频等数据量日趋庞大,大大增加了其数据存储的负担以及日常运营的成本。同时由于亲宝宝还为用户提供定制化的育儿课程以及商品推荐,因此如何更精准地为家长推荐早教课程育儿知识以及育儿商品,实现精细化营销,是亲宝宝发展的关键所在。

遇到的难点

数据量级大,如何做到存储成本与性能的平衡
由于亲宝宝主打为新生儿家庭提供私密亲子空间,可支持家人共同记录、分享宝宝成长的支持照片、视频、音频等内容,因此亲宝宝需要优化数据的存储,在尽可能降低数据存储的成本同时,还需要为用户提供高稳定、高可靠以及高性能的数据存储。

数据来源与种类繁多,极易造成数据孤岛现象
亲宝宝需要收集家长和宝宝的数据信息,再将数据进行清洗、计算、匹配等流程,从而为家长或宝宝推荐最适合他们的课程、养育知识或是育儿商品。因此亲宝宝需要收集大量的用户数据,而这些数据不仅仅是视频、照片、音频等易存储格式的数据,更多的是用户信息、行为数据、浏览数据等日志类数据,极易造成数据孤岛。因此如何将种类繁多且来源不同的数据进行统一收集与治理,是亲宝宝不得不面对的一个问题。

如何在尽可能低成本的情况下,增强匹配模型的准度
亲宝宝需要建立不同阶段的家长和宝宝与课程以及商品之间的匹配模型,因此需要大量的数据运算以及多次的匹配,提升模型的精准度,为用户提供更好的服务体验。因此亲宝宝需要一个灵活且高性价比的平台,来对数据进行计算与对比。

数据湖解决方案

针对亲宝宝日常业务中需要高可靠、强算力和高性价比的需求,阿里云为亲宝宝构建了一站式的数据湖解决方案。

在数据存储层面,阿里云数据湖提供了了阿里云对象存储 OSS 作为亲宝宝的数据存储平台,亲宝宝将家长记录宝宝的照片、视频和音频都放在阿里云对象存储 OSS 中进行存储,而对象存储 OSS 能为亲宝宝的数据提供 12 个9 的数据安全保护,以及 99.995% 的高可用性,能帮亲宝宝始终保障用户的体验。同时阿里云对象存储 OSS 可统一收集且存储不同类型的数据,并对接上层的计算平台或是自动化的数据处理平台。亲宝宝不必再将不同类型的数据互相进行拷贝,最大程度地减少人力与数据成本。

29.png

在数据处理层面,亲宝宝使用阿里云 DLA 来处理收集到的各类用户数据。阿里云对象存储 OSS 和阿里云 DLA完美地打通,亲宝宝可将数据从阿里云对象存储 OSS 一键投递至阿里云 DLA 中,并通过 DLA 对海量数据进行处理,筛选出有用的数据,并将数据进行打包处理,方便进行后续的计算以及日后的使用。

在数据计算层面,阿里云数据湖解决方案存储与技术解耦的架构特点,为亲宝宝提供了丰富且高性价比的离线处理模式。阿里云 EMR JINDOFS 组件的缓存加速能力,可以输出 500Gbps 以上读取吞吐,同时其超高的弹性吞吐能力,最高可完成每天数百 TB 数据计算和上百纬的原始特征抽取。帮助亲宝宝构建更为精准的模型,更好地服务用户。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
3天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
41 7
|
3天前
|
数据采集 搜索推荐 数据管理
数据架构 CDP 是什么?
数据架构 CDP 是什么?
15 2
|
3月前
|
机器学习/深度学习 数据采集 人工智能
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
148 66
|
4月前
|
存储 分布式数据库 数据库
Hbase学习二:Hbase数据特点和架构特点
Hbase学习二:Hbase数据特点和架构特点
80 0
|
1月前
|
存储 大数据 数据处理
洞察未来:数据治理中的数据架构新思维
数据治理中的数据架构新思维对于应对未来挑战、提高数据处理效率、加强数据安全与隐私保护以及促进数据驱动的业务创新具有重要意义。企业需要紧跟时代步伐,不断探索和实践新型数据架构,以洞察未来发展趋势,为企业的长远发展奠定坚实基础。
|
2月前
|
存储 搜索推荐 数据库
MarkLogic在微服务架构中的应用:提供服务间通信和数据共享的机制
随着微服务架构的发展,服务间通信和数据共享成为关键挑战。本文介绍MarkLogic数据库在微服务架构中的应用,阐述其多模型支持、索引搜索、事务处理及高可用性等优势,以及如何利用MarkLogic实现数据共享、服务间通信、事件驱动架构和数据分析,提升系统的可伸缩性和可靠性。
43 5
|
3月前
|
安全 网络安全 数据安全/隐私保护
云原生技术探索:容器化与微服务架构的实践之路网络安全与信息安全:保护数据的关键策略
【8月更文挑战第28天】本文将深入探讨云原生技术的核心概念,包括容器化和微服务架构。我们将通过实际案例和代码示例,展示如何在云平台上实现高效的应用部署和管理。文章不仅提供理论知识,还包含实操指南,帮助开发者理解并应用这些前沿技术。 【8月更文挑战第28天】在数字化时代,网络安全和信息安全是保护个人和企业数据的前线防御。本文将探讨网络安全漏洞的成因、加密技术的应用以及提升安全意识的重要性。文章旨在通过分析网络安全的薄弱环节,介绍如何利用加密技术和提高用户警觉性来构建更为坚固的数据保护屏障。
|
3月前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
3月前
|
机器学习/深度学习 自然语言处理 数据处理
|
3月前
|
缓存 程序员 调度
第3章-图形处理单元-3.1-数据并行架构
第3章-图形处理单元-3.1-数据并行架构
32 1