一站式数据湖架构,解决数据孤岛现象-阿里云开发者社区

开发者社区> 阿里云存储服务> 正文
登录阅读全文

一站式数据湖架构,解决数据孤岛现象

简介: 针对亲宝宝日常业务中需要高可靠、强算力和高性价比的需求,阿里云为亲宝宝构建了一站式的数据湖解决方案。

公司介绍

亲宝宝是一个专注于为孕期以及 0—6 岁家庭提供育儿服务的移动互联网平台。公司始终坚持“用户第一”的理念,提倡“全家行动,科学养育,陪伴成长”旨在运用科技的力量,帮助家庭更好地关爱和培育孩子。

28.png

业务介绍

点望科技的核心产品“亲宝宝”于2013年正式上线,致力于为年轻家庭提供私密亲子空间、专业养育知识、线上早教、社区交流、育儿商品等一站式育儿服务。
截至目前,亲宝宝APP已经累积1亿多的注册用户,月访问量达到了 2000 万以上,日均文件传输超过 1000万个,服务超过 5000 万家庭。

随着业务发展与用户的增加,用户上传的照片、音频等数据量日趋庞大,大大增加了其数据存储的负担以及日常运营的成本。同时由于亲宝宝还为用户提供定制化的育儿课程以及商品推荐,因此如何更精准地为家长推荐早教课程育儿知识以及育儿商品,实现精细化营销,是亲宝宝发展的关键所在。

遇到的难点

数据量级大,如何做到存储成本与性能的平衡
由于亲宝宝主打为新生儿家庭提供私密亲子空间,可支持家人共同记录、分享宝宝成长的支持照片、视频、音频等内容,因此亲宝宝需要优化数据的存储,在尽可能降低数据存储的成本同时,还需要为用户提供高稳定、高可靠以及高性能的数据存储。

数据来源与种类繁多,极易造成数据孤岛现象
亲宝宝需要收集家长和宝宝的数据信息,再将数据进行清洗、计算、匹配等流程,从而为家长或宝宝推荐最适合他们的课程、养育知识或是育儿商品。因此亲宝宝需要收集大量的用户数据,而这些数据不仅仅是视频、照片、音频等易存储格式的数据,更多的是用户信息、行为数据、浏览数据等日志类数据,极易造成数据孤岛。因此如何将种类繁多且来源不同的数据进行统一收集与治理,是亲宝宝不得不面对的一个问题。

如何在尽可能低成本的情况下,增强匹配模型的准度
亲宝宝需要建立不同阶段的家长和宝宝与课程以及商品之间的匹配模型,因此需要大量的数据运算以及多次的匹配,提升模型的精准度,为用户提供更好的服务体验。因此亲宝宝需要一个灵活且高性价比的平台,来对数据进行计算与对比。

数据湖解决方案

针对亲宝宝日常业务中需要高可靠、强算力和高性价比的需求,阿里云为亲宝宝构建了一站式的数据湖解决方案。

在数据存储层面,阿里云数据湖提供了了阿里云对象存储 OSS 作为亲宝宝的数据存储平台,亲宝宝将家长记录宝宝的照片、视频和音频都放在阿里云对象存储 OSS 中进行存储,而对象存储 OSS 能为亲宝宝的数据提供 12 个9 的数据安全保护,以及 99.995% 的高可用性,能帮亲宝宝始终保障用户的体验。同时阿里云对象存储 OSS 可统一收集且存储不同类型的数据,并对接上层的计算平台或是自动化的数据处理平台。亲宝宝不必再将不同类型的数据互相进行拷贝,最大程度地减少人力与数据成本。

29.png

在数据处理层面,亲宝宝使用阿里云 DLA 来处理收集到的各类用户数据。阿里云对象存储 OSS 和阿里云 DLA完美地打通,亲宝宝可将数据从阿里云对象存储 OSS 一键投递至阿里云 DLA 中,并通过 DLA 对海量数据进行处理,筛选出有用的数据,并将数据进行打包处理,方便进行后续的计算以及日后的使用。

在数据计算层面,阿里云数据湖解决方案存储与技术解耦的架构特点,为亲宝宝提供了丰富且高性价比的离线处理模式。阿里云 EMR JINDOFS 组件的缓存加速能力,可以输出 500Gbps 以上读取吞吐,同时其超高的弹性吞吐能力,最高可完成每天数百 TB 数据计算和上百纬的原始特征抽取。帮助亲宝宝构建更为精准的模型,更好地服务用户。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享: