阿里云数加案例-美柚

简介: 美柚以让女人更美更健康为己任,致力成为最懂女人的互联网企业;美柚很早就将大数据作为了解女人、读懂女人、服务女人的最重要利器。大数据在美柚的应用非常广泛,然而在美柚大数据之路的初期,遇到了不少的困难和挑战

阿里云数加案例-美柚


美柚以让女人更美更健康为己任,致力成为最懂女人的互联网企业;美柚很早就将大数据作为了解女人、读懂女人、服务女人的最重要利器。大数据在美柚的应用非常广泛,然而在美柚大数据之路的初期,遇到了不少的困难和挑战:

  1. 平台成本高:我们粗略的算过这笔账,数加比我们自建的成本要节省30%左右
  2. 扩展性不好:不仅需求提前预见新业务也需要预估资源的消耗量,从而提前申请足够的资源,而数加则可以随时购买所需的资源,甚至可以按量付费,完全不需要担心资源不足的问题
  3. 运维成本高:自建平台需要自己去做很多的配套,例如权限控制、调度、监控、报警,当任务量和数据量到达一定程度时,复杂度成倍增加,不能很好的集中精力解决业务需求。
  4. 易用性:数加提供了数据血缘、任务依赖等实用功能,可以让非数据开发人员(例如数据分析师)快速的找到自己想要的数据
  5. 数据应用:提供机器学习算法平台和推荐引擎大大降低了机器学习的门槛,不必关心代码实现,只需要配置相关的参数即可。

关于美柚

厦门美柚信息科技有限公司,创始于2013年4月,是一家专注为女性服务的互联网公司。秉承“让女人更美更健康”的理念,美柚以经期管理为切入点,为女性提供备孕、怀孕、育儿、社区交流等功能服务。目前,美柚用户超过1.5亿,日活跃用户近千万,拥有约160个高活跃的女性话题圈,社区内用户日均互动量超500万帖,日均浏览量超过1.8亿次。
在艾瑞、易观、TalkingData、QuestMobile等第三方机构发布的研究报告均显示,美柚在总用户数、活跃用户数、日均使用时间等关键指标方面远远领先于同类产品,是国内最大的女性健康管理应用,也是移动端最大的女性社区。
美柚大数据团队在对内服务好美柚女性用户的同时,积极举办和参与大数据技术沙龙, 同时参加各种国内重量级大数据峰会例如在阿里云栖大会上分享美柚的大数据架构和应用,影响和带动厦门大数据圈。

挑战

美柚以让女人更美更健康为己任,致力成为最懂女人的互联网企业;美柚很早就将大数据作为了解女人,读懂女人,服务女人的最重要利器。这就要求我们大数据团队需要做好数据治理这块,将零散的日志和业务数据通过科学的方法,将其规整起来,形成合理易用的数据仓库;只有做好数据仓库,才能方便的提供各种数据服务。

为什么使用数加

美柚创始于2013年4月,而在2014年初就组建了大数据团队。当时也是自建了一套大数据平台,当时面临最大的几个问题:

  1. 人手不足,经验不足:当时大数据开发团队就3个人,而且还没什么大数据开发经验,对于hadoop及大数据生态等只是停留在理论阶段,并没有什么实操的经验;
  2. 时间紧任务重:由于当时美柚处在高速发展的阶段,对大数据的渴望异常强烈,然而大数据平台处在建设的初期,各方面还不太完善,需要同时应付:数据平台的建设,数据仓库的建设,业务数据需求;
  3. 平台不稳定:开源的hadoop系统并没有完善的周边配套,例如代码版本控制,资源权限,任务调度,任务监控,失败报警等功能,往往需要等早上发现数据没出来,或数据有问题的时候再一步一步的排查问题,用户体验非常不好,经常遭到业务部门的投诉。

2014年底,美柚从阿里那边请来了一个产品总监,了解到我们的大数据团队的痛点之后,给我们推荐了数加。经过我们调研试用后感觉能够解决我们的痛点,因此决定转向数加平台。

解决方案及架构

image
这是我们DMP的架构,目前数加主要是数据ETL以及数据的导入导出这块。具体ETL的架构如下
image
上图的datax就是数加的数据集成部分
数据仓库MaxCompute内部分层如下
image

收益

  1. 几乎零运维,极大的降低大数据的使用门槛。所有的代码管理,调度,监控,报警数加都已经帮我们做好了,我们要做的就是使用它。这样我们可以更专注于数据开发,专业的事要交给专业的人做。
  2. 数加的数据集成工具能够很方便将不同的数据源的数据,进行导入导出,基本实现常用数据源的全覆盖,从而实现大数据的全链路打通。
  3. 方法论的支持。我们遇到的一些问题,其实阿里云之前也遇到过,他们沉淀了一些解决问题的方法能够让我们有效快速的解决遇到的问题。
  4. 云栖大会和云栖社区上有不少解决实际问题的案例,也有不少新技术,新理念的介绍,能够拓宽我们的视野。
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
9月前
|
SQL 人工智能 关系型数据库
Flink CDC YAML:面向数据集成的 API 设计
Flink CDC YAML:面向数据集成的 API 设计
395 5
|
10月前
|
Linux
Linux安装svn并启动
Linux安装svn并启动
281 10
|
域名解析 监控 安全
在Linux中,什么是守护进程,它们是如何工作的?
在Linux中,什么是守护进程,它们是如何工作的?
|
安全 搜索推荐 网络安全
Windows操作系统的演变与未来趋势####
本文将深入探讨Windows操作系统从诞生至今的发展历程,分析其关键版本的技术创新、市场影响及用户反馈。同时,结合当前科技趋势,预测Windows系统的未来发展方向,包括智能化、云集成、安全性提升等方面的可能性。 ####
|
存储 关系型数据库 MySQL
MySQL性能优化实践指南
【10月更文挑战第16天】MySQL性能优化实践指南
781 0
|
机器学习/深度学习 负载均衡 PyTorch
PyTorch分布式训练:加速大规模数据集的处理
【4月更文挑战第18天】PyTorch分布式训练加速大规模数据集处理,通过数据并行和模型并行提升训练效率。`torch.distributed`提供底层IPC与同步,适合定制化需求;`DistributedDataParallel`则简化并行过程。实际应用注意数据划分、通信开销、负载均衡及错误处理。借助PyTorch分布式工具,可高效应对深度学习的计算挑战,未来潜力无限。
|
存储 JSON Java
gitlab配置hook,commit message的时候校验提交的信息
gitlab配置hook,commit message的时候校验提交的信息
1550 0
|
SQL 分布式计算 DataWorks
DataWorks中MapJoin Hint 如何使用?
DataWorks中MapJoin Hint 如何使用?
591 1
|
传感器 编解码
STM32 OLED显示字符汉字
OLED 屏幕是一种高对比度、高亮度、低功耗、灵活可弯曲的显示技术。在电子产品中,OLED 屏幕通常用于显示各种文本、图标、图像等内容。本篇文章将介绍 使用 I2C 接口 在 OLED 屏幕上显示字符,汉字。
929 0
|
新零售 运维 安全
案例酷 | 迪卡侬:体育IP跑上云,从给业务管好“身份证”开始
编者按: 迪卡侬中国在业内率先进入全云时代,同时也是在全球范围内首次实现云服务属地化。在这场关键的数字化转型进程中,与阿里云产品研发团队碰撞思路火花,在云上管理身份权限体系的建设中,联手孵化和打造一款”完美”契合企业需求的产品,以技术赋能新零售体验,在新消费时代支持迪卡侬全产业链智能开发的高速更新迭代,也将为行业探索数字化转型的新可能。 全文约4440字,建议阅读时间13分钟。
810 0

热门文章

最新文章