阿里云数加案例-美柚

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 美柚以让女人更美更健康为己任,致力成为最懂女人的互联网企业;美柚很早就将大数据作为了解女人、读懂女人、服务女人的最重要利器。大数据在美柚的应用非常广泛,然而在美柚大数据之路的初期,遇到了不少的困难和挑战

阿里云数加案例-美柚


美柚以让女人更美更健康为己任,致力成为最懂女人的互联网企业;美柚很早就将大数据作为了解女人、读懂女人、服务女人的最重要利器。大数据在美柚的应用非常广泛,然而在美柚大数据之路的初期,遇到了不少的困难和挑战:

  1. 平台成本高:我们粗略的算过这笔账,数加比我们自建的成本要节省30%左右
  2. 扩展性不好:不仅需求提前预见新业务也需要预估资源的消耗量,从而提前申请足够的资源,而数加则可以随时购买所需的资源,甚至可以按量付费,完全不需要担心资源不足的问题
  3. 运维成本高:自建平台需要自己去做很多的配套,例如权限控制、调度、监控、报警,当任务量和数据量到达一定程度时,复杂度成倍增加,不能很好的集中精力解决业务需求。
  4. 易用性:数加提供了数据血缘、任务依赖等实用功能,可以让非数据开发人员(例如数据分析师)快速的找到自己想要的数据
  5. 数据应用:提供机器学习算法平台和推荐引擎大大降低了机器学习的门槛,不必关心代码实现,只需要配置相关的参数即可。

关于美柚

厦门美柚信息科技有限公司,创始于2013年4月,是一家专注为女性服务的互联网公司。秉承“让女人更美更健康”的理念,美柚以经期管理为切入点,为女性提供备孕、怀孕、育儿、社区交流等功能服务。目前,美柚用户超过1.5亿,日活跃用户近千万,拥有约160个高活跃的女性话题圈,社区内用户日均互动量超500万帖,日均浏览量超过1.8亿次。
在艾瑞、易观、TalkingData、QuestMobile等第三方机构发布的研究报告均显示,美柚在总用户数、活跃用户数、日均使用时间等关键指标方面远远领先于同类产品,是国内最大的女性健康管理应用,也是移动端最大的女性社区。
美柚大数据团队在对内服务好美柚女性用户的同时,积极举办和参与大数据技术沙龙, 同时参加各种国内重量级大数据峰会例如在阿里云栖大会上分享美柚的大数据架构和应用,影响和带动厦门大数据圈。

挑战

美柚以让女人更美更健康为己任,致力成为最懂女人的互联网企业;美柚很早就将大数据作为了解女人,读懂女人,服务女人的最重要利器。这就要求我们大数据团队需要做好数据治理这块,将零散的日志和业务数据通过科学的方法,将其规整起来,形成合理易用的数据仓库;只有做好数据仓库,才能方便的提供各种数据服务。

为什么使用数加

美柚创始于2013年4月,而在2014年初就组建了大数据团队。当时也是自建了一套大数据平台,当时面临最大的几个问题:

  1. 人手不足,经验不足:当时大数据开发团队就3个人,而且还没什么大数据开发经验,对于hadoop及大数据生态等只是停留在理论阶段,并没有什么实操的经验;
  2. 时间紧任务重:由于当时美柚处在高速发展的阶段,对大数据的渴望异常强烈,然而大数据平台处在建设的初期,各方面还不太完善,需要同时应付:数据平台的建设,数据仓库的建设,业务数据需求;
  3. 平台不稳定:开源的hadoop系统并没有完善的周边配套,例如代码版本控制,资源权限,任务调度,任务监控,失败报警等功能,往往需要等早上发现数据没出来,或数据有问题的时候再一步一步的排查问题,用户体验非常不好,经常遭到业务部门的投诉。

2014年底,美柚从阿里那边请来了一个产品总监,了解到我们的大数据团队的痛点之后,给我们推荐了数加。经过我们调研试用后感觉能够解决我们的痛点,因此决定转向数加平台。

解决方案及架构

image
这是我们DMP的架构,目前数加主要是数据ETL以及数据的导入导出这块。具体ETL的架构如下
image
上图的datax就是数加的数据集成部分
数据仓库MaxCompute内部分层如下
image

收益

  1. 几乎零运维,极大的降低大数据的使用门槛。所有的代码管理,调度,监控,报警数加都已经帮我们做好了,我们要做的就是使用它。这样我们可以更专注于数据开发,专业的事要交给专业的人做。
  2. 数加的数据集成工具能够很方便将不同的数据源的数据,进行导入导出,基本实现常用数据源的全覆盖,从而实现大数据的全链路打通。
  3. 方法论的支持。我们遇到的一些问题,其实阿里云之前也遇到过,他们沉淀了一些解决问题的方法能够让我们有效快速的解决遇到的问题。
  4. 云栖大会和云栖社区上有不少解决实际问题的案例,也有不少新技术,新理念的介绍,能够拓宽我们的视野。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
弹性计算 人工智能 安全
|
运维 安全 云计算
蝶宇云陈林:基于阿里云计算巢的业务转型 | 2023云栖精选
2023年10月31日-11月2日,2023云栖大会在中国杭州·云栖小镇举行,蝶宇云科技总经理陈林在【计算巢专场】发表了题为《基于阿里云计算巢的业务转型》的主题演讲,从初创企业突破困境之路、拥抱阿里云计算巢、专注安全运维托管服务等方向做了分享。 立即购买【蝶宇云—金蝶云星空计算巢(企业版SaaS服务)】:https://market.aliyun.com/products/56082003/cmgj00064150.html?#sku=yuncode5815000001
|
存储 Cloud Native 数据管理
免费报名|9月26日数聚云端 · 智驭未来「阿里云数据库创新上云峰会」邀你进入数智未来
2021年9月26日,“数聚云端·智驭未来”——阿里云数据库创新上云峰会暨第3届数据库性能挑战赛决赛颁奖典礼即将在京隆重召开。
16444 0
免费报名|9月26日数聚云端 · 智驭未来「阿里云数据库创新上云峰会」邀你进入数智未来
|
关系型数据库 网络安全 数据库
【阿里云新品发布·周刊】第9期:实时大数据开发难、运维难、应用难?来,一站解决!
2019年5月15日15时,阿里云DataWorks Stream Studio: 一站式流任务开发平台重磅发布,介绍实时计算任务开发的困难、问题和背景,引出使用Stream Studio可以大大加快实时任务的开发速度,降低开发和维护门槛,同时结合DataWorks的整体能力,能够实现实时数仓、实时监控、实时分析、实时大屏等实时大数据场景的一站式开发。
3070 0
【阿里云新品发布·周刊】第9期:实时大数据开发难、运维难、应用难?来,一站解决!
|
Kubernetes Cloud Native Serverless
这个 14 万人参与过的云原生线下沙龙,即将在线开播
Alibaba Cloud Native Day 将于 4 月 18 日全天进行线上直播!
这个 14 万人参与过的云原生线下沙龙,即将在线开播
|
存储 分布式计算 大数据
万元大奖邀您参与阿里云数加 MaxCompute最佳实践征文大赛
DT时代,越来越多的企业应用数据步入云端。与传统Hadoop相比,阿里云数加MaxCompute(原名ODPS)向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
5966 0
|
分布式计算 DataWorks 监控
【云栖号案例 | 互联网】启信宝通过数加平台快速迭代,驾驭8000万企业征信
启信宝面临数据融合工作的复杂性、对数据变化的实时性要求高等挑战。通过数加平台产品快速迭代、成本降低、打破数据融合瓶颈,提升了产品开发效率。
|
数据采集 人工智能 城市大脑
【视频回顾+资料下载】DataWorks云上战疫直播周—2020飞天大数据平台实战应用第一季
战疫期间,飞天大数据平台DataWorks云上战疫直播周开启,每个直播都有实操,让大家在家期间也能通过通过线上的形式了解飞天大数据平台实战应用
2321 0