云场景实践研究第54期:小红唇

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
智能商业分析 Quick BI,专业版 50license 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 小红唇的业务数据库已经完全迁移到了阿里的RDS平台,借助阿里云的QUICK BI,小红唇能够非常方便地根据实际的运营数据对进一步的决策和运营商的策略进行调整,极大提高了运营效率。小红唇借助于阿里云MaxCompute比较完善的整个生态系统设计了大数据平台,并且无需专职数据团队,降低了人员成本,还拥有了在21天内搭建推荐系统的能力。

更多云场景实践研究案例,点击这里:【云场景实践研究合集】联合不是简单的加法,而是无限的生态,谁会是下一个独角兽

小红唇App是国内最大的一款针对15-25岁年轻女性的垂直视频分享社区和社交化电商平台。其为用户提供了丰富的平台内容、活跃的社区生态和优质的产品选择。用一句话概括小红唇业务模式为短视频美妆社区电商。目前,小红唇的业务数据库已经完全迁移到了阿里的RDS平台,借助阿里云的QUICK BI,小红唇能够非常方便地根据实际的运营数据对进一步的决策和运营商的策略进行调整,极大提高了运营效率。小红唇借助于阿里云MaxCompute比较完善的整个生态系统设计了大数据平台,并且无需专职数据团队,降低了人员成本,还拥有了在21天内搭建推荐系统的能力。

“小红唇App拥抱阿里云数加已有半年光景,对数加的体验非常好,其感受主要为以下四点:不需要像传统大数据业务一样构建一个非常复杂的Hadoop栈,并且对其进行运维,节省了金钱和时间成本;MaxCompute的整个生态系统设计的比较完善,无需专职数据团队,降低了人员成本;得益于数加的生态,可以在21天内搭建推荐系统;借助流计算非侵入实现业务总线,满足了绝大部分场景。”

——王洋

小红唇(北京)网络科技有限公司首席架构师


采用的阿里云产品
  • 阿里云数据库 RDS
  • 阿里云大数据计算服务 MaxCompute
  • 阿里云 DataHub
  • 阿里云 Quick BI
  • 阿里云机器学习PAI(Platform of Artificial Intelligence)
  • 阿里云流计算 (Alibaba Cloud StreamCompute)
  • 阿里云 DataX

为什么使用阿里云

将所有数据都搬到MaxCompute平台上之后,在其上做的数据开发更加轻松。

借助阿里云的QUICK BI,小红唇能够非常方便地根据实际的运营数据对进一步的决策和运营商的策略进行调整,极大提高了运营效率。

借助阿里云的能力,小红唇拥有了在21天内搭建推荐系统的能力。


关于 小红唇

小红唇是一款针对女性的垂直视频分享社区+社会化电子商务平台,通过达人分享的形式免费提供变美短视频教程;实现女性用户在其电商平台高频消费。小红唇APP由姜志熹创办,2015年4月正式上线; 小红唇涵盖了美妆、塑身、时尚、生活四大频道,其内容产生机制侧重于UGC 模式,呈现形式为一分钟左右的短视频。用户可以点击观看达人们的真实分享和推荐,当然也可以直接变换角色成为达人,拍一段视频上传自己的产品心得。


为什么选择阿里云?

小红唇基于阿里云数加平台搭建的数据仓库解决方案

febdc60912f480c7cc99716a1f038cfeac1a0f3b

小红唇App的数据来源主要为两个方面:业务服务器产生的API日志,代表着用户的各种行为数据;服务器产生的各种交易数据,比如用户发的帖子、买的东西。用户行为日志是通过阿里云的datahub组件把API日志采集到MaxCompute平台上。业务数据是通过阿里云提供的DATAX工具载入到MaxCompute平台上。目前,业务数据库已经完全迁移到了阿里的RDS平台,只需要在数加的IDE里做一些简单的配置即可将数据完整的迁移过来。当所有数据都搬到MaxCompute平台上之后,在其上做的数据开发更加轻松。在其上,可以用类SQL的语句编写数据清洗和转换的执行任务,平台同时提供管理器对任务进行调度和管理。在数仓之上,构建了很多应用,最直接的就是QUICK BI。社区内容运营和商品运营都是依赖于实际的运营数据来做进一步的决策和运营商的策略调整,QUICK BI对运营的指导非常大。阿里云的QUICK BI不需要开发可视化的前端,只需要在数加的data IDE里面做相应数据任务的编排就可以很容易的通过QUICK BI产品展示出来。并且,在QUICK BI可视化的界面上不仅有各种图表的展现还提供了一定功能的多维数据分析,极大提高了运营效率。


小红唇基于阿里云数加平台搭建的推荐引擎

0d5eec8f4fd81ae4d7b26fbfcd21f9dad6f77227

小红唇推荐引擎的整体架构如上图所示。虚线框以内是推荐引擎产品本身的内容。小红唇需要做的仅仅是把自己的数据按照推荐引擎需要的格式准备好,在MaxCompute里面把对应的表都建好。主要应用场景是短视频和图片的推荐,推荐引擎打理好一切之后,得到推荐结果以API形式供业务服务器调用。除了便捷性,推荐引擎还提供了非常强的灵活性。主要做了首页推荐和详情页推荐,首页推荐主要是用基于协同过滤的算法来计算出结果,详情页推荐对阿里云的模板进行了修改引入了基于TF-IDF算法的计算节点来加强了相关性的推荐。同时,推荐引擎还支持A/B TEST测试体系,对模板算法和参数的细微调整都可以定量化的分析和计算出来。推荐引擎的另外一个优势是可以和流计算相结合,把用户的数据实时导入计算引擎中,实时对推荐结果进行修正。


小红唇对于阿里云机器学习平台应用
基于视频元信息的回归
作为一个UGC的平台,用户上传内容的质量是参差不齐的,为了保证平台内容的质量。编辑进行了很多精选和挑选的工作。如何提升编辑的筛选效率?为此,小红唇选择了阿里云的机器学习平台。通过视频的元信息(时长,帧率,码率,描述内容,亮度,对比度,分辨率,锐度)的抽取,形成了特征矩阵,随机选取了已有视频数据;以是否经过编辑精选做了有监督的逻辑回归训练,训练出模型;对新的视频应用这个模型给出预判评估,作为视频编辑的参考, 及搜索推荐的影响因子。

128ce6bf2069e75336b8d97a0000f57744dead14

具体的过程如上图所示。我们需要将自己的视频信息进行量化,通过拖拽、拼接构建起训练的模型。最左边这张图应用了逻辑回归、线性回归、随机森林三种模型进行训练,目前选用的是逻辑回归的模型。在算法平台训练完模型之后会非常容易的导入到Date IDE中,准备好的新视频数据就会把模型节点加进去,得到对应的预测打分。最右边的图是把评分结果通过QUICK BI展示。整个过程没有太多的工作量,只需要在平台上做一些配置就可以完成整个视频元信息的回归和训练。

近义词

344d562f393f331d9f0a732b0e3fa1ea89cac322

近义词主要是为了优化搜索的体验,具体是把用户发布的内容、视频的名称、描述、用户的标签、评论等语料信息通过阿里云word2vec算发获取词向量,通过余弦相似度计算获取近义词,通过人工筛选、录入到搜索引擎的同义词库中提升搜索体验。最上层是用户输入的元数据,通过几个步骤,以及K-means聚类算法做了一些分析。


小红唇的业务总线设计

2073f186d904ec51b7cb442842b48c8592889fe0

最开始使用流计算只是为了提升一些应用场景(搜索热词统计、实时热度统计)的响应速度。但是,通过流计算已经截取了所有的业务事件,那么是否可以通过流计算将业务事件实时触发出来支撑类似于发送优惠券、推送消息等业务?实践证明了其可行性。目前,通过流计算这套业务总线体系的时延控制在了秒级。


拥抱阿里云所带来的成效

小红唇借助阿里云数加实现“降维打击”
小红唇App拥抱阿里云数加已有半年光景,对数加的体验非常好,其感受主要为以下四点:不需要像传统大数据业务一样构建一个非常复杂的Hadoop栈,并且对其进行运维,节省了金钱和时间成本;MaxCompute的整个生态系统设计的比较完善,无需专职数据团队,降低了人员成本;得益于数加的生态,可以在21天内搭建推荐系统;借助流计算非侵入实现业务总线,满足了绝大部分场景。


关于小红唇的更多实践详情:大数据打造你的变美频道——数加平台上小红唇的大数据实践
原文发布日期:2017-03-13
云栖社区场景研究小组成员:贾子甲,仲浩。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
人工智能 物联网 大数据
云场景实践研究第89期:中信集团
中信云平台从立项到上线仅用了1个月,用户数从0发展到13万仅用了5个月。快,是中信2016年的工作总结重要的一项。如今,中信集团正在通过云计算、大数据、人工智能等技术实现互联互通的数字化建设,并通过数字化实现业务转型,找到新价值定位,形成新商业模式。
3177 0
|
存储 分布式计算 安全
云场景实践研究第84期:东润环能
让东润环能选择阿里云的原因,除了阿里云强大的云平台能力之外,还有阿里云数加MaxCompute的全方位服务能力及其稳定安全的表现。最重要的是采用阿里云数加,东润环能可以将所有精力都放在业务上,节省了自建机房在学习成本、开发成本、管理成本、投入机房资源和运维成本的总成本,将更多的精力和成本投入到业务方面。
2346 0
|
监控 数据可视化 大数据
云场景实践研究第86期:美甲帮
借助阿里云的力量,美甲帮实现了针对百万用户的精细运营,并且在业务上更敏捷、更智能、更具洞察力,还能够快速响应新业务的数据及分析需求。
2103 0
|
新零售 存储 安全
云场景实践研究第62期:华栖云
在云栖大会成都峰会上,华栖云联合阿里云发布“云上电视台”解决方案,面向电视台新媒体部门,面向视频PGC/UGC,在阿里公共云上,一站式提供从直播、点播、短视频的生产、制作、发布到用户数据存留分析、精准推送、视频内容的生命周期管理等全套的解决方案。
2345 0
|
运维 物联网 关系型数据库
云场景实践研究第58期:华信瑞德
华信瑞德做为国内首家标识系统全产业链整体解决方案服务商,大多服务传统企业,通过拥抱云计算,发展空间更广阔。阿里云为其推荐了其认证的区域服务商——上海驻云信息科技有限公司。帮助华信瑞德轻松上云,并实现云上系统以及应用稳定、高效的运行,让其能更加专注于自身业务。
1947 0
|
数据采集 分布式计算 算法
云场景实践研究第57期:明源云
本文中,明源云分享了整个的地产行业在阿里云大数据平台上的探索应用实践。自定义构建设计企业内部数据管理平台DMP平台,并通过应用场景诠释了大数据在地产行业的作用。
2171 0
|
弹性计算 关系型数据库 RDS
云场景实践研究第30期:梅子淘源
梅子淘源作为一家初创公司,在上云后快速搭建了业务流程,使其可以再最熟悉的环境下起步,同时在云盾的保护下,保障了平台网站安全。本文将带领大家一同领略梅子淘源在上云之路中的感悟。
1676 0
|
弹性计算 关系型数据库 测试技术
云场景实践研究第50期:咕咚
咕咚是独树一帜的互联网运动品牌,全国最大的全民运动社交平台,近几年,企业的活跃用户数在快速增加,对云资源的需求也在不断增长,原有的云资源已无法满足业务诉求。在阿里云的帮助下,企业选择从原有的经典网络迁移到专有网络,很好地满足了对云资源的需求。
2576 0
|
存储 Web App开发 弹性计算
云场景实践研究第48期:九游
要提升业务交付能力,亦要保证成本,九游利用阿里云OSS的能力,提升交付,降低成本,实现了发行高服务能力及高性价比的完美平衡。本文将从技术方面,向大家展示阿里云是如何支持九游的运维的。
1843 0
|
监控 大数据 API
云场景实践研究第42期:趣医网
随着趣医网业务快速增长,技术架构也不断随之调整和优化,云架构体系高可用性、高扩展性、易运维的优点越来越突出。本文主要介绍趣医网与阿里云平台相关的早期技术选型以及三年来逐步上云之路。
1774 0