【云栖号案例 | 互联网】小红唇APP通过大数据计算平台21天内搭建推荐系统

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
实时计算 Flink 版,1000CU*H 3个月
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 小红唇需要在打造在线数仓构建可视化数据展示的应用、提升一些应用场景的响应速度等。通过数加降低人员、时间、金钱成本,在21天内搭建推荐系统。

云栖号案例库:【点击查看更多上云案例】
不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!

公司简介

小红唇App是国内最大的一款针对15-25岁年轻女性的垂直视频分享社区和社交化电商平台,业务模式为短视频美妆社区电商。我们为用户提供了丰富的平台内容、活跃的社区生态和优质的产品选择。

业务痛点

  • 数据仓库:

1.需要在打造在线数仓,在线完成数据开发、数据清洗和转换等任务。
2.通过数仓构建可视化数据展示的应用,即时展示营收数据,便于运营和决策快速调整。

  • 推荐引擎:打造短视频和图片的推荐引擎,需要具备便捷性和灵活性的在线产品,支持多种算法和过滤体系。
  • 算法平台应用:

1.基于视频元信息的回归:作为一个UGC的平台,用户上传内容的质量是参差不齐的,为了保证平台内容的质量。编辑进行了很多精选和挑选的工作。如何提升编辑的筛选效率是当前需要解决的关键问题。
2.近义词:需要有一套高效的算法优化搜索的体验,使用户在搜索时更容易获得目标内容。
3.业务总线:需要提升一些应用场景(搜索热词统计、实时热度统计)的响应速度、实时触发业务事件,支撑类似于发送优惠券、推送消息等业务。

数据仓库解决方案

image

小红唇App的数据来源主要为两个方面,当所有数据都搬到MaxCompute平台上之后,在其上做的数据开发更加轻松。

  • 业务服务器产生的API日志,代表着用户的各种行为数据。用户行为日志是通过阿里云的DataHub组件把API日志采集到MaxCompute平台上,只需要在数加的IDE里做一些简单的配置即可将数据完整的迁移过来。
  • 服务器产生的各种交易数据,比如用户发的帖子、买的东西。业务数据是通过阿里云提供的DATAX工具载入到MaxCompute平台上,业务数据库已经完全迁移到了阿里的RDS平台。
    在MaxCompute平台上,可以用类SQL的语句编写数据清洗和转换的执行任务,平台同时提供管理器对任务进行调度和管理。在数仓之上,构建了很多应用,最直接的就是QUICK BI。社区内容运营和商品运营都是依赖于实际的运营数据来做进一步的决策和运营商的策略调整,QUICK BI对运营的指导非常大。
  • 阿里云的QUICK BI不需要开发可视化的前端,只需要在数加的data IDE里面做相应数据任务的编排就可以很容易的通过QUICK BI产品展示出来。
  • 在QUICK BI可视化的界面上不仅有各种图表的展现还提供了一定功能的多维数据分析,极大提高了运营效率。

推荐引擎解决方案

image

推荐引擎的整体架构如上图所示。虚线框以内是推荐引擎产品本身的内容。我们需要做的仅仅是把我们的数据按照推荐引擎需要的格式准备好,在MaxCompute里面把对应的表都建好。主要应用场景是短视频和图片的推荐,推荐引擎打理好一切之后,得到推荐结果以API形式供业务服务器调用。

除了便捷性,推荐引擎还提供了非常强的灵活性。主要做了首页推荐和详情页推荐,首页推荐主要是用基于协同过滤的算法来计算出结果,详情页推荐对阿里云的模板进行了修改引入了基于TFIDF算法的计算节点来加强了相关性的推荐。同时,推荐引擎还支持A/B TEST测试体系,对模板算法和参数的细微调整都可以定量化的分析和计算出来。推荐引擎的另外一个优势是可以和阿里云实时计算相结合,把用户的数据实时导入计算引擎中,实时对推荐结果进行修正。

算法平台解决方案

  • 基于视频元信息的回归

image

作为一个UGC的平台,用户上传内容的质量是参差不齐的,为了保证平台内容的质量。编辑进行了很多精选和挑选的工作。如何提升编辑的筛选效率?为此,我们选择了阿里云的机器学习平台。通过视频的元信息(时长,帧率,码率,描述内容,亮度,对比度,分辨率,锐度)的抽取,形成了特征矩阵,随机选取了已有视频数据;以是否经过编辑精选做了有监督的逻辑回归训练,训练出模型;对新的视频应用这个模型给出预判评估,作为视频编辑的参考, 及搜索推荐的影响因子。

具体的过程如上图所示。我们需要将自己的视频信息进行量化,通过拖拽、拼接构建起训练的模型。最左边这张图应用了逻辑回归、线性回归、随机森林三种模型进行训练,目前选用的是逻辑回归的模型。在算法平台训练完模型之后会非常容易的导入到DateWorks中,准备好的新视频数据就会把模型节点加进去,得到对应的预测打分。最右边的图是把评分结果通过QUICK BI展示。整个过程没有太多的工作量,只需要在平台上做一些配置就可以完成整个视频元信息的回归和训练。

  • 近义词

image

近义词主要是为了优化搜索的体验,具体是把用户发布的内容、视频的名称、描述、用户的标签、评论等语料信息通过阿里云实时计算word2vec算法获取词向量,通过余弦相似度计算获取近义词,通过人工筛选、录入到搜索引擎的同义词库中提升搜索体验。

最上层是用户输入的元数据,通过几个步骤,以及K-means聚类算法做了一些分析。

  • 业务总线

image

最开始使用阿里云实时计算只是为了提升一些应用场景(搜索热词统计、实时热度统计)的响应速度。但是,通过阿里云实时计算已经截取了所有的业务事件,那么是否可以通过实时计算将业务事件实时触发出来支撑类似于发送优惠券、推送消息等业务?实践证明了其可行性。目前,通过阿里云实时计算这套业务总线体系的时延控制在了秒级。

上云价值

小红唇App拥抱数加已有半年光景,对数加的体验非常好,其感受主要为以下四点:

  • 不需要像传统大数据业务一样构建一个非常复杂的Hadoop栈,并且对其进行运维,节省了金钱和时间成本。
  • MaxCompute的整个生态系统设计的比较完善,无需专职数据团队,降低了人员成本。
  • 得益于数加的生态,可以在21天内搭建推荐系统。
  • 借助阿里云实时计算非侵入实现业务总线,满足了绝大部分场景。

相关产品

  • 大数据计算服务 · MaxCompute

MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。
更多关于阿里云MaxCompute的介绍,参见MaxCompute产品详情页

  • 云数据库RDS MySQL版

MySQL 是全球最受欢迎的开源数据库之一,作为开源软件组合 LAMP(Linux + Apache + MySQL + Perl/PHP/Python)中的重要一环,广泛应用于各类应用场景。
更多关于云数据库RDS MySQL版的介绍,参见云数据库RDS MySQL版产品详情页

  • Quick BI

Quick BI 专为云上用户量身打造的新一代智能BI服务平台。
更多关于Quick BI的介绍,参见Quick BI产品详情页

  • 实时计算

实时计算(Alibaba Cloud Realtime Compute,Powered by Ververica)是阿里云提供的基于 Apache Flink 构建的企业级大数据计算平台。在 PB 级别的数据集上可以支持亚秒级别的处理延时,赋能用户标准实时数据处理流程和行业解决方案;支持 Datastream API 作业开发,提供了批流统一的 Flink SQL,简化 BI 场景下的开发;可与用户已使用的大数据组件无缝对接,更多增值特性助力企业实时化转型。
更多关于实时计算的介绍,参见实时计算产品详情页

  • DataWorks

DataWorks是一个提供了大数据OS能力、并以all in one box的方式提供专业高效、安全可靠的一站式大数据智能云研发平台。 同时能满足用户对数据治理、质量管理需求,赋予用户对外提供数据服务的能力。
更多关于阿里云DataWorks的介绍,参见DataWorks产品详情页

【云栖号在线课堂】每天都有产品技术专家分享!
在线课堂地址:https://yqh.aliyun.com/zhibo

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
232 0
|
3月前
|
移动开发 前端开发 JavaScript
鸿蒙NEXT时代你所不知道的全平台跨端框架:CMP、Kuikly、Lynx、uni-app x等
本篇基于当前各大活跃的跨端框架的现状,对比当前它们的情况和未来的可能,帮助你在选择框架时更好理解它们的特点和差异。
310 0
|
3月前
|
分布式计算 算法 大数据
大数据时代的智能研发平台需求与阿里云DIDE的定位
阿里云DIDE是一站式智能大数据开发与治理平台,致力于解决传统大数据开发中的效率低、协同难等问题。通过全面整合资源、高度抽象化设计及流程自动化,DIDE显著提升数据处理效率,降低使用门槛,适用于多行业、多场景的数据开发需求,助力企业实现数字化转型与智能化升级。
87 1
|
4月前
|
消息中间件 缓存 小程序
婚恋交友相亲公众号app小程序系统源码「脱单神器」婚恋平台全套代码 - 支持快速二次开发
这是一套基于SpringBoot + Vue3开发的婚恋交友系统,支持微信公众号、Uniapp小程序和APP端。系统包含实名认证、智能匹配、视频相亲、会员体系等功能,适用于婚恋社交平台和相亲交友应用。后端采用SpringBoot 3.x与MyBatis-Plus,前端使用Vue3与Uniapp,支持快速部署和二次开发。适合技术团队或有经验的个人创业者使用。
255 8
|
8月前
|
存储 SQL 大数据
【重磅发布】AllData数据中台核心功能:湖仓一体化平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
【重磅发布】AllData数据中台核心功能:湖仓一体化平台
|
6月前
|
存储 数据库 UED
【Axure原型案例】悦购APP产品原型设计
本文介绍了悦购APP的产品原型设计,专注于潮流服装市场。设计包括登录、过渡、首页、商品分享、个人中心、购物车、消息及修改信息等页面。通过Axure实现交互功能,如页面跳转、动态效果和数据模拟,优化内容、交互与兼容性,确保用户体验流畅。最终,原型为开发和推广提供了坚实基础,助力悦购APP成为高效的潮流购物平台。
199 0
|
7月前
|
SQL 存储 HIVE
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
407 2
|
8月前
|
SQL 人工智能 大数据
【4月重点功能发布】阿里云大数据+ AI 一体化平台
【4月重点功能发布】阿里云大数据+ AI 一体化平台
154 0
|
8月前
|
SQL 人工智能 分布式计算
【3月重点功能发布】阿里云大数据+ AI 一体化平台
【3月重点功能发布】阿里云大数据+ AI 一体化平台
|
新零售 大数据 开发者

热门文章

最新文章