系列文章|闲鱼商品理解之精品库建设

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: one in ten

作者:闲鱼技术——看松

现状

闲鱼是一个基于C2C场景的闲置交易平台,每个用户既是买家也是卖家,并随着这些年的高速发展,一方面闲鱼的商品越来越丰富,在自由享受交易乐趣的同时也存在商品良莠不齐的问题,另一方面这些年闲鱼一直在深耕商品理解,沉淀了丰富的商品属性资产,因此我们希望针对这些基础属性资产进行分析处理,进行商品分层,挖掘出闲鱼的优质商品,形成闲鱼特有精品库。

问题

闲鱼虽然倡导轻发布,一张图片加一段描述一分钟就即可完成发布,但是通过引导用户售卖补全属性,图文算法分析等手段沉淀了不少商品属性和用户属性,其中商品属性包括基础属性和二手属性等,用户属性包括信用属性和服务等,因此我们核心要解的问题是:如何利用些结构化信息发现并定义优质商品,进而沉淀优质商品,构建闲鱼精品库。

整体架构

通过前文的介绍 我们知道了需要解的问题,从系统角度看,我们解决思路是以结构化信息为基础(包含商品和人属性),抽象出不同维度的指标模型,最终为商品打标,实现闲鱼精品库。进一步拆解下去,系统核心要解决两个问题

  • 如何定义优质商品
  • 如何沉淀精品标签

给合算法能力,工程能力,下游导购链路,我们梳理了闲鱼的精品库系统架构
image.png

商品理解(优质商品定义)

解决优质商品定义的问题,传统直接做法是直接使用深度学习网络DNN,SVM,GBDT等网络, 这种做法的好处能快速的达到效果,但带来问题是黑盒模型,运营无法获得输入,且后续指标准确率较难提升,而我们要跟运营持续协作,并在后续需要更深入的应用。因此我们采用另外一种解法:基于闲鱼知识库可解释的商品理解

通过对闲鱼动销高的商品结构信息分析归类,我们抽象出一些维度去定义优质商品,如商品信息完善度,价格指标,供需指标、卖家指标等,算法通过上述四个商品维度去分析商品信息,通过智能因子分析函数发现每个商品维度相关的关键因子,并通过仿真系统对这些关键因子组成的指数进行动销率回归预测分析,验证指数的有效性,通过循环迭代后形成信息完善度指数模型,价格指数模型,卖家指数模型,供需数据模型能及指数加权后优质商品分模型。
image.png

特征计算&存储(精品标签沉淀)

有了优质商品定义模型,我们需要对闲鱼所有商品打标(包括安全负向标签),跟其它电商场景不一样的,闲鱼商品有个显著的特征:大部份是孤品,因此这里带来一个显著的差异:特征计算链路考虑实时计算和离线链路
image.png

实时计算

如上图所以,每当商品信息有变更,如用户编辑商品,新发商品等,都将会触发一次实时计算链路,数据计算是基于TPP平台实现的,TPP是集团内部算法开发和托管的平台,除模型计算外,还需要重点考虑安全问题,商品安全检测、用户安全检测等。在标签进下游HA3引擎及基础数据标签存储前,我们架设一个异构数据统一接入层,主要是负责后续各种不同来源的数据源,同扩适配器将各种数据统一化为Metaq消息,通过元数据中心完成统一的注册和管理,保证数据shcema的全局统一,便于后续特征模型的快速接入。

离线计算

二手商品随着时间推移,有价值衰减的情况,因此离线计算每天会将闲鱼的全量在线商品重新计算一遍,分为数据整合、数据计算,数据导入三块,过程涉及到计算量比较大,主要是基于ODPS大数据计算平台来完成。
ODPS(MaxCompute) 是阿里巴巴自主研发的海量数据处理平台。主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。

全量增量相互覆盖问题

实时+离线带来一个难题:全量与增量的相互覆盖问题。例如T+1全量的导入时间从早上0点开始,2点结束,这期间不停有最新的增量数据写入,很可能出现1点增量数据在2点被离线数据覆盖,从而出现脏数据。针对这个问题,我们的解决思路是先把T+1全量数据写到备库并记下全量数据的截止时间,等全量回流完成后,再从截止时间开始回放期间的增量变更数据,直到追上最新的变更记录,然后再切换版本。几个步骤如下图所示:
image.png
这里我们的选择是iGraph,iGraph是集团内部一个大规模分布式在线图存储和检索服务,提供全量ODPS+增量消息的回流服务,原理跟上述类似。

服务能力

服务能力主要是根据下游应用场景抽象出来,重点分为这几块:
数据在线查询能力:数据要实时的,要具备多维度查询能力,数据要足够的聚合,避免下游子业务频繁且无效的聚合加工操作,这里我们通过HSF接口服务来提供。
消息订阅能力:优质商品实时变更消息服务,供下游业务订阅,做到上下游的数据联动。
离线数据服务能力:提供天级、小时级、分钟级的ODPS离线数据,供下游数据加工处理。
image.png

业务层

通过闲鱼选品平台(马赫),运营同学配置圈选逻辑提供各种的投放玩法,给用户呈现不同的优质商品触达方式,如下图所示:
image.png
另外通过搜索推荐给用户提供精品库的个性化推荐服务,快速支撑商品侧的业务形态,如为价格指导提供闲鱼的二手价格锚点。

业务效果

通过商品分层沉淀出来的闲鱼的精品库,目前已支持上百种选品策略,用户的点击和购买提标都有较明显的提升效果,如在新用户首页购,如在新用户首购接入精品库,支持转化率提升近1倍,手机频道页的点击率提升20%以上,搜索优质价格标签透出,提升交买卖家转化率相对基准桶提升1%等。

展望

本文介绍一种基于对商品结构化信息的理解构建了一套闲鱼精品库建设方案,限于篇幅的原因,本文主要介绍系统的整体架构及几个关键点的解决思路,希望能给读者带来的一些思考和启发。后续我们会通过商品聚簇的方式来加深对商品的理解,如对价格的判断,另一方面我们会对接下游回收流程,使好商品能快速流通起来,提升闲鱼的平台价值。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
新零售 供应链
九星创客新零售商城系统开发|源码|方案详情
当下的商业领域,随着网络、电话、电视等平台的日益成熟和壮大
|
3月前
|
监控 供应链 搜索推荐
数据驱动电商:深度利用淘宝API接口掌握商品详情
本文探讨了如何利用淘宝API接口获取商品详情数据以助力电商决策。通过API,商家能获取商品标题、价格、库存等信息,从而进行市场分析、库存优化、定价策略制定及个性化推荐。步骤包括注册获取API权限、理解文档、构建数据收集流程、处理分析数据以及应用结果。示例代码展示了如何用Python调用API获取商品详情。善用API和数据驱动策略可在电商市场中取得优势。请注意遵循淘宝的API使用规范。
|
4月前
|
监控 数据挖掘 API
数据驱动选品:阿里巴巴商品详情API在电商选品中的应用
阿里巴巴开放平台提供了商品详情数据接口(item_get),用于获取商品标题、价格、品牌等信息。开发者需注册账号、构造请求、发送请求并处理响应。接口包括商品搜索、销售数量查询、历史价格、评论获取等功能。适用于选品、数据分析和价格监控。使用时注意遵守规则,保护API密钥,控制调用频率,并处理异常情况。1688平台有限制调用频率的规定,开发者应确保安全性和稳定性。通过[c0b.cc/R4rbK2]获取API测试账号和SDK。
|
4月前
|
数据采集 供应链 前端开发
电商企业如何构建一站式数字化供应链体系|API接口实现淘宝/京东/1688多平台商品采集+上传一站式供应链系统搭建
网络时代,企业面临转型。如今进入数字化时代,企业再次面临重大变革,全面实现数字化、智能化已是当务之急。公司将继续良性发展,请记住16个字:精简流程、降低成本、提高效率、智慧管理。主流电商平台API商品数据采集接口,不但可以在商品采集上为供应链提供大量商品,同时我们也可以通过申请官方商品上传商品发布API接口,实现商品的多平台发布。
|
4月前
|
新零售 人工智能 供应链
良久团购新零售身材模式系统开发|详情
零售就是一门生意而已,不同时期做生意的商业规则不同,摸透规则生意就好做
|
4月前
|
新零售 人工智能 大数据
良久团购新零售系统模式开发|成熟技术|案例详情
由此看来,新零售是指利用大数据、人工智能等新兴技术,以满足顾客的需求为目标,将整个零售行业的产业链进行智能化升级。
|
9月前
|
JSON 搜索推荐 API
淘宝订单接口在电商行业中的重要性及其实践
随着电子商务的快速发展,电商平台已经成为人们日常生活中不可或缺的一部分。淘宝作为中国最大的电商平台之一,拥有庞大的用户群体和商家资源。为了满足商家和消费者之间的交易需求,淘宝提供了丰富的API接口,其中订单接口是其中最为重要的一部分。本文将从理论到实践,深入探讨淘宝订单接口在电商行业中的重要性,并给出相应的代码实现。
|
4月前
|
API 开发者 数据格式
实时获取淘宝商品评论数据:价值、挑战与解决方案
随着电商行业的迅猛发展,用户评论在电商决策中的影响力逐渐增强。作为中国电商市场的领军者,淘宝提供了商品评论API,使得第三方开发者可以轻松获取淘宝商品评论数据。本文将深入探讨淘宝商品评论API在电商行业中的重要性,以及如何通过API实现实时数据获取。
|
4月前
|
存储 搜索推荐 数据挖掘
淘宝商品详情API:挖掘实时数据金矿,点燃电商增长引擎
随着互联网的快速发展,电子商务在全球范围内得到了广泛应用。作为中国电商市场的领军者,淘宝不仅拥有庞大的用户群体和海量的商品数据,还提供了一系列的API接口,使得第三方开发者可以方便地获取并利用这些数据。其中,淘宝商品详情API是淘宝开放平台中非常重要的一项接口,它能够获取到淘宝网内商品的详细信息,从而帮助开发者更好地服务用户,提升电商业务的运营效率。 本文将详细介绍淘宝商品详情API的应用场景、使用方法和注意事项,并通过示例代码展示如何使用该API获取商品详情数据。同时,本文还将探讨如何利用这些数据实现个性化推荐、提升销售转化率等业务目标。
|
4月前
|
存储 JSON 监控
京东商品详情接口在电商行业中的重要性及实时数据获取实现
随着电子商务的快速发展,电商平台上的商品数量不断增加,竞争也越来越激烈。对于电商企业来说,如何快速、准确地获取商品详情信息变得至关重要。京东作为中国最大的电商平台之一,提供了商品详情接口,为电商企业提供了强大的支持。本文将深入探讨京东商品详情接口在电商行业中的重要性,并通过实例代码介绍如何实现实时数据获取。