机器学习多场景实战(一)

简介: 机器学习已广泛应用,从个性化推荐到金融风控,数据指标是评估其效果的关键。数据指标包括活跃用户(DAU, MAU, WAU)衡量用户粘性,新增用户量和注册转化率评估营销效果,留存率(次日、7日、30日)反映用户吸引力,行为指标如PV(页面浏览量)、UV(独立访客)和转化率分析用户行为。产品数据指标如GMV、ARPU、ARPPU和付费率关注业务变现,推广付费指标(CPM, CPC, CPA等)则关乎广告效率。找到北极星指标,如月销售额或用户留存,可指导业务发展。案例中涉及电商销售数据,计算月销售金额、环比、销量、新用户占比、激活率和留存率以评估业务表现。

机器学习已不再局限于理论探讨,而是广泛渗透到我们生活的方方面面,成为解决复杂问题、优化决策过程的强有力工具。从智能推荐系统个性化推送你可能喜爱的电影和商品,到金融风控领域精准识别欺诈交易;每一个应用场景都是机器学习技术多维度、深层次实战的精彩演绎,我们通过一些小案例对业务进行了解~


什么是数据指标💥


  • 数据指标概念:可将某个事件量化,且可形成数字,来衡量目标。


  • 数据指标的作用:当我们确定下来一套指标,就可以用指标来衡量业务,判断业务好坏


数据指标在企业和组织的运营管理中发挥着至关重要的作用,它们不仅是衡量和评价业务性能的工具,还是推动业务发展和改进的关键因素。  



活跃用户指标💥


一个产品是否成功,如果只看一个指标,那么这个指标一定是活跃用户数


  • 日活(DAU):一天内日均活跃设备数
  • 月活(MAU):一个月内的活跃设备数
  • 周活跃数(WAU):一周内活跃设备数
  • 活跃度(DAU/MAU):体现用户的总体粘度,衡量期间内每日活跃用户的交叉重合情况


新增用户指标💥


主要是衡量营销推广渠道效果的最基础指标


  • 日新增注册用户量:统计一天内,即指安装应用后,注册APP的用户数。


  • 周新增注册用户量:统计一周内,即指安装应用后,注册APP的用户数。


  • 月新增注册用户量:统计一月内,即指安装应用后,注册APP的用户数。


  • 注册转化率:从点击广告/下载应用到注册用户的转化。


  • DNU占比:新增用户占活跃用户的比例,可以用来衡量产品健康度


  • 新用户占比活跃用户过高,那说明该APP的活跃是靠推广得来


留存指标💥


是验证APP对用户吸引力的重要指标。通常可以利用用户留存率与竞品进行对比,衡量APP对用户的吸引力


  • 次日留存率:某一统计时段新增用户在第二天再次启动应用的比例
  • 7日留存率:某一统计时段新增用户数在第7天再次启动该应用的比例,14日和30日留存率以此类推


行为指标💥


  • PV(访问次数,Page View):一定时间内某个页面的浏览次数,用户每打开一个网页可以看作一个PV。


  • UV(访问人数,Unique Visitor):一定时间内访问某个页面的人数。


  • 转化率:计算方法与具体业务场景有关


  • 淘宝店铺,转化率=购买产品的人数/所有到达店铺的人数


  • 在广告业务中,广告转化率=点击广告进入推广网站的人数/看到广告的人数。


  • 转发率:转发率=转发某功能的用户数/看到该功能的用户数



产品数据指标💥


  • GMV (Gross Merchandise Volume):指成交总额,也就是零售业说的“流水”


  • 人均付费=总收入/总用户数


  • 人均付费在游戏行业叫ARPU(Average Revenue Per User)


  • 电商行业叫客单价


  • 付费用户人均付费(ARPPU,Average Revenue Per Paying User)=总收入/付费人数,这个指标用于统计付费用户的平均收入


  • 付费率=付费人数/总用户数。付费率能反映产品的变现能力和用户质量


  • 复购率是指重复购买频率,用于反映用户的付费频率。


推广付费指标💥


  • CPM(Cost Per Mille) :展现成本,或者叫千人展现成本


  • CPC(Cost Per Click) 点击成本,即每产生一次点击所花费的成本


  • 按投放的实际效果付费(CPA,Cost Per Action)包括:


  • CPD(Cost Per Download):按App的下载数付费;


  • CPI(Cost Per Install):按安装App的数量付费,也就是下载后有多少人安装了App;


  • CPS(Cost Per Sales):按完成购买的用户数或者销售额来付费。


💫根据目前的业务重点,找到北极星指标,在实际业务中,北极星指标一旦确定,可以像天空中的北极星一样,指引着全公司向着同一个方向努力。


Python指标计算案例


数据中包含了某电商网站从2009年12月到2011年12月两年间的销售流水, 每条记录代表了一条交易记录, 包含如下字段


Invoice: 发票号码


StockCode: 商品编码


Description: 商品简介


InvoiceDate: 发票日期


Price: 商品单价


Customer ID: 用户ID


Country: 用户所在国家


计算的指标


  • 月销售金额(月GMV)


  • 月销售额环比


  • 月销量


  • 新用户占比: 新老用户


  • 激活率


  • 月留存率


from datetime import datetime, timedelta
import pandas as pd
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
 
 
data_1 = pd.read_excel('online_retail_II.xlsx',sheet_name='Year 2009-2010')
data_2 = pd.read_excel('online_retail_II.xlsx',sheet_name='Year 2010-2011')


数据清洗


retail_data['购买时间'].describe()
 
retail_data_clean = retail_data[(retail_data['商品单价']>0) & (retail_data['购买数量']>0)


计算月销量指标


商品编号相当于 SKU,SKU=Stock Keeping Unit(库存量单位)


retail_data_clean = retail_data_clean.query("(商品编号!='B') and (商品编号!='TEST001') and (商品编号!='TEST002') ")
 
 
retail_data_clean['购买年月'] = pd.to_datetime(retail_data_clean['购买时间']).dt.to_period('M')
 
retail_data_clean['金额'] = retail_data_clean['商品单价'] * retail_data_clean['购买数量']
 
gmv_m = retail_data_clean.groupby(['购买年月'])['金额'].sum().reset_index()
 
gmv_m.columns = ['购买年月', '月GMV']


计算月销售额环比


gmv_m['金额'].pct_change()
  • 该函数计算当前单元格和上一个单元格差异的百分比



机器学习多场景实战(二)+https://developer.aliyun.com/article/1544808?spm=a2c6h.13148508.setting.22.22454f0eHFZZj3


相关文章
|
6月前
|
机器学习/深度学习 存储 运维
机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统
本研究通过实验演示了异常标记如何逐步完善异常检测方案和主要分类模型在欺诈检测中的应用。实验结果表明,Isolation Forest作为一个强大的异常检测模型,无需显式建模正常模式即可有效工作,在处理未见风险事件方面具有显著优势。
535 46
|
9月前
|
运维 Kubernetes 监控
CI/CD(六)模型训练发布-追数场景
训练的场景比较特殊,在没有自动化之前是人工部署、依赖运维调整机器配置、凭记忆不定时去查看日志和监控确认训练进度,训练完成后再联系运维释放机器,现通过全自助选择训练规格、自动化部署、每日自动提醒、一键结束训练并回收资源
203 20
|
9月前
|
机器学习/深度学习 数据可视化 TensorFlow
Python 高级编程与实战:深入理解数据科学与机器学习
本文深入探讨了Python在数据科学与机器学习中的应用,介绍了pandas、numpy、matplotlib等数据科学工具,以及scikit-learn、tensorflow、keras等机器学习库。通过实战项目,如数据可视化和鸢尾花数据集分类,帮助读者掌握这些技术。最后提供了进一步学习资源,助力提升Python编程技能。
|
9月前
|
机器学习/深度学习 人工智能 Java
Java机器学习实战:基于DJL框架的手写数字识别全解析
在人工智能蓬勃发展的今天,Python凭借丰富的生态库(如TensorFlow、PyTorch)成为AI开发的首选语言。但Java作为企业级应用的基石,其在生产环境部署、性能优化和工程化方面的优势不容忽视。DJL(Deep Java Library)的出现完美填补了Java在深度学习领域的空白,它提供了一套统一的API,允许开发者无缝对接主流深度学习框架,将AI模型高效部署到Java生态中。本文将通过手写数字识别的完整流程,深入解析DJL框架的核心机制与应用实践。
598 3
|
9月前
|
机器学习/深度学习 数据可视化 算法
Python 高级编程与实战:深入理解数据科学与机器学习
在前几篇文章中,我们探讨了 Python 的基础语法、面向对象编程、函数式编程、元编程、性能优化和调试技巧。本文将深入探讨 Python 在数据科学和机器学习中的应用,并通过实战项目帮助你掌握这些技术。
|
10月前
|
机器学习/深度学习 分布式计算 大数据
阿里云 EMR Serverless Spark 在微财机器学习场景下的应用
面对机器学习场景下的训练瓶颈,微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark,微财突破了单机训练使用的数据规模瓶颈,大幅提升了训练效率,解决了存算分离架构下 Shuffle 稳定性和性能困扰,为智能风控等业务提供了强有力的技术支撑。
517 15
|
10月前
|
数据可视化 API 开发者
R1类模型推理能力评测手把手实战
R1类模型推理能力评测手把手实战
301 2
|
10月前
|
人工智能 自然语言处理 网络安全
基于阿里云 Milvus + DeepSeek + PAI LangStudio 的低成本高精度 RAG 实战
阿里云向量检索服务Milvus版是一款全托管向量检索引擎,并确保与开源Milvus的完全兼容性,支持无缝迁移。它在开源版本的基础上增强了可扩展性,能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警,Milvus云服务成为多样化AI应用场景的理想选择,包括多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等。您还可以利用开源的Attu工具进行可视化操作,进一步促进应用的快速开发和部署。
|
10月前
|
数据可视化 API 开发者
R1类模型推理能力评测手把手实战
随着DeepSeek-R1模型的广泛应用,越来越多的开发者开始尝试复现类似的模型,以提升其推理能力。
895 2
|
10月前
|
数据可视化 API 开发者
R1类模型推理能力评测手把手实战
随着DeepSeek-R1模型的广泛应用,越来越多的开发者开始尝试复现类似的模型,以提升其推理能力。
722 3