机器学习多场景实战(一)

简介: 机器学习已广泛应用,从个性化推荐到金融风控,数据指标是评估其效果的关键。数据指标包括活跃用户(DAU, MAU, WAU)衡量用户粘性,新增用户量和注册转化率评估营销效果,留存率(次日、7日、30日)反映用户吸引力,行为指标如PV(页面浏览量)、UV(独立访客)和转化率分析用户行为。产品数据指标如GMV、ARPU、ARPPU和付费率关注业务变现,推广付费指标(CPM, CPC, CPA等)则关乎广告效率。找到北极星指标,如月销售额或用户留存,可指导业务发展。案例中涉及电商销售数据,计算月销售金额、环比、销量、新用户占比、激活率和留存率以评估业务表现。

机器学习已不再局限于理论探讨,而是广泛渗透到我们生活的方方面面,成为解决复杂问题、优化决策过程的强有力工具。从智能推荐系统个性化推送你可能喜爱的电影和商品,到金融风控领域精准识别欺诈交易;每一个应用场景都是机器学习技术多维度、深层次实战的精彩演绎,我们通过一些小案例对业务进行了解~


什么是数据指标💥


  • 数据指标概念:可将某个事件量化,且可形成数字,来衡量目标。


  • 数据指标的作用:当我们确定下来一套指标,就可以用指标来衡量业务,判断业务好坏


数据指标在企业和组织的运营管理中发挥着至关重要的作用,它们不仅是衡量和评价业务性能的工具,还是推动业务发展和改进的关键因素。  



活跃用户指标💥


一个产品是否成功,如果只看一个指标,那么这个指标一定是活跃用户数


  • 日活(DAU):一天内日均活跃设备数
  • 月活(MAU):一个月内的活跃设备数
  • 周活跃数(WAU):一周内活跃设备数
  • 活跃度(DAU/MAU):体现用户的总体粘度,衡量期间内每日活跃用户的交叉重合情况


新增用户指标💥


主要是衡量营销推广渠道效果的最基础指标


  • 日新增注册用户量:统计一天内,即指安装应用后,注册APP的用户数。


  • 周新增注册用户量:统计一周内,即指安装应用后,注册APP的用户数。


  • 月新增注册用户量:统计一月内,即指安装应用后,注册APP的用户数。


  • 注册转化率:从点击广告/下载应用到注册用户的转化。


  • DNU占比:新增用户占活跃用户的比例,可以用来衡量产品健康度


  • 新用户占比活跃用户过高,那说明该APP的活跃是靠推广得来


留存指标💥


是验证APP对用户吸引力的重要指标。通常可以利用用户留存率与竞品进行对比,衡量APP对用户的吸引力


  • 次日留存率:某一统计时段新增用户在第二天再次启动应用的比例
  • 7日留存率:某一统计时段新增用户数在第7天再次启动该应用的比例,14日和30日留存率以此类推


行为指标💥


  • PV(访问次数,Page View):一定时间内某个页面的浏览次数,用户每打开一个网页可以看作一个PV。


  • UV(访问人数,Unique Visitor):一定时间内访问某个页面的人数。


  • 转化率:计算方法与具体业务场景有关


  • 淘宝店铺,转化率=购买产品的人数/所有到达店铺的人数


  • 在广告业务中,广告转化率=点击广告进入推广网站的人数/看到广告的人数。


  • 转发率:转发率=转发某功能的用户数/看到该功能的用户数



产品数据指标💥


  • GMV (Gross Merchandise Volume):指成交总额,也就是零售业说的“流水”


  • 人均付费=总收入/总用户数


  • 人均付费在游戏行业叫ARPU(Average Revenue Per User)


  • 电商行业叫客单价


  • 付费用户人均付费(ARPPU,Average Revenue Per Paying User)=总收入/付费人数,这个指标用于统计付费用户的平均收入


  • 付费率=付费人数/总用户数。付费率能反映产品的变现能力和用户质量


  • 复购率是指重复购买频率,用于反映用户的付费频率。


推广付费指标💥


  • CPM(Cost Per Mille) :展现成本,或者叫千人展现成本


  • CPC(Cost Per Click) 点击成本,即每产生一次点击所花费的成本


  • 按投放的实际效果付费(CPA,Cost Per Action)包括:


  • CPD(Cost Per Download):按App的下载数付费;


  • CPI(Cost Per Install):按安装App的数量付费,也就是下载后有多少人安装了App;


  • CPS(Cost Per Sales):按完成购买的用户数或者销售额来付费。


💫根据目前的业务重点,找到北极星指标,在实际业务中,北极星指标一旦确定,可以像天空中的北极星一样,指引着全公司向着同一个方向努力。


Python指标计算案例


数据中包含了某电商网站从2009年12月到2011年12月两年间的销售流水, 每条记录代表了一条交易记录, 包含如下字段


Invoice: 发票号码


StockCode: 商品编码


Description: 商品简介


InvoiceDate: 发票日期


Price: 商品单价


Customer ID: 用户ID


Country: 用户所在国家


计算的指标


  • 月销售金额(月GMV)


  • 月销售额环比


  • 月销量


  • 新用户占比: 新老用户


  • 激活率


  • 月留存率


from datetime import datetime, timedelta
import pandas as pd
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
 
 
data_1 = pd.read_excel('online_retail_II.xlsx',sheet_name='Year 2009-2010')
data_2 = pd.read_excel('online_retail_II.xlsx',sheet_name='Year 2010-2011')


数据清洗


retail_data['购买时间'].describe()
 
retail_data_clean = retail_data[(retail_data['商品单价']>0) & (retail_data['购买数量']>0)


计算月销量指标


商品编号相当于 SKU,SKU=Stock Keeping Unit(库存量单位)


retail_data_clean = retail_data_clean.query("(商品编号!='B') and (商品编号!='TEST001') and (商品编号!='TEST002') ")
 
 
retail_data_clean['购买年月'] = pd.to_datetime(retail_data_clean['购买时间']).dt.to_period('M')
 
retail_data_clean['金额'] = retail_data_clean['商品单价'] * retail_data_clean['购买数量']
 
gmv_m = retail_data_clean.groupby(['购买年月'])['金额'].sum().reset_index()
 
gmv_m.columns = ['购买年月', '月GMV']


计算月销售额环比


gmv_m['金额'].pct_change()
  • 该函数计算当前单元格和上一个单元格差异的百分比



机器学习多场景实战(二)+https://developer.aliyun.com/article/1544808?spm=a2c6h.13148508.setting.22.22454f0eHFZZj3


相关文章
|
14天前
|
机器学习/深度学习 TensorFlow API
机器学习实战:TensorFlow在图像识别中的应用探索
【10月更文挑战第28天】随着深度学习技术的发展,图像识别取得了显著进步。TensorFlow作为Google开源的机器学习框架,凭借其强大的功能和灵活的API,在图像识别任务中广泛应用。本文通过实战案例,探讨TensorFlow在图像识别中的优势与挑战,展示如何使用TensorFlow构建和训练卷积神经网络(CNN),并评估模型的性能。尽管面临学习曲线和资源消耗等挑战,TensorFlow仍展现出广阔的应用前景。
40 5
|
1月前
|
机器学习/深度学习 人工智能 算法
揭开深度学习与传统机器学习的神秘面纱:从理论差异到实战代码详解两者间的选择与应用策略全面解析
【10月更文挑战第10天】本文探讨了深度学习与传统机器学习的区别,通过图像识别和语音处理等领域的应用案例,展示了深度学习在自动特征学习和处理大规模数据方面的优势。文中还提供了一个Python代码示例,使用TensorFlow构建多层感知器(MLP)并与Scikit-learn中的逻辑回归模型进行对比,进一步说明了两者的不同特点。
63 2
|
1月前
|
机器学习/深度学习 数据挖掘 Serverless
手把手教你全面评估机器学习模型性能:从选择正确评价指标到使用Python与Scikit-learn进行实战演练的详细指南
【10月更文挑战第10天】评估机器学习模型性能是开发流程的关键,涉及准确性、可解释性、运行速度等多方面考量。不同任务(如分类、回归)采用不同评价指标,如准确率、F1分数、MSE等。示例代码展示了使用Scikit-learn库评估逻辑回归模型的过程,包括数据准备、模型训练、性能评估及交叉验证。
60 1
|
1月前
|
机器学习/深度学习 算法 数据挖掘
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧1
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧
50 5
|
1月前
|
机器学习/深度学习 数据采集 分布式计算
【Python篇】深入机器学习核心:XGBoost 从入门到实战
【Python篇】深入机器学习核心:XGBoost 从入门到实战
88 3
|
1月前
|
机器学习/深度学习 算法 数据可视化
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧2
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧
38 1
|
26天前
|
数据采集 机器学习/深度学习 TensorFlow
声纹识别实战:从数据采集到模型训练
【10月更文挑战第16天】声纹识别技术通过分析个人的语音特征来验证其身份,具有无接触、便捷的特点。本文将带你从零开始,一步步完成声纹识别系统的构建,包括数据采集、音频预处理、特征提取、模型训练及评估等关键步骤。我们将使用Python语言和相关的科学计算库来进行实践。
104 0
|
2月前
|
机器学习/深度学习 算法 数据挖掘
从菜鸟到大师:Scikit-learn库实战教程,模型训练、评估、选择一网打尽!
【9月更文挑战第13天】在数据科学与机器学习领域,Scikit-learn是不可或缺的工具。本文通过问答形式,指导初学者从零开始使用Scikit-learn进行模型训练、评估与选择。首先介绍了如何安装库、预处理数据并训练模型;接着展示了如何利用多种评估指标确保模型性能;最后通过GridSearchCV演示了系统化的参数调优方法。通过这些实战技巧,帮助读者逐步成长为熟练的数据科学家。
104 3
|
2月前
|
机器学习/深度学习 人工智能 算法
利用机器学习预测股市趋势:一个实战案例
【9月更文挑战第5天】在这篇文章中,我们将探索如何使用机器学习技术来预测股市趋势。我们将通过一个简单的Python代码示例来演示如何实现这一目标。请注意,这只是一个入门级的示例,实际应用中可能需要更复杂的模型和更多的数据。
|
2月前
|
机器学习/深度学习 算法 Python
决策树下的智慧果实:Python机器学习实战,轻松摘取数据洞察的果实
【9月更文挑战第7天】当我们身处数据海洋,如何提炼出有价值的洞察?决策树作为一种直观且强大的机器学习算法,宛如智慧之树,引领我们在繁复的数据中找到答案。通过Python的scikit-learn库,我们可以轻松实现决策树模型,对数据进行分类或回归分析。本教程将带领大家从零开始,通过实际案例掌握决策树的原理与应用,探索数据中的秘密。
47 1