数据分享|Python用Apriori算法关联规则分析亚马逊购买书籍关联推荐客户和网络图可视化

简介: 数据分享|Python用Apriori算法关联规则分析亚马逊购买书籍关联推荐客户和网络图可视化

原文链接:http://tecdat.cn/?p=26999


Apriori 算法是一个相当新的算法,由 Agrawal 和 Srikant 于 1994 年提出。它是一种用于频繁项集挖掘的算法,允许公司理解和组织向上销售和交叉销售活动。


最强大的应用程序之一是我们在亚马逊上在线购物时看到的推荐系统 - 以及当今几乎所有电子商务网站上都存在的各种其他版本。

这是为了帮助理解一个非常简单的数据集查看文末了解数据获取方式,其中包含单个国际标准书号 (ISBN),它是一本书的唯一国际出版商标识符号。每行代表购买了所列书籍的唯一客户。

目标是了解基本购买行为,向客户推荐的其他书籍是什么——这样它可以提高公司的收入以及对所提供服务的整体满意度。

我们以网络图结束,该图展示了置信度高于 55% 的关系。


设置和导入数据集


import numpy as np
import pandas as pd
data.head()

data.shape

数据集上的EDA


#执行堆叠的步骤,转换为字符串,包括删除索引
dt2 = pd.DataFrame
dt2 = dt2.reset_index(drop = True)

dt2.nunique()  # 总共有4,999本独特的书籍

#数据集中购买最多的前10本书
top0 = pd.DataFrame(dt2.value_counts(sort= True, ascending=False).head(10))
to10

# 创建条形图 
plt.bar(t0.index, top_10\['Frequency'\])


点击标题查阅往期内容


【视频】关联规则模型、Apriori算法及R语言挖掘商店交易数据与交互可视化|数据分享


01

02

03

04

预处理


tdf = t.fit(d2).transform(da2)

ted = t.fit(r).transform(tr)
t_f

tdf = df.astype("int")
t_f

oks = d.DataFrame(tf, columns=e.columns_)
bos.head()

建立Apriori模型


runets = apriori(o2, min\_support=0.01, use\_colnames=True)
feqts

fetes.sort_values( by = \['support'\] ,ascending = False)
rls  =  assoc(fret, metric = "lift", min_threshold = 1)

re.solues('confidence', ascending = False)
ruls.head()

rul = rls\[res\['confidence'\] >= 0.55\]
rue

结论网络图


fig, ax = plt.subplots(figsize = (10,6))
G = x.from\_pandas\_edgelist(ul,source = 'antecedents')
n.draw(A)

相关文章
|
15天前
|
JSON API 数据格式
Python 请求微店商品详情数据 API 接口
微店开放平台允许开发者通过API获取商品详情数据。使用Python请求微店商品详情API的主要步骤包括:1. 注册并申请API权限,获得app_key和app_secret;2. 确定API接口地址与请求参数,如商品ID;3. 生成签名确保请求安全合法;4. 使用requests库发送HTTP请求获取数据;5. 处理返回的JSON格式响应数据。开发时需严格遵循微店API文档要求。
|
6天前
|
存储 算法 文件存储
探秘文件共享服务之哈希表助力 Python 算法实现
在数字化时代,文件共享服务不可或缺。哈希表(散列表)通过键值对存储数据,利用哈希函数将键映射到特定位置,极大提升文件上传、下载和搜索效率。例如,在大型文件共享平台中,文件名等信息作为键,物理地址作为值存入哈希表,用户检索时快速定位文件,减少遍历时间。此外,哈希表还用于文件一致性校验,确保传输文件未被篡改。以Python代码示例展示基于哈希表的文件索引实现,模拟文件共享服务的文件索引构建与检索功能。哈希表及其分布式变体如一致性哈希算法,保障文件均匀分布和负载均衡,持续优化文件共享服务性能。
|
11天前
|
监控 算法 安全
公司电脑网络监控场景下 Python 广度优先搜索算法的深度剖析
在数字化办公时代,公司电脑网络监控至关重要。广度优先搜索(BFS)算法在构建网络拓扑、检测安全威胁和优化资源分配方面发挥重要作用。通过Python代码示例展示其应用流程,助力企业提升网络安全与效率。未来,更多创新算法将融入该领域,保障企业数字化发展。
37 10
|
11天前
|
数据采集 XML 存储
Python爬虫实战:一键采集电商数据,掌握市场动态!
这个爬虫还挺实用,不光能爬电商数据,改改解析规则,啥数据都能爬。写爬虫最重要的是要有耐心,遇到问题别着急,慢慢调试就成。代码写好了,运行起来那叫一个爽,分分钟几千条数据到手。
|
12天前
|
监控 算法 安全
基于 Python 广度优先搜索算法的监控局域网电脑研究
随着局域网规模扩大,企业对高效监控计算机的需求增加。广度优先搜索(BFS)算法凭借其层次化遍历特性,在Python中可用于实现局域网内的计算机设备信息收集、网络连接状态监测及安全漏洞扫描,确保网络安全与稳定运行。通过合理选择数据结构与算法,BFS显著提升了监控效能,助力企业实现智能化的网络管理。
26 7
|
14天前
|
JSON 监控 API
python语言采集淘宝商品详情数据,json数据示例返回
通过淘宝开放平台的API接口,开发者可以轻松获取商品详情数据,并利用这些数据进行商品分析、价格监控、库存管理等操作。本文提供的示例代码和JSON数据解析方法,可以帮助您快速上手淘宝商品数据的采集与处理。
|
19天前
|
存储 数据采集 JSON
Python爬取某云热歌榜:解析动态加载的歌曲数据
Python爬取某云热歌榜:解析动态加载的歌曲数据
|
8天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于生物地理算法的MLP多层感知机优化matlab仿真
本程序基于生物地理算法(BBO)优化MLP多层感知机,通过MATLAB2022A实现随机数据点的趋势预测,并输出优化收敛曲线。BBO模拟物种在地理空间上的迁移、竞争与适应过程,以优化MLP的权重和偏置参数,提升预测性能。完整程序无水印,适用于机器学习和数据预测任务。
|
3天前
|
机器学习/深度学习 存储 算法
基于MobileNet深度学习网络的活体人脸识别检测算法matlab仿真
本内容主要介绍一种基于MobileNet深度学习网络的活体人脸识别检测技术及MQAM调制类型识别方法。完整程序运行效果无水印,需使用Matlab2022a版本。核心代码包含详细中文注释与操作视频。理论概述中提到,传统人脸识别易受非活体攻击影响,而MobileNet通过轻量化的深度可分离卷积结构,在保证准确性的同时提升检测效率。活体人脸与非活体在纹理和光照上存在显著差异,MobileNet可有效提取人脸高级特征,为无线通信领域提供先进的调制类型识别方案。
|
2天前
|
算法 安全 数据安全/隐私保护
基于BBO生物地理优化的三维路径规划算法MATLAB仿真
本程序基于BBO生物地理优化算法,实现三维空间路径规划的MATLAB仿真(测试版本:MATLAB2022A)。通过起点与终点坐标输入,算法可生成避障最优路径,并输出优化收敛曲线。BBO算法将路径视为栖息地,利用迁移和变异操作迭代寻优。适应度函数综合路径长度与障碍物距离,确保路径最短且安全。程序运行结果完整、无水印,适用于科研与教学场景。

热门文章

最新文章