【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题三方案及Python实现

简介: 第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,专注于问题三“本地旅游图谱构建与分析”,介绍了基于OTA和UGC数据的旅游产品关联分析方法,使用支持度、置信度、提升度来计算关联度得分,并进行了结果可视化,同时指出了方案的改进方向。

1.png

相关链接

(1)问题一方案及实现博客介绍

(2)问题二方案及实现博客介绍

(3)问题三方案及实现博客介绍

代码下载

https://github.com/BetterBench/BetterBench-Shop

1 题目

完整的题目,请看第一篇文章

【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题一方案及Python实现

问题三:本地旅游图谱构建与分析

依据提供的 OTA、 UGC 数据,对问题 2 中提取出的旅游产品进行关联分析,找出以景区、酒店、餐饮等为核心的强关联模式,结果以表 的形式保存为文件“result3.csv”。在此基础上构建本地旅游图谱并选择合适方法进行可视化分析。鼓励参赛队挖掘旅游产品间隐含的关联模式并进行解释

2 思路方案

以支持度、置信度、提升度加权求和作为关联度得分

  • 其中,I表示总事务集。num()表示求事务集里特定项集出现的次数;
  • 比如,num(I)表示总事务集的个数;
  • num(X∪Y)表示含有{X,Y}的事务集的个数(个数也叫次数)。
  • 1.支持度(Support)
    • 支持度表示项集{X,Y}在总项集里出现的概率。公式为:
    • S u p p o r t ( X → Y ) = P ( X , Y ) / P ( I ) = P ( X ∪ Y ) / P ( I ) = n u m ( X U Y ) / n u m ( I ) Support(X→Y) = P(X,Y) / P(I) = P(X∪Y) / P(I) = num(XUY) / num(I) Support(X→Y)\=P(X,Y)/P(I)\=P(X∪Y)/P(I)\=num(XUY)/num(I)
  • 2.置信度 (Confidence)
    • 置信度表示在先决条件X发生的情况下,由关联规则”X→Y“推出Y的概率。即在含有X的项集中,含有Y的可能性,公式为:
    • C o n f i d e n c e ( X → Y ) = P ( Y ∣ X ) = P ( X , Y ) / P ( X ) = P ( X U Y ) / P ( X ) Confidence(X→Y) = P(Y|X) = P(X,Y) / P(X) = P(XUY) / P(X) Confidence(X→Y)\=P(Y∣X)\=P(X,Y)/P(X)\=P(XUY)/P(X)
  • 3.提升度(Lift)
    • 提升度表示含有X的条件下,同时含有Y的概率,与不含X的条件下却含Y的概率之比。
    • L i f t ( X → Y ) = P ( Y ∣ X ) / P ( Y ) Lift(X→Y) = P(Y|X) / P(Y) Lift(X→Y)\=P(Y∣X)/P(Y)

改进点:

我认为我仅仅提供的是一个Baseline,从数据到表,再到可视化的一个过程,仅仅是一个参考答案,并不是最终答案

改进的方向有很多,比如问题二中可以根据NER去提取旅游产品,问题三中可以采用krl(知识表示学习)、erl(实体识别与链接)、ere(实体关系抽取)、ede(实体检测与抽取)、ksq(知识存储与查询)、kr(知识推理)等知识体系去改进。让方案更高级,改进的才能增加获奖的可能

3 Python实现

import pandas as pd
import numpy as np
from collections import defaultdict
# 此csv文件来自第二问的代码,请下载第二问的代码和数据
data = pd.read_csv('./data/问题二所有数据汇总.csv')

3.1 计算支持度作为相关度

3.1 给样本集的旅游产品one-hot编码

key为旅游产品名称,value代表列

{'周黑鸭(东汇城店)': 0, '茂名文华酒店': 1, '旅游度假区': 2, '古郡水城': 3, '南三岛': 4, '红树林公园': 5, '信宜酒店': 6, '菠斯蒂蛋糕': 7}

则每个句子只要出现旅游产品,相应列则就编码为1。

    [[0 1 0 0 0 1 0 1]
     [0 1 0 1 1 0 0 0]
     [0 0 0 0 1 0 0 1]
     [0 0 1 0 1 1 1 0]
     [1 1 0 0 0 1 0 1]
     [0 1 1 0 0 1 0 1]]
# 给每个样本中的产品onehot编码
# 总共有438个产品,则初始化有438列的0,如果一个样本中存在“丰年面包店“和”功夫鸡排”两个产品,则438列中,这两列对应是1。
# 返回one-hot数组和产品字典编号字典
def create_one_hot(data):
    """将实体数据转换成:0,1数据类型,类似于词袋模型
    """
    。。。略
    请下载完整代码
    return out_array, feature_dict

3.2 计算支持度、置信度、提升度

# 计算支持度作为关联度,
def calculate(data_vector):
    """计算支持度,置信度,提升度
    """
    print('=' * 50)
    print('Calculating...')

    n_samples, n_features = data_vector.shape
    print('特征数: ', n_features)
    print('样本数: ', n_samples)

    support_dict = defaultdict(float)
    confidence_dict = defaultdict(float)
    lift_dict = defaultdict(float)

    # together_appear: {(0, 1): 3, (0, 3): 2, (0, 4): 1, (1, 0): 3, (1, 3): 2,...}
    # together_appear: 元组里的元素是特征的序号,后面的数字,是这两个特征同时出现的总次数
    together_appear_dict = defaultdict(int)

    # feature_num_dict:{0: 3, 1: 4, 2: 3,...}
    # feature_num_dict: key是特征的序号,后面的数字是这个特征出现的总次数
    feature_num_dict = defaultdict(int)

       。。。略
    请下载完整代码

    return support_dict, confidence_dict, lift_dict

3.3 将编码转为字符串


def convert_to_sample(feature_dict, s, c, l):
    """把0,1,2,3,... 等字母代表的feature,转换成实体
    """
    print('=' * 50)
    print('Start converting to the required sample format...')
    # print(feature_dict)
    feature_mirror_dict = dict()
    for k, v in feature_dict.items():
        feature_mirror_dict[v] = k
    # print(feature_mirror_dict)

    。。。略
    请下载完整代码
data_array, feature_di = create_one_hot(data)
support_di, confidence_di, lift_di = calculate(data_array)

support = sorted(support_di.items(), key=lambda x: x[1], reverse=True)
confidence = sorted(confidence_di.items(),
                    key=lambda x: x[1], reverse=True)
lift = sorted(lift_di.items(), key=lambda x: x[1], reverse=True)

support_li, confidence_li, lift_li = convert_to_sample(feature_di, support, confidence, lift)

2.png

3.4 计算关联度

support_df = pd.DataFrame(support_li,columns=['产品名称1','产品名称2','支持度'])
confidence_df = pd.DataFrame(confidence_li, columns=['产品名称1', '产品名称2', '置信度'])
lift_df = pd.DataFrame(lift_li, columns=['产品名称1', '产品名称2', '提升度'])

。。。略
请下载完整代码
del submit_3['支持度']
submit_3

3.png

3.5 生成result3.csv

map_dict ={}
for i,d in enumerate(feature_di):
    map_dict[d] = 'ID'+str(feature_di[d]+1)
map_dict

4.png

# 将名称转为ID
submit_3['产品1'] = submit_3['产品名称1'].map(map_dict)
submit_3['产品2'] = submit_3['产品名称2'].map(map_dict)
result3 = submit_3[['产品1', '产品2','关联度']]
result3

5.png

# 读取问题二的产品类型表,需要生成表3的关联类型
# # 此csv文件来自第二问的代码,请下载第二问的代码和数据https://mianbaoduo.com/o/bread/YpmYm5xy
result2_2 = pd.read_csv('./data/result2-2.csv')
p_k = result2_2['产品ID']
p_v = result2_2['产品类型']
p_type_dict  = dict(zip(p_k,p_v))
p_type_dict

6.png

result3['关联类型'] = p_type
result3.to_csv('./data/result3.csv',index=False)

7.png

3.6 可视化关联

import matplotlib.pyplot as plt
import networkx as nx
import pandas as pd

from spacy import displacy
G = nx.from_pandas_edgelist(submit_3[submit_3['关联度'] > 0], "产品名称1", "产品名称2",
                            edge_attr=True, create_using=nx.MultiDiGraph())

plt.figure(figsize=(12, 12))
pos = nx.spring_layout(G, k=0.5)  # k regulates the distance between nodes
nx.draw(G, with_labels=True, node_color='skyblue',
        node_size=1500, edge_cmap=plt.cm.Blues, pos=pos)

8.png

目录
相关文章
|
13天前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
41 4
|
10天前
|
数据可视化 算法 Python
基于OpenFOAM和Python的流场动态模态分解:从数据提取到POD-DMD分析
本文介绍了如何利用Python脚本结合动态模态分解(DMD)技术,分析从OpenFOAM模拟中提取的二维切片数据,以深入理解流体动力学现象。通过PyVista库处理VTK格式的模拟数据,进行POD和DMD分析,揭示流场中的主要能量结构及动态特征。此方法为研究复杂流动系统提供了有力工具。
22 2
基于OpenFOAM和Python的流场动态模态分解:从数据提取到POD-DMD分析
|
6天前
|
自然语言处理 算法 数据挖掘
探讨如何利用Python中的NLP工具,从被动收集到主动分析文本数据的过程
【10月更文挑战第11天】本文介绍了自然语言处理(NLP)在文本分析中的应用,从被动收集到主动分析的过程。通过Python代码示例,详细展示了文本预处理、特征提取、情感分析和主题建模等关键技术,帮助读者理解如何有效利用NLP工具进行文本数据分析。
25 2
|
16天前
|
JSON 数据可视化 API
玩转数据科学:Python实战分析天气预报变动趋势
【10月更文挑战第1天】随着气候变化对日常生活的影响日益显著,理解和预测天气模式变得越来越重要。本文将引导您如何使用Python来抓取和分析天气预报数据,从而揭示天气变化的趋势。我们将介绍从获取公开气象API的数据到清洗、处理以及可视化整个过程的技术方法。
37 2
|
16天前
|
数据可视化 IDE 数据挖掘
Python助您洞察先机:2024年A股市场数据抓取与分析实战
【10月更文挑战第1天】随着2024年中国股市的强劲表现,投资者们对于如何高效获取并分析相关金融数据的需求日益增长。本文旨在介绍如何利用Python这一强大的编程语言来抓取最新的A股交易数据,并通过数据分析技术为个人投资决策提供支持。
122 1
|
19天前
|
机器学习/深度学习 数据采集 算法
【Python篇】从零到精通:全面分析Scikit-Learn在机器学习中的绝妙应用
【Python篇】从零到精通:全面分析Scikit-Learn在机器学习中的绝妙应用
30 2
|
14天前
|
存储 JSON 数据处理
分析、总结Python使用列表、元组、字典的场景
分析、总结Python使用列表、元组、字典的场景
18 0
|
16天前
|
算法 安全 Go
Python与Go语言中的哈希算法实现及对比分析
Python与Go语言中的哈希算法实现及对比分析
21 0
|
16天前
|
机器学习/深度学习 自然语言处理 Go
Python与Go在AIGC领域的应用:比较与分析
Python与Go在AIGC领域的应用:比较与分析
20 0
|
20天前
|
机器学习/深度学习 开发者 Python
Python中进行特征重要性分析的9个常用方法
在Python机器学习中,特征重要性分析是理解模型预测关键因素的重要步骤。本文介绍了九种常用方法:排列重要性、内置特征重要性(如`coef_`)、逐项删除法、相关性分析、递归特征消除(RFE)、LASSO回归、SHAP值、部分依赖图和互信息。这些方法适用于不同类型模型和场景,帮助识别关键特征,指导特征选择与模型解释。通过综合应用这些技术,可以提高模型的透明度和预测性能。
57 0