【第十届“泰迪杯”数据挖掘挑战赛】C题：疫情背景下的周边游需求图谱分析问题三方案及Python实现-阿里云开发者社区

【第十届“泰迪杯”数据挖掘挑战赛】C题：疫情背景下的周边游需求图谱分析问题三方案及Python实现

2024-08-05 144 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 第十届“泰迪杯”数据挖掘挑战赛C题的解决方案，专注于问题三“本地旅游图谱构建与分析”，介绍了基于OTA和UGC数据的旅游产品关联分析方法，使用支持度、置信度、提升度来计算关联度得分，并进行了结果可视化，同时指出了方案的改进方向。

代码下载

https://github.com/BetterBench/BetterBench-Shop

1 题目

完整的题目，请看第一篇文章

【第十届“泰迪杯”数据挖掘挑战赛】C题：疫情背景下的周边游需求图谱分析问题一方案及Python实现

问题三：本地旅游图谱构建与分析

依据提供的 OTA、 UGC 数据，对问题 2 中提取出的旅游产品进行关联分析，找出以景区、酒店、餐饮等为核心的强关联模式，结果以表的形式保存为文件“result3.csv”。在此基础上构建本地旅游图谱并选择合适方法进行可视化分析。鼓励参赛队挖掘旅游产品间隐含的关联模式并进行解释

2 思路方案

以支持度、置信度、提升度加权求和作为关联度得分

其中，I表示总事务集。num()表示求事务集里特定项集出现的次数;
比如，num(I)表示总事务集的个数;
num(X∪Y)表示含有{X,Y}的事务集的个数（个数也叫次数）。
1.支持度（Support）
- 支持度表示项集{X,Y}在总项集里出现的概率。公式为：
- S u p p o r t ( X → Y ) = P ( X , Y ) / P ( I ) = P ( X ∪ Y ) / P ( I ) = n u m ( X U Y ) / n u m ( I ) Support(X→Y) = P(X,Y) / P(I) = P(X∪Y) / P(I) = num(XUY) / num(I) Support(X→Y)\=P(X,Y)/P(I)\=P(X∪Y)/P(I)\=num(XUY)/num(I)
2.置信度（Confidence）
- 置信度表示在先决条件X发生的情况下，由关联规则”X→Y“推出Y的概率。即在含有X的项集中，含有Y的可能性，公式为：
- C o n f i d e n c e ( X → Y ) = P ( Y ∣ X ) = P ( X , Y ) / P ( X ) = P ( X U Y ) / P ( X ) Confidence(X→Y) = P(Y|X) = P(X,Y) / P(X) = P(XUY) / P(X) Confidence(X→Y)\=P(Y∣X)\=P(X,Y)/P(X)\=P(XUY)/P(X)
3.提升度（Lift）
- 提升度表示含有X的条件下，同时含有Y的概率，与不含X的条件下却含Y的概率之比。
- L i f t ( X → Y ) = P ( Y ∣ X ) / P ( Y ) Lift(X→Y) = P(Y|X) / P(Y) Lift(X→Y)\=P(Y∣X)/P(Y)

改进点：

我认为我仅仅提供的是一个Baseline，从数据到表，再到可视化的一个过程，仅仅是一个参考答案，并不是最终答案

改进的方向有很多，比如问题二中可以根据NER去提取旅游产品，问题三中可以采用krl（知识表示学习）、erl（实体识别与链接）、ere（实体关系抽取）、ede（实体检测与抽取）、ksq（知识存储与查询）、kr（知识推理）等知识体系去改进。让方案更高级，改进的才能增加获奖的可能

3 Python实现

import pandas as pd
import numpy as np
from collections import defaultdict
# 此csv文件来自第二问的代码，请下载第二问的代码和数据
data = pd.read_csv('./data/问题二所有数据汇总.csv')

        
          
        
        
        
          
          AI 代码解读

3.1 计算支持度作为相关度

3.1 给样本集的旅游产品one-hot编码

key为旅游产品名称，value代表列

{'周黑鸭（东汇城店）': 0, '茂名文华酒店': 1, '旅游度假区': 2, '古郡水城': 3, '南三岛': 4, '红树林公园': 5, '信宜酒店': 6, '菠斯蒂蛋糕': 7}

        
          
        
        
        
          
          AI 代码解读

则每个句子只要出现旅游产品，相应列则就编码为1。

    [[0 1 0 0 0 1 0 1]
     [0 1 0 1 1 0 0 0]
     [0 0 0 0 1 0 0 1]
     [0 0 1 0 1 1 1 0]
     [1 1 0 0 0 1 0 1]
     [0 1 1 0 0 1 0 1]]

        
          
        
        
        
          
          AI 代码解读

# 给每个样本中的产品onehot编码
# 总共有438个产品，则初始化有438列的0，如果一个样本中存在“丰年面包店“和”功夫鸡排”两个产品，则438列中，这两列对应是1。
# 返回one-hot数组和产品字典编号字典
def create_one_hot(data):
    """将实体数据转换成：0，1数据类型，类似于词袋模型
    """
    。。。略
    请下载完整代码
    return out_array, feature_dict

        
          
        
        
        
          
          AI 代码解读

3.2 计算支持度、置信度、提升度

# 计算支持度作为关联度，
def calculate(data_vector):
    """计算支持度，置信度，提升度
    """
    print('=' * 50)
    print('Calculating...')

    n_samples, n_features = data_vector.shape
    print('特征数: ', n_features)
    print('样本数: ', n_samples)

    support_dict = defaultdict(float)
    confidence_dict = defaultdict(float)
    lift_dict = defaultdict(float)

    # together_appear: {(0, 1): 3, (0, 3): 2, (0, 4): 1, (1, 0): 3, (1, 3): 2,...}
    # together_appear: 元组里的元素是特征的序号，后面的数字，是这两个特征同时出现的总次数
    together_appear_dict = defaultdict(int)

    # feature_num_dict:{0: 3, 1: 4, 2: 3,...}
    # feature_num_dict: key是特征的序号，后面的数字是这个特征出现的总次数
    feature_num_dict = defaultdict(int)

       。。。略
    请下载完整代码

    return support_dict, confidence_dict, lift_dict

        
          
        
        
        
          
          AI 代码解读

3.3 将编码转为字符串


def convert_to_sample(feature_dict, s, c, l):
    """把0，1，2，3，... 等字母代表的feature，转换成实体
    """
    print('=' * 50)
    print('Start converting to the required sample format...')
    # print(feature_dict)
    feature_mirror_dict = dict()
    for k, v in feature_dict.items():
        feature_mirror_dict[v] = k
    # print(feature_mirror_dict)

    。。。略
    请下载完整代码

        
          
        
        
        
          
          AI 代码解读

data_array, feature_di = create_one_hot(data)
support_di, confidence_di, lift_di = calculate(data_array)

support = sorted(support_di.items(), key=lambda x: x[1], reverse=True)
confidence = sorted(confidence_di.items(),
                    key=lambda x: x[1], reverse=True)
lift = sorted(lift_di.items(), key=lambda x: x[1], reverse=True)

support_li, confidence_li, lift_li = convert_to_sample(feature_di, support, confidence, lift)

        
          
        
        
        
          
          AI 代码解读

3.4 计算关联度

support_df = pd.DataFrame(support_li,columns=['产品名称1','产品名称2','支持度'])
confidence_df = pd.DataFrame(confidence_li, columns=['产品名称1', '产品名称2', '置信度'])
lift_df = pd.DataFrame(lift_li, columns=['产品名称1', '产品名称2', '提升度'])

。。。略
请下载完整代码
del submit_3['支持度']
submit_3

        
          
        
        
        
          
          AI 代码解读

3.5 生成result3.csv

map_dict ={}
for i,d in enumerate(feature_di):
    map_dict[d] = 'ID'+str(feature_di[d]+1)
map_dict

        
          
        
        
        
          
          AI 代码解读

# 将名称转为ID
submit_3['产品1'] = submit_3['产品名称1'].map(map_dict)
submit_3['产品2'] = submit_3['产品名称2'].map(map_dict)
result3 = submit_3[['产品1', '产品2','关联度']]
result3

        
          
        
        
        
          
          AI 代码解读

# 读取问题二的产品类型表，需要生成表3的关联类型
# # 此csv文件来自第二问的代码，请下载第二问的代码和数据https://mianbaoduo.com/o/bread/YpmYm5xy
result2_2 = pd.read_csv('./data/result2-2.csv')
p_k = result2_2['产品ID']
p_v = result2_2['产品类型']
p_type_dict  = dict(zip(p_k,p_v))
p_type_dict

        
          
        
        
        
          
          AI 代码解读

result3['关联类型'] = p_type
result3.to_csv('./data/result3.csv',index=False)

        
          
        
        
        
          
          AI 代码解读

3.6 可视化关联

import matplotlib.pyplot as plt
import networkx as nx
import pandas as pd

from spacy import displacy
G = nx.from_pandas_edgelist(submit_3[submit_3['关联度'] > 0], "产品名称1", "产品名称2",
                            edge_attr=True, create_using=nx.MultiDiGraph())

plt.figure(figsize=(12, 12))
pos = nx.spring_layout(G, k=0.5)  # k regulates the distance between nodes
nx.draw(G, with_labels=True, node_color='skyblue',
        node_size=1500, edge_cmap=plt.cm.Blues, pos=pos)

        
          
        
        
        
          
          AI 代码解读

【第十届“泰迪杯”数据挖掘挑战赛】C题：疫情背景下的周边游需求图谱分析问题三方案及Python实现

相关链接

代码下载

1 题目

2 思路方案

3 Python实现

3.1 计算支持度作为相关度

3.1 给样本集的旅游产品one-hot编码

3.2 计算支持度、置信度、提升度

3.3 将编码转为字符串

3.4 计算关联度

3.5 生成result3.csv

3.6 可视化关联

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【第十届“泰迪杯”数据挖掘挑战赛】C题：疫情背景下的周边游需求图谱分析 问题三方案及Python实现

相关链接

代码下载

1 题目

2 思路方案

3 Python实现

3.1 计算支持度作为相关度

3.1 给样本集的旅游产品one-hot编码

3.2 计算支持度、置信度、提升度

3.3 将编码转为字符串

3.4 计算关联度

3.5 生成result3.csv

3.6 可视化关联

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

【第十届“泰迪杯”数据挖掘挑战赛】C题：疫情背景下的周边游需求图谱分析问题三方案及Python实现