【推荐系统】TensorFlow复现论文DeepCrossing特征交叉网络结构

简介: 【推荐系统】TensorFlow复现论文DeepCrossing特征交叉网络结构

一、导包

from collections import namedtuple # 使用具名元组
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.layers import *
from tensorflow.keras.models import *
from tqdm import tqdm
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler,LabelEncoder
import pandas as pd
import numpy as np

二、读取数据

"""读取数据"""
data = pd.read_csv('./data/criteo_sample.txt')

三、获取分类特征和数值特征

"""获取分类特征和数值特征"""
columns = data.columns.values
dense_features = [feat for feat in columns if 'I' in feat]
sparse_features = [feat for feat in columns if 'C' in feat]

四、数据处理

"""数据处理"""
def data_process(data, dense_features, sparse_features):
    # 将数值特征的空值位置填补为0
    data[dense_features] = data[dense_features].fillna(0.0)
    # 调整分布
    for f in dense_features:
        data[f] = data[f].apply(lambda x: np.log(x+1) if x > -1 else -1)
    # 将分类特征进行编码,由于原数据中的类别都是字符串,所以要使用LabelEncoder编码成数值
    data[sparse_features]=data[sparse_features].fillna("0") # 将类别特征进行填补,使用字符串
    for f in sparse_features:
        le = LabelEncoder()
        data[f]=le.fit_transform(data[f])
    return data[dense_features + sparse_features]
train_data = data_process(data, dense_features, sparse_features)
train_data['label'] = data['label']
train_data # (200,40)

五、使用具名元组为特征做标记

"""使用具名元组为特征做标记"""
SparseFeat = namedtuple('SparseFeat', ['name', 'vocabulary_size', 'embedding_dim'])
DenseFeat = namedtuple('DenseFeat', ['name', 'dimension'])
dnn_features_columns = [SparseFeat(name=feat, vocabulary_size=data[feat].nunique(), embedding_dim = 4) for feat in sparse_features] + [DenseFeat(name=feat, dimension=1) for feat in dense_features]
dnn_features_columns

六、构建模型

6.1 构建输入层

"""构建输入层"""
def build_input_layers(dnn_features_columns):
    dense_input_dict, sparse_input_dict = {}, {}
    for f in dnn_features_columns:
        if isinstance(f, SparseFeat):
            sparse_input_dict[f.name] = Input(shape=(1, ), name=f.name)
        elif isinstance(f, DenseFeat):
            dense_input_dict[f.name] = Input(shape=(f.dimension, ), name=f.name)
    return dense_input_dict, sparse_input_dict

6.2 将类别特征进行embedding

"""将类别特征进行embedding"""
def build_embedding_layers(dnn_features_columns, input_layers_dict, is_linear):
    embedding_layer_dict = {}
    # 将sparse特征筛选出来
    sparse_feature_columns = list(filter(lambda x: isinstance(x,SparseFeat), dnn_features_columns)) if dnn_features_columns else []
    # 如果是用于线性部分的embedding层,其维度为1,否则维度就是自己定义的embedding维度
    if is_linear:
        for f in sparse_feature_columns:
            embedding_layer_dict[f.name] = Embedding(f.vocabulary_size + 1, 1, name='1d_emb_' + f.name)
    else:
        for f in sparse_feature_columns:
            embedding_layer_dict[f.name] = Embedding(f.vocabulary_size + 1, f.embedding_dim, name='kd_emb_' + f.name)
    return embedding_layer_dict

6.3 将所有的sparse特征embedding进行拼接

"""将所有的sparse特征embedding进行拼接"""
def concat_embedding_list(dnn_features_columns, input_layer_dict, embedding_layer_dict, flatten=False):
    # 筛选sparse特征
    sparse_feature_columns = list(filter(lambda x: isinstance(x, SparseFeat), dnn_features_columns))
    embedding_list = []
    for f in sparse_feature_columns:
        _input = input_layer_dict[f.name]
        _embed = embedding_layer_dict[f.name]
        embed = _embed(_input)
        if flatten:
            embed = Flatten()(embed)
        embedding_list.append(embed)
    return embedding_list

6.4 构建残差块

"""构建残差块"""
class ResidualBlock(Layer):
    def __init__(self, units):
        super(ResidualBlock, self).__init__()
        self.units = units
    def build(self, input_shape):
        out_dim = input_shape[-1]
        self.dnn1 = Dense(self.units, activation='relu')
        self.dnn2 = Dense(out_dim, activation='relu')
    def call(self, inputs):
        x = inputs
        x = self.dnn1(x)
        x = self.dnn2(x)
        x = Activation('relu')(x + inputs)
        return x

6.5 构建输出层

"""构建输出层"""
def get_dnn_logits(dnn_inputs, block_nums=3):
    dnn_out = dnn_inputs
    for i in range(block_nums):
        dnn_out = ResidualBlock(64)(dnn_out)
    dnn_logits = Dense(1, activation='sigmoid')(dnn_out)
    return dnn_logits

6.6 构建模型

"""构建模型"""
def DeepCrossing(dnn_features_columns):
    # 1.构建输入层
    dense_input_dic, sparse_input_dic = build_input_layers(dnn_features_columns)
    input_layers = list(dense_input_dic.values()) + list(sparse_input_dic.values())
    # 2.将类别特征进行embedding
    embedding_layer_dict = build_embedding_layers(dnn_features_columns, sparse_input_dic, is_linear=False)
    # 3.将数值型特征拼接在一起
    dense_dnn_list = list(dense_input_dic.values())
    dense_dnn_inputs = Concatenate(axis=1)(dense_dnn_list)
    # 4.将类别Embedding向量进行Flatten
    sparse_dnn_list = concat_embedding_list(dnn_features_columns, sparse_input_dic, embedding_layer_dict, flatten=True)
    sparse_dnn_inputs = Concatenate(axis=1)(sparse_dnn_list)
    # 6.将数值特征和类别特征进行拼接
    dnn_inputs = Concatenate(axis=1)([dense_dnn_inputs, sparse_dnn_inputs])
    # 7.将所有特征输入到残差模块中
    output_layer = get_dnn_logits(dnn_inputs, block_nums=3)
    # 8.构建模型
    model = Model(input_layers, output_layer)
    return model

七、训练模型

7.1 构建模型

history = DeepCrossing(dnn_features_columns)
history.summary()

7.2 编译模型

history.compile(optimizer='adam',
               loss='binary_crossentropy',
               metrics=['binary_crossentropy', tf.keras.metrics.AUC(name='auc')])

7.3 准备输入数据

train_model_input = {name: data[name] for name in dense_features + sparse_features}

7.4 模型训练

history.fit(train_model_input,
           train_data['label'].values,
           batch_size=64,
           epochs=5,
           validation_split=0.2)


目录
相关文章
|
8天前
|
机器学习/深度学习 人工智能 算法
海洋生物识别系统+图像识别+Python+人工智能课设+深度学习+卷积神经网络算法+TensorFlow
海洋生物识别系统。以Python作为主要编程语言,通过TensorFlow搭建ResNet50卷积神经网络算法,通过对22种常见的海洋生物('蛤蜊', '珊瑚', '螃蟹', '海豚', '鳗鱼', '水母', '龙虾', '海蛞蝓', '章鱼', '水獭', '企鹅', '河豚', '魔鬼鱼', '海胆', '海马', '海豹', '鲨鱼', '虾', '鱿鱼', '海星', '海龟', '鲸鱼')数据集进行训练,得到一个识别精度较高的模型文件,然后使用Django开发一个Web网页平台操作界面,实现用户上传一张海洋生物图片识别其名称。
90 7
海洋生物识别系统+图像识别+Python+人工智能课设+深度学习+卷积神经网络算法+TensorFlow
|
8天前
|
机器学习/深度学习 人工智能 算法
【昆虫识别系统】图像识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50
昆虫识别系统,使用Python作为主要开发语言。通过TensorFlow搭建ResNet50卷积神经网络算法(CNN)模型。通过对10种常见的昆虫图片数据集('蜜蜂', '甲虫', '蝴蝶', '蝉', '蜻蜓', '蚱蜢', '蛾', '蝎子', '蜗牛', '蜘蛛')进行训练,得到一个识别精度较高的H5格式模型文件,然后使用Django搭建Web网页端可视化操作界面,实现用户上传一张昆虫图片识别其名称。
135 7
【昆虫识别系统】图像识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50
|
9天前
|
机器学习/深度学习 人工智能 算法
【球类识别系统】图像识别Python+卷积神经网络算法+人工智能+深度学习+TensorFlow
球类识别系统,本系统使用Python作为主要编程语言,基于TensorFlow搭建ResNet50卷积神经网络算法模型,通过收集 '美式足球', '棒球', '篮球', '台球', '保龄球', '板球', '足球', '高尔夫球', '曲棍球', '冰球', '橄榄球', '羽毛球', '乒乓球', '网球', '排球'等15种常见的球类图像作为数据集,然后进行训练,最终得到一个识别精度较高的模型文件。再使用Django开发Web网页端可视化界面平台,实现用户上传一张球类图片识别其名称。
103 7
【球类识别系统】图像识别Python+卷积神经网络算法+人工智能+深度学习+TensorFlow
|
1天前
|
机器学习/深度学习 人工智能 算法
【乐器识别系统】图像识别+人工智能+深度学习+Python+TensorFlow+卷积神经网络+模型训练
乐器识别系统。使用Python为主要编程语言,基于人工智能框架库TensorFlow搭建ResNet50卷积神经网络算法,通过对30种乐器('迪吉里杜管', '铃鼓', '木琴', '手风琴', '阿尔卑斯号角', '风笛', '班卓琴', '邦戈鼓', '卡萨巴', '响板', '单簧管', '古钢琴', '手风琴(六角形)', '鼓', '扬琴', '长笛', '刮瓜', '吉他', '口琴', '竖琴', '沙槌', '陶笛', '钢琴', '萨克斯管', '锡塔尔琴', '钢鼓', '长号', '小号', '大号', '小提琴')的图像数据集进行训练,得到一个训练精度较高的模型,并将其
7 0
【乐器识别系统】图像识别+人工智能+深度学习+Python+TensorFlow+卷积神经网络+模型训练
|
5天前
|
网络协议 网络性能优化 数据安全/隐私保护
计算机网络基础知识和术语(二)---分层结构模型
计算机网络基础知识和术语(二)---分层结构模型
8 1
|
9天前
|
计算机视觉
【YOLOv8改进 - 特征融合NECK】 HS-FPN :用于处理多尺度特征融合的网络结构,降低参数
MFDS-DETR是针对白细胞检测的创新方法,它通过HS-FPN和可变形自注意力解决规模差异和特征稀缺问题。HS-FPN利用通道注意力模块增强特征表达,改善多尺度挑战。代码和数据集可在给定链接获取。此方法在WBCDD、LISC和BCCD数据集上表现优越,证明了其有效性和通用性。YOLO系列文章提供了更多目标检测改进和实战案例。
YOLOv8打印模型结构配置信息并查看网络模型详细参数:参数量、计算量(GFLOPS)
YOLOv8打印模型结构配置信息并查看网络模型详细参数:参数量、计算量(GFLOPS)
|
18天前
|
机器学习/深度学习 数据可视化 TensorFlow
【手把手教学】如何可视化YOLOv8深度学习的网络结构并保存
【手把手教学】如何可视化YOLOv8深度学习的网络结构并保存
|
18天前
|
机器学习/深度学习
【保姆级教程】【YOLOv8替换主干网络】【1】使用efficientViT替换YOLOV8主干网络结构(4)
【保姆级教程】【YOLOv8替换主干网络】【1】使用efficientViT替换YOLOV8主干网络结构
|
18天前
|
机器学习/深度学习
【保姆级教程】【YOLOv8替换主干网络】【1】使用efficientViT替换YOLOV8主干网络结构(3)
【保姆级教程】【YOLOv8替换主干网络】【1】使用efficientViT替换YOLOV8主干网络结构

热门文章

最新文章