【推荐系统】TensorFlow复现论文DeepCrossing特征交叉网络结构

简介: TensorFlow复现论文DeepCrossing特征交叉网络结构

@TOC


一、导包


from collections import namedtuple # 使用具名元组


import tensorflow as tf

from tensorflow import keras

from tensorflow.keras.layers import *

from tensorflow.keras.models import *


from tqdm import tqdm


from sklearn.model_selection import train_test_split

from sklearn.preprocessing import MinMaxScaler,LabelEncoder


import pandas as pd

import numpy as np


二、读取数据


"""读取数据"""

data = pd.read_csv('./data/criteo_sample.txt')



三、获取分类特征和数值特征


"""获取分类特征和数值特征"""

columns = data.columns.values

dense_features = [feat for feat in columns if 'I' in feat]

sparse_features = [feat for feat in columns if 'C' in feat]


四、数据处理


"""数据处理"""

def data_process(data, dense_features, sparse_features):

   # 将数值特征的空值位置填补为0

   data[dense_features] = data[dense_features].fillna(0.0)

   # 调整分布

   for f in dense_features:

       data[f] = data[f].apply(lambda x: np.log(x+1) if x > -1 else -1)

   

   # 将分类特征进行编码,由于原数据中的类别都是字符串,所以要使用LabelEncoder编码成数值

   data[sparse_features]=data[sparse_features].fillna("0") # 将类别特征进行填补,使用字符串

   

   for f in sparse_features:

       le = LabelEncoder()

       data[f]=le.fit_transform(data[f])

   

   return data[dense_features + sparse_features]


train_data = data_process(data, dense_features, sparse_features)

train_data['label'] = data['label']

train_data # (200,40)



五、使用具名元组为特征做标记


"""使用具名元组为特征做标记"""

SparseFeat = namedtuple('SparseFeat', ['name', 'vocabulary_size', 'embedding_dim'])

DenseFeat = namedtuple('DenseFeat', ['name', 'dimension'])


dnn_features_columns = [SparseFeat(name=feat, vocabulary_size=data[feat].nunique(), embedding_dim = 4) for feat in sparse_features] + [DenseFeat(name=feat, dimension=1) for feat in dense_features]

dnn_features_columns



六、构建模型


6.1 构建输入层


"""构建输入层"""

def build_input_layers(dnn_features_columns):

   dense_input_dict, sparse_input_dict = {}, {}

   

   for f in dnn_features_columns:

       if isinstance(f, SparseFeat):

           sparse_input_dict[f.name] = Input(shape=(1, ), name=f.name)

       elif isinstance(f, DenseFeat):

           dense_input_dict[f.name] = Input(shape=(f.dimension, ), name=f.name)

   

   return dense_input_dict, sparse_input_dict


6.2 将类别特征进行embedding


"""将类别特征进行embedding"""

def build_embedding_layers(dnn_features_columns, input_layers_dict, is_linear):

   embedding_layer_dict = {}

   

   # 将sparse特征筛选出来

   sparse_feature_columns = list(filter(lambda x: isinstance(x,SparseFeat), dnn_features_columns)) if dnn_features_columns else []

   

   # 如果是用于线性部分的embedding层,其维度为1,否则维度就是自己定义的embedding维度

   if is_linear:

       for f in sparse_feature_columns:

           embedding_layer_dict[f.name] = Embedding(f.vocabulary_size + 1, 1, name='1d_emb_' + f.name)

   

   else:

       for f in sparse_feature_columns:

           embedding_layer_dict[f.name] = Embedding(f.vocabulary_size + 1, f.embedding_dim, name='kd_emb_' + f.name)

   

   return embedding_layer_dict


6.3 将所有的sparse特征embedding进行拼接


"""将所有的sparse特征embedding进行拼接"""

def concat_embedding_list(dnn_features_columns, input_layer_dict, embedding_layer_dict, flatten=False):

   # 筛选sparse特征

   sparse_feature_columns = list(filter(lambda x: isinstance(x, SparseFeat), dnn_features_columns))

   

   embedding_list = []

   for f in sparse_feature_columns:

       _input = input_layer_dict[f.name]

       _embed = embedding_layer_dict[f.name]

       embed = _embed(_input)

       

       if flatten:

           embed = Flatten()(embed)

       

       embedding_list.append(embed)

   

   return embedding_list


6.4 构建残差块


"""构建残差块"""

class ResidualBlock(Layer):

   def __init__(self, units):

       super(ResidualBlock, self).__init__()

       self.units = units

   

   def build(self, input_shape):

       out_dim = input_shape[-1]

       self.dnn1 = Dense(self.units, activation='relu')

       self.dnn2 = Dense(out_dim, activation='relu')

   

   def call(self, inputs):

       x = inputs

       x = self.dnn1(x)

       x = self.dnn2(x)

       x = Activation('relu')(x + inputs)

       return x


6.5 构建输出层


"""构建输出层"""

def get_dnn_logits(dnn_inputs, block_nums=3):

   dnn_out = dnn_inputs

   

   for i in range(block_nums):

       dnn_out = ResidualBlock(64)(dnn_out)

   

   dnn_logits = Dense(1, activation='sigmoid')(dnn_out)


   return dnn_logits


6.6 构建模型


"""构建模型"""

def DeepCrossing(dnn_features_columns):

   # 1.构建输入层

   dense_input_dic, sparse_input_dic = build_input_layers(dnn_features_columns)

   input_layers = list(dense_input_dic.values()) + list(sparse_input_dic.values())

   

   # 2.将类别特征进行embedding

   embedding_layer_dict = build_embedding_layers(dnn_features_columns, sparse_input_dic, is_linear=False)

   

   # 3.将数值型特征拼接在一起

   dense_dnn_list = list(dense_input_dic.values())

   dense_dnn_inputs = Concatenate(axis=1)(dense_dnn_list)

   

   # 4.将类别Embedding向量进行Flatten

   sparse_dnn_list = concat_embedding_list(dnn_features_columns, sparse_input_dic, embedding_layer_dict, flatten=True)

   sparse_dnn_inputs = Concatenate(axis=1)(sparse_dnn_list)

   

   # 6.将数值特征和类别特征进行拼接

   dnn_inputs = Concatenate(axis=1)([dense_dnn_inputs, sparse_dnn_inputs])

   

   # 7.将所有特征输入到残差模块中

   output_layer = get_dnn_logits(dnn_inputs, block_nums=3)

   

   # 8.构建模型

   model = Model(input_layers, output_layer)

   

   return model


七、训练模型


7.1 构建模型


history = DeepCrossing(dnn_features_columns)

history.summary()



7.2 编译模型


history.compile(optimizer='adam',

              loss='binary_crossentropy',

              metrics=['binary_crossentropy', tf.keras.metrics.AUC(name='auc')])


7.3 准备输入数据


train_model_input = {name: data[name] for name in dense_features + sparse_features}


7.4 模型训练


history.fit(train_model_input,

          train_data['label'].values,

          batch_size=64,

          epochs=5,

          validation_split=0.2)


目录
相关文章
|
3月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
224 10
|
3月前
|
机器学习/深度学习 边缘计算 算法
SEENN: 迈向时间脉冲早退神经网络——论文阅读
SEENN提出一种时间脉冲早退神经网络,通过自适应调整每个样本的推理时间步数,有效平衡脉冲神经网络的准确率与计算效率。该方法基于置信度判断或强化学习策略,在保证高精度的同时显著降低能耗与延迟,适用于边缘计算与实时处理场景。
189 13
|
3月前
|
机器学习/深度学习 缓存 算法
2025年华为杯A题|通用神经网络处理器下的核内调度问题研究生数学建模|思路、代码、论文|持续更新中....
2025年华为杯A题|通用神经网络处理器下的核内调度问题研究生数学建模|思路、代码、论文|持续更新中....
414 1
|
7月前
|
人工智能 算法 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。
308 7
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
|
11月前
|
SQL Cloud Native API
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
1090 146
|
9月前
|
SQL 缓存 Cloud Native
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
337 63
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
366 3
|
7月前
|
canal 负载均衡 智能网卡
阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中
阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
1146 2
|
9月前
|
前端开发 Java 关系型数据库
基于ssm的网络直播带货管理系统,附源码+数据库+论文
该项目为网络直播带货网站,包含管理员和用户两个角色。管理员可进行主页、个人中心、用户管理、商品分类与信息管理、系统及订单管理;用户可浏览主页、管理个人中心、收藏和订单。系统基于Java开发,采用B/S架构,前端使用Vue、JSP等技术,后端为SSM框架,数据库为MySQL。项目运行环境为Windows,支持JDK8、Tomcat8.5。提供演示视频和详细文档截图。
282 10

热门文章

最新文章