【科研数据分享】CTR预估数据集汇总

简介: 【科研数据分享】CTR预估数据集汇总

数据作为支撑AI技术发展的基础要素,其重要性不言而喻,高质量的科研数据集对领域技术的发展起着重要的推动作用。天池数据集致力于提供优质的科研数据,以帮助算法从业人员更好地开展模型研究。

本期天池君为大家推荐了5个常用的点击率预估 (CTR estimation) 数据集,点击率预估 (CTR estimation) 是在线信息系统的核心模块之一,是推荐系统、付费广告、搜索引擎重要的组成部分,广泛的应用于商品购物、短视频、本地生活等领域中,与人们的生活息息相关,具有重要的业务价值。随着深度学习的广泛应用,深度点击率预估模型被广泛用于工业界的线上系统中。


本文整理了学术界/业界公用的CTR预估数据集,方便算法研发人员学习。

1

Kaggle Display Advertising Challenge Dataset by Criteo

简介:This dataset is provided by Criteo, and it contains feature values and click feedback for millions of display ads. Its purpose is to benchmark algorithms for clickthrough rate (CTR) prediction.

官网下载地址:

https://ailab.criteo.com/ressources/

天池下载地址:

https://tianchi.aliyun.com/dataset/144733

2

Criteo 1TB Click Logs Dataset

简介:This dataset contains feature values and click feedback for millions of display ads. Its purpose is to benchmark algorithms for clickthrough rate (CTR) prediction. It is similar, but larger, to the dataset released for the Display Advertising Challenge hosted by Kaggle.

官网下载地址:

https://ailab.criteo.com/download-criteo-1tb-click-logs-dataset/

天池下载地址:

https://tianchi.aliyun.com/dataset/144736

3

Amazon Product Data

简介:This dataset contains product reviews and metadata from Amazon, including 233.1 million reviews spanning May 1996 - Oct 2018. This dataset includes reviews (ratings, text, helpfulness votes), product metadata (descriptions, category information, price, brand, and image features), and links (also viewed/also bought graphs).

参考论文:

Justifying recommendations using distantly-labeled reviews and fined-grained aspects.

Jianmo Ni, Jiacheng Li, Julian McAuley. Empirical Methods in Natural Language Processing (EMNLP), 2019

官方下载地址:

https://nijianmo.github.io/amazon/index.html

天池下载地址(图书类目):

https://tianchi.aliyun.com/dataset/145340

4

淘宝展示广告点击率预估数据集

简介:Ali_Display_Ad_Click是阿里巴巴提供的一个淘宝展示广告点击率预估数据集。

参考论文:

1. Gai K, Zhu X, Li H, et al. Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction[J]. arXiv preprint arXiv:1704.05194, 2017. 2. Guorui Zhou, Chengru Song, Xiaoqiang Zhu, et al. Deep Interest Network for Click-Through Rate Prediction. arXiv preprint arXiv:1706.06978, 2017.

下载地址:

https://tianchi.aliyun.com/dataset/56

5

饿了么推荐数据集

简介:The dataset is constructed by click logs from ele.me online recommendation system, including 8 days' data with 146 million sample records.

下载地址:

https://tianchi.aliyun.com/dataset/131047


相关文章
|
机器学习/深度学习 存储
卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱
卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱
3792 0
卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱
|
机器学习/深度学习 算法 大数据
机器学习:Friedman检验与Nemenyi后续检验,Python实现
机器学习:Friedman检验与Nemenyi后续检验,Python实现
2106 0
机器学习:Friedman检验与Nemenyi后续检验,Python实现
|
机器学习/深度学习 分布式计算 DataWorks
EasyRec 使用介绍|学习笔记
快速学习 EasyRec 使用介绍。
2035 0
|
机器学习/深度学习 搜索推荐 算法
【王喆-推荐系统】模型篇-(task5)wide&deep模型
Wide&Deep是工业界中有巨大影响力的模型,如果直接翻译成中文是宽和深的模型,其模型结构如下所示:wide和deep让模型兼具逻辑回归和深度神经网络的特点。
2366 0
【王喆-推荐系统】模型篇-(task5)wide&deep模型
|
搜索推荐 物联网 PyTorch
Qwen2.5-7B-Instruct Lora 微调
本教程介绍如何基于Transformers和PEFT框架对Qwen2.5-7B-Instruct模型进行LoRA微调。
13627 34
Qwen2.5-7B-Instruct Lora 微调
|
机器学习/深度学习 搜索推荐 算法
深度学习推荐模型-DIN
Deep Interest Network(DIN)是盖坤大神领导的阿里妈妈的精准定向检索及基础算法团队,在2017年6月提出的。 它针对电子商务领域(e-commerce industry)的CTR预估,重点在于充分利用/挖掘用户历史行为数据中的信息。
1455 1
深度学习推荐模型-DIN
|
机器学习/深度学习 搜索推荐 算法
推荐系统[二]:召回算法超详细讲解[召回模型演化过程、召回模型主流常见算法(DeepMF_TDM_Airbnb Embedding_Item2vec等)、召回路径简介、多路召回融合]
推荐系统[二]:召回算法超详细讲解[召回模型演化过程、召回模型主流常见算法(DeepMF_TDM_Airbnb Embedding_Item2vec等)、召回路径简介、多路召回融合]
推荐系统[二]:召回算法超详细讲解[召回模型演化过程、召回模型主流常见算法(DeepMF_TDM_Airbnb Embedding_Item2vec等)、召回路径简介、多路召回融合]
|
PyTorch 算法框架/工具 并行计算
PyTorch 2.2 中文官方教程(二十)(3)
PyTorch 2.2 中文官方教程(二十)
500 0
|
机器学习/深度学习 搜索推荐 算法
推荐模型复现(三):召回模型YoutubeDNN、DSSM
DSSM(Deep Structured Semantic Model),由微软研究院提出,利用深度神经网络将文本表示为低维度的向量,应用于文本相似度匹配场景下的一个算法。不仅局限于文本,在其他可以计算相似性计算的场景,例如推荐系统中。根据用户搜索行为中query(文本搜索)和doc(要匹配的文本)的日志数据,使用深度学习网络将query和doc映射到相同维度的语义空间中,即query侧特征的embedding和doc侧特征的embedding,从而得到语句的低维语义向量表达sentence embedding,用于预测两句话的语义相似度。
3966 0
推荐模型复现(三):召回模型YoutubeDNN、DSSM
|
数据采集 数据挖掘
淘宝广告数据分析实战!(附代码和100W数据源)(上)
在广告展示数一定的条件下,点击率的高低就是决定一个广告能否被更多人看到的因素。本文主要针对“点击率”这一因素进行分析,与大家分享。
952 0
淘宝广告数据分析实战!(附代码和100W数据源)(上)

热门文章

最新文章