【科研数据分享】CTR预估数据集汇总

简介: 【科研数据分享】CTR预估数据集汇总

数据作为支撑AI技术发展的基础要素,其重要性不言而喻,高质量的科研数据集对领域技术的发展起着重要的推动作用。天池数据集致力于提供优质的科研数据,以帮助算法从业人员更好地开展模型研究。

本期天池君为大家推荐了5个常用的点击率预估 (CTR estimation) 数据集,点击率预估 (CTR estimation) 是在线信息系统的核心模块之一,是推荐系统、付费广告、搜索引擎重要的组成部分,广泛的应用于商品购物、短视频、本地生活等领域中,与人们的生活息息相关,具有重要的业务价值。随着深度学习的广泛应用,深度点击率预估模型被广泛用于工业界的线上系统中。


本文整理了学术界/业界公用的CTR预估数据集,方便算法研发人员学习。

1

Kaggle Display Advertising Challenge Dataset by Criteo

简介:This dataset is provided by Criteo, and it contains feature values and click feedback for millions of display ads. Its purpose is to benchmark algorithms for clickthrough rate (CTR) prediction.

官网下载地址:

https://ailab.criteo.com/ressources/

天池下载地址:

https://tianchi.aliyun.com/dataset/144733

2

Criteo 1TB Click Logs Dataset

简介:This dataset contains feature values and click feedback for millions of display ads. Its purpose is to benchmark algorithms for clickthrough rate (CTR) prediction. It is similar, but larger, to the dataset released for the Display Advertising Challenge hosted by Kaggle.

官网下载地址:

https://ailab.criteo.com/download-criteo-1tb-click-logs-dataset/

天池下载地址:

https://tianchi.aliyun.com/dataset/144736

3

Amazon Product Data

简介:This dataset contains product reviews and metadata from Amazon, including 233.1 million reviews spanning May 1996 - Oct 2018. This dataset includes reviews (ratings, text, helpfulness votes), product metadata (descriptions, category information, price, brand, and image features), and links (also viewed/also bought graphs).

参考论文:

Justifying recommendations using distantly-labeled reviews and fined-grained aspects.

Jianmo Ni, Jiacheng Li, Julian McAuley. Empirical Methods in Natural Language Processing (EMNLP), 2019

官方下载地址:

https://nijianmo.github.io/amazon/index.html

天池下载地址(图书类目):

https://tianchi.aliyun.com/dataset/145340

4

淘宝展示广告点击率预估数据集

简介:Ali_Display_Ad_Click是阿里巴巴提供的一个淘宝展示广告点击率预估数据集。

参考论文:

1. Gai K, Zhu X, Li H, et al. Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction[J]. arXiv preprint arXiv:1704.05194, 2017. 2. Guorui Zhou, Chengru Song, Xiaoqiang Zhu, et al. Deep Interest Network for Click-Through Rate Prediction. arXiv preprint arXiv:1706.06978, 2017.

下载地址:

https://tianchi.aliyun.com/dataset/56

5

饿了么推荐数据集

简介:The dataset is constructed by click logs from ele.me online recommendation system, including 8 days' data with 146 million sample records.

下载地址:

https://tianchi.aliyun.com/dataset/131047


相关文章
|
7月前
|
机器学习/深度学习
评分是机器学习领域中的一种评估模型性能的指标
评分是机器学习领域中的一种评估模型性能的指标
53 1
|
机器学习/深度学习 自然语言处理 搜索推荐
文本点击率预估挑战赛-冠亚季军方案总结(上)
文本点击率预估挑战赛-冠亚季军方案总结(上)
379 0
文本点击率预估挑战赛-冠亚季军方案总结(上)
|
6天前
|
数据可视化
R语言KNN模型分类信贷用户信用等级数据参数调优和预测可视化|数据分享
R语言KNN模型分类信贷用户信用等级数据参数调优和预测可视化|数据分享
|
6天前
|
数据采集 算法 安全
数据分享|R语言关联规则挖掘apriori算法挖掘评估汽车性能数据
数据分享|R语言关联规则挖掘apriori算法挖掘评估汽车性能数据
|
6天前
R语言用回归构建配对交易(Pairs Trading)策略量化模型分析股票收益和价格
R语言用回归构建配对交易(Pairs Trading)策略量化模型分析股票收益和价格
|
6天前
|
自然语言处理 API Python
使用Tokeniser估算GPT和LLM服务的查询成本
将LLM集成到项目所花费的成本主要是我们通过API获取LLM返回结果的成本,而这些成本通常是根据处理的令牌数量计算的。我们如何预估我们的令牌数量呢?Tokeniser包可以有效地计算文本输入中的令牌来估算这些成本。本文将介绍如何使用Tokeniser有效地预测和管理费用。
35 3
|
11月前
|
机器学习/深度学习 存储 人工智能
深度学习应用篇-推荐系统[11]:推荐系统的组成、场景转化指标(pv点击率,uv点击率,曝光点击率)、用户数据指标等评价指标详解
深度学习应用篇-推荐系统[11]:推荐系统的组成、场景转化指标(pv点击率,uv点击率,曝光点击率)、用户数据指标等评价指标详解
深度学习应用篇-推荐系统[11]:推荐系统的组成、场景转化指标(pv点击率,uv点击率,曝光点击率)、用户数据指标等评价指标详解
|
机器学习/深度学习 搜索推荐 算法
《基于深度学习的广告CTR预估算法》电子版地址
基于深度学习的广告CTR预估算法
67 0
《基于深度学习的广告CTR预估算法》电子版地址
|
机器学习/深度学习 算法 测试技术
不平衡数据集分类实战:成人收入数据集分类模型训练和评估(二)
不平衡数据集分类实战:成人收入数据集分类模型训练和评估(二)
202 0
不平衡数据集分类实战:成人收入数据集分类模型训练和评估(二)
|
机器学习/深度学习 数据采集 算法
不平衡数据集分类实战:成人收入数据集分类模型训练和评估(一)
不平衡数据集分类实战:成人收入数据集分类模型训练和评估(一)
412 0
不平衡数据集分类实战:成人收入数据集分类模型训练和评估(一)