美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

简介: 这个数据集是Yelp涵盖的商户、点评和用户数据的一个子集,可以用于个人、教育和学术。现在可以得到这个数据集的JSON和SQL文件,利用它来教学生关于数据库的知识,学习NLP,或在学习制作手机APP时作为样本产品数据。

日前,美国最大的点评网站Yelp公开其内部数据集。据官网介绍,这是一个通用数据集,开放这个数据集的主要目的是帮助学习。

美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

这个数据集是Yelp涵盖的商户、点评和用户数据的一个子集,可以用于个人、教育和学术。现在可以得到这个数据集的JSON和SQL文件,利用它来教学生关于数据库的知识,学习NLP,或在学习制作手机APP时作为样本产品数据。

数据集详细信息

美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

数据集包括470万条用户评价,15多万条商户信息,20万张图片,12个大都市。此外,还涵盖110万用户的100万条tips,超过120万条商家属性(如营业时间、是否有停车场、是否可预订和环境等信息),随着时间推移在每家商户签到的总用户数。

如何使用?

用户可以使用JSON和SQL数据集。

  • JSON

能立刻建立和运行

以单独的文件形式呈现,你可以任意选择

在任何应用上都可以使用

JSON数据集中的每一个文件都由一个单独的对象类型组成,一行表示一个JSON对象。

下面是一个商家签到用户数的实例。

美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

在GitHub上还有更多的例子:https://github.com/Yelp/dataset-examples

  • SQL

与大多数关系数据库兼容

填充表具有引用完整性

只有一个文件,容易导入

表格之间的联系和结构如下图所示:

美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

下载地址:https://s3-media2.fl.yelpcdn.com/assets/srv0/engineering_pages/5176da685fac/assets/vendor/yelp_schema.zip

关于数据集的挑战赛

yelp希望更多的学生利用这些数据,在研究中想出创新性方法,他们也提供了目前感兴趣的一些主题。

一是图片分类。目前他们虽然能识别出图片中类似于汉堡之类的食物,但是如何评价一张图片是否好看还有待研究。

二是自然语言处理和情感分析。用户评价数据里有很多能挖掘的元数据,可以用于推断语义、商户属性和情感。他们想知道评价里表达了什么,是好评还是差评。

三是图像挖掘。比如说挖掘出用户之间的关系是如何限定他们的使用规律,流行趋势的引导者在一家店火起来之前都是去哪儿吃饭的。



本文作者:Non
本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
8月前
|
人工智能 自动驾驶 安全
破壁人AI百度:科技公司反内卷的典型样本
互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词,恰如其分的描述了互联网的现状,比如抖音开始做外卖,微信强推视频号,一直硝烟弥漫的电商市场,更是激战在社区团购上。
66 3
|
机器学习/深度学习 人工智能 文字识别
探索AI技术对古彝文保护与研究应用
探索AI技术对古彝文保护与研究应用
240 2
|
前端开发
CSS新增样式----圆角边框、盒子阴影、文字阴影
CSS新增样式----圆角边框、盒子阴影、文字阴影
160 0
|
机器学习/深度学习 PyTorch 算法框架/工具
RGCN的torch简单案例
RGCN 是指 Relational Graph Convolutional Network,是一种基于图卷积神经网络(GCN)的模型。与传统的 GCN 不同的是,RGCN 可以处理具有多种关系(边)类型的图数据,从而更好地模拟现实世界中的实体和它们之间的复杂关系。 RGCN 可以用于多种任务,例如知识图谱推理、社交网络分析、药物发现等。以下是一个以知识图谱推理为例的应用场景: 假设我们有一个知识图谱,其中包含一些实体(如人、物、地点)以及它们之间的关系(如出生于、居住在、工作于)。图谱可以表示为一个二元组 (E, R),其中 E 表示实体的集合,R 表示关系的集合,每个关系 r ∈ R
1430 0
|
7月前
|
机器学习/深度学习 存储 自然语言处理
RNN与LSTM:循环神经网络的深入理解
【6月更文挑战第14天】本文深入探讨RNN和LSTM,两种关键的深度学习模型在处理序列数据时的作用。RNN利用记忆单元捕捉时间依赖性,但面临梯度消失和爆炸问题。为解决此问题,LSTM引入门控机制,有效捕获长期依赖,适用于长序列处理。RNN与LSTM相互关联,LSTM可视为RNN的优化版本。两者在NLP、语音识别等领域有广泛影响,未来潜力无限。
|
8月前
|
SQL Oracle 关系型数据库
利用 SQL 注入提取数据方法总结
利用 SQL 注入提取数据方法总结
|
Ubuntu Linux Windows
台式机Ubuntu linux系统安装
台式机Ubuntu linux系统安装
201 0
台式机Ubuntu linux系统安装
第8章 概率统计——8.3 累积概率分布
第8章 概率统计——8.3 累积概率分布
第8章 概率统计——8.3 累积概率分布
|
容器
Fragment——底部导航栏的实现
本节开始我们会讲解一些Fragment在实际开发中的一些实例!而本节给大家讲解的是底部导航栏的实现!而基本的底部导航栏方法有很多种,比如全用TextView做,或者用RadioButton,又或者使用TabLayout + RadioButton,当然复杂的情况还是得走外层套布局的方法!本节我们用TextView来做一个底部导航栏的效果,也熟悉下Fragment的使用!
126 0
|
计算机视觉
mac版本的Photoshop软件2022下载安装教程——全版本软件下载安装
mac版本的Photoshop软件2022下载安装教程——全版本软件下载安装
474 0