美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

简介: 这个数据集是Yelp涵盖的商户、点评和用户数据的一个子集,可以用于个人、教育和学术。现在可以得到这个数据集的JSON和SQL文件,利用它来教学生关于数据库的知识,学习NLP,或在学习制作手机APP时作为样本产品数据。

日前,美国最大的点评网站Yelp公开其内部数据集。据官网介绍,这是一个通用数据集,开放这个数据集的主要目的是帮助学习。

美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

这个数据集是Yelp涵盖的商户、点评和用户数据的一个子集,可以用于个人、教育和学术。现在可以得到这个数据集的JSON和SQL文件,利用它来教学生关于数据库的知识,学习NLP,或在学习制作手机APP时作为样本产品数据。

数据集详细信息

美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

数据集包括470万条用户评价,15多万条商户信息,20万张图片,12个大都市。此外,还涵盖110万用户的100万条tips,超过120万条商家属性(如营业时间、是否有停车场、是否可预订和环境等信息),随着时间推移在每家商户签到的总用户数。

如何使用?

用户可以使用JSON和SQL数据集。

  • JSON

能立刻建立和运行

以单独的文件形式呈现,你可以任意选择

在任何应用上都可以使用

JSON数据集中的每一个文件都由一个单独的对象类型组成,一行表示一个JSON对象。

下面是一个商家签到用户数的实例。

美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

在GitHub上还有更多的例子:https://github.com/Yelp/dataset-examples

  • SQL

与大多数关系数据库兼容

填充表具有引用完整性

只有一个文件,容易导入

表格之间的联系和结构如下图所示:

美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

下载地址:https://s3-media2.fl.yelpcdn.com/assets/srv0/engineering_pages/5176da685fac/assets/vendor/yelp_schema.zip

关于数据集的挑战赛

yelp希望更多的学生利用这些数据,在研究中想出创新性方法,他们也提供了目前感兴趣的一些主题。

一是图片分类。目前他们虽然能识别出图片中类似于汉堡之类的食物,但是如何评价一张图片是否好看还有待研究。

二是自然语言处理和情感分析。用户评价数据里有很多能挖掘的元数据,可以用于推断语义、商户属性和情感。他们想知道评价里表达了什么,是好评还是差评。

三是图像挖掘。比如说挖掘出用户之间的关系是如何限定他们的使用规律,流行趋势的引导者在一家店火起来之前都是去哪儿吃饭的。



本文作者:Non
本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
5月前
|
机器学习/深度学习 自然语言处理 测试技术
社区供稿 | 封神榜团队揭秘大模型训练秘密:以数据为中心
近一年来,各种各样的开源和闭源的大语言模型,不断在多个中文英文的测试基准中刷新着记录。然而,大语言模型的开发仍然面临诸多挑战,比如从头开始训练大语言模型的高昂成本,以及继续预训练导致的灾难性遗忘等等。尽管许多研究致力于解决这些问题,但一个重要而且实际的限制是,许多研究过于追求扩大模型规模,没有全面分析和优化预训练数据在训练大语言模型过程中的使用。
|
8月前
|
机器学习/深度学习 存储 缓存
遍览数年历史视频、挖掘用户隐藏兴趣,快手终身行为建模方案TWIN入选KDD 2023
遍览数年历史视频、挖掘用户隐藏兴趣,快手终身行为建模方案TWIN入选KDD 2023
537 0
|
11月前
|
数据采集 机器学习/深度学习 搜索推荐
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec(2)
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec
132 0
|
11月前
|
机器学习/深度学习 数据采集 移动开发
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec(1)
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec
164 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
腾讯类ChatGPT保密项目,被曝光
腾讯类ChatGPT保密项目,被曝光
|
11月前
|
SQL 人工智能 安全
89次实验,出错率高达40%!斯坦福首次大型调研,揭露AI写代码漏洞
89次实验,出错率高达40%!斯坦福首次大型调研,揭露AI写代码漏洞
|
机器学习/深度学习 人工智能 自然语言处理
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
这是ShowMeAI每周通讯的第3期。本期内容关键词:新冠、ChatGPT、2022 AI 报告、腾讯·绝悟、阿里·AliceMind、小红书·全站智投、OpenAI·Point-E、Google·CALM、Wayve·MILE、AI2·MemPrompt、Stanford x MosaicML·PubMed GPT、腾讯全员大会、特斯拉裁员、图森未来裁员、AI 应用与工具大全。
467 0
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
|
机器人 计算机视觉
首次机器人抓取云竞赛引国际学界广泛关注和参与
近日,阿里巴巴达摩院人工智能实验室与University of South Florida等国外著名研究机构共同举办了世界首次机器人抓取云竞赛:OCRTOC竞赛。OCRTOC竞赛聚焦于机器人抓取能力以及桌面物品整理的应用场景,旨在成为机器人抓取技术领域的ImageNet。OCRTOC竞赛获得了国际电气电子工程师协会两大技术委员会的大力支持,并成为国际机器人顶会IROS2020的正式官方赛事,吸引了全球顶尖学府的关注!
342 0
首次机器人抓取云竞赛引国际学界广泛关注和参与
|
机器学习/深度学习 搜索推荐 算法
1亿个行为数据,知乎、清华大学开放国内最大个性化推荐实际交互数据集ZhihuRec
知乎联合清华大学对外开放基于知乎的大规模富文本查询和推荐数据集「ZhihuRec」。该数据集包含了知乎上的 1 亿个行为数据,是目前为止,国内用于个性化推荐的最大的实际交互数据集。
623 0
1亿个行为数据,知乎、清华大学开放国内最大个性化推荐实际交互数据集ZhihuRec