谷歌数据集搜索正式版出炉:全面升级,覆盖2500万数据集

简介: 谷歌数据集搜索正式版出炉:全面升级,覆盖2500万数据集


近日,谷歌宣布,它们的数据集搜索引擎不再是 beta 版了。这意味着该产品已经正式向用户们开放使用。Jeff Dean 和谷歌官方都在推特上宣布了这一消息。


微信图片_20211202173203.jpg


谷歌数据集搜索的 beta 版本早在 2018 年 9 月就上线了,该引擎面向「科学家、开发者、数据极客等人群」,一直以来都是人们寻找数据集的主要方式之一。


链接:https://datasetsearch.research.google.com/


微信图片_20211202173206.png


在网络中,任何你感兴趣的主题都可能有无数种数据集。如果你想买一只小狗,你可以在数据集搜索中找到小狗买家评价的数据集。如果你喜欢滑雪,也可以找到有关著名滑雪地盈利和受伤概率数字的数据集。今天,谷歌数据集搜索已经涵盖了超过 2500 万种不同类型的数据集,它可以帮助你轻松地找到所有数据集的下载链接。


谷歌表示,经过一年多的努力,数据集搜索功能的阶段性测试已经完成。


微信图片_20211202173209.png

如果你在数据集搜索上输入「skiing」,会出现的结果:出现了从最快的滑雪运动员到滑雪地的收入数据集等不同类型。


正式版更新了什么?


谷歌从用户在 Beta 版的使用中获得了很多经验。在正式版中,你可以根据所需的数据集类型(表格、图片、文本等),或者数据集是否可以免费获取等条件来进行搜索。如果数据集是关于某个地区的,你也可以通过地图进行查找。另外,现在搜索也做了移动端的适配,并大幅改善了数据及描述的质量。任何数据集发布者都可以通过 schema.org 开放标准在自己的网站上进行规范性描述,以提高搜索结果的质量。


对于不同的学科来说,人们进行的搜索是完全不同的:科学家会寻找研究目标(如搜索催产素),学生会搜索包含自己作业主题的关键字,业务分析师和数据科学家会寻找移动 app 或快餐店销售的数据……今天,所有这些内容都有数据集。

谷歌表示,目前人们在数据集搜索上查询频率最高的词是「教育」、「天气」、「癌症」、「犯罪」、「足球」以及「狗」。


微信图片_20211202173212.png

搜索「快餐店」出现的结果索引。


哪些数据集可以找到?


数据集搜索引擎可以提供数据集的快照信息,特别是有关地理信息、生物和农业方面的信息。很多信息都来自于 schema.org,只要网络上存在的数据集符合 schema 的开放标准,搜索引擎就可以搜索到。


除了公开数据之外,数据集搜索引擎还包括了很多政府公开数据,包括美国政府超过两百万的数据集。绝大部分的公开数据都是以表格形式存储的,可以很容易地下载并进行处理。


使用体验


机器之心尝试了这一数据集搜索工具。例如,我们在搜索栏里输入了 CIFAR,搜索引擎很容易就提供了 CIFAR-10 和 CIFAR-100 两个数据集的搜索结果,并附带数据集全名、被引用数量、更新时间、提供者、下载方式、介绍和信息来源等。


微信图片_20211202173215.jpg


如果我们不知道数据集叫什么名字,但是想看看有没有某种数据的数据集呢?机器之心尝试了一些不常用关键词,如「Chinese Poem」(中国诗歌)。


微信图片_20211202173218.jpg


搜索结果也还不错,提供了相当多的数据集,包括数据集所在的论文等。


下一步计划


项目团队表示,他们会继续优化数据集搜索这项产品,并欢迎用户提出进一步改进建议。


参考链接:https://blog.google/products/search/discovering-millions-datasets-web/
https://www.reddit.com/r/MachineLearning/comments/etdiz9/n_googles_dataset_search_is_out_of_beta/



本文为机器之心报道,转载请联系本公众号获得授权

相关文章
|
6月前
|
机器学习/深度学习 并行计算 PyTorch
百度搜索:蓝易云【Pytorch和CUDA版本对应关系】
请注意,上述版本对应关系只是示例,并非详尽无遗。实际上,PyTorch的每个版本通常会支持多个CUDA版本,而具体支持的CUDA版本也可能因操作系统、硬件配置等因素而有所不同。因此,在使用PyTorch时,建议参考PyTorch官方文档或社区支持的信息,以获取最准确和最新的PyTorch与CUDA版本对应关系。
164 2
|
SEO
谷歌搜索留痕的技术公式【2023年新版】
一般情况下我们是不建议个人搭建的,因为成本很高,而且技术成本和维护成本也对谷歌的SEO机制要有一定的熟悉。
371 0
谷歌搜索留痕的技术公式【2023年新版】
|
运维 自然语言处理 算法
新功能 | 智能开放搜索上线定制词权重模型
智能开放搜索OpenSearch上线定制召回模型-定制词权重功能,助力对召回和相关性排序有较高要求的客户实现最优搜索效果。
1221 0
|
自然语言处理 运维 算法
新功能 | 智能开放搜索上线定制分词器
智能开放搜索上线定制召回模型-定制分词器功能,满足各行业、垂类、业务特殊,对搜索有较高分词要求的客户,提升语义理解能力,精准召回用户搜索意图。
988 0
|
存储 搜索推荐 定位技术
谷歌数据集搜索正式版出炉:全面升级,覆盖2500万数据集
公开数据集往往存在于论文和网站数据库中,想要找到它们需要花费一番功夫。除了机器之心 SOTA 以外,搜索公开数据集的搜索引擎仍然比较少——除了谷歌的数据集搜索工具以外。
331 0
谷歌数据集搜索正式版出炉:全面升级,覆盖2500万数据集
|
机器学习/深度学习 人工智能 自然语言处理
重磅!百度多模态模型ERNIE-ViL刷新5项任务记录,登顶权威榜单VCR
近日,百度在多模态语义理解领域取得突破,提出知识增强视觉-语言预训练模型 ERNIE-ViL,首次将场景图(Scene Graph)知识融入多模态预训练,在 5 项多模态任务上刷新世界最好效果,并在多模态领域权威榜单 VCR 上超越微软、谷歌、Facebook 等机构,登顶榜首。此次突破充分借助飞桨深度学习平台分布式训练领先优势。据机器之心了解,基于飞桨实现的 ERNIE-ViL 模型也将于近期开源。
242 0
重磅!百度多模态模型ERNIE-ViL刷新5项任务记录,登顶权威榜单VCR
|
Kubernetes 搜索推荐 Java
电子商务搜索基准
电子商务搜索基准是第一个具有个性化推荐的电子商务搜索系统的端到端应用基准。这项工作与詹建峰教授合作(http://www.benchcouncil.org/zjf.html)'的团队,他也是国际开放基准委员会(BenchCouncil,http://www.benchcouncil.org/)的主席。
电子商务搜索基准
|
算法框架/工具 TensorFlow 异构计算
基于BERT,神马搜索在线预测性能如何提升?
今天,阿里巴巴技术专家丁亦川梳理了神马搜索 BERT 在线预测过程中,遇到的性能问题,探索过程以及当前初步的成果,分享给大家。
4653 0
下一篇
无影云桌面