看了谷歌Quick,Draw!数据集,才知道世界各地简笔画差异这么大

简介:
本文来自AI新媒体量子位(QbitAI)

ecd7e216541ad44a221598390a5d9ffc63a0b4a4

去年11月,谷歌展示了几项有趣的机器学习实验,其中包括Quick, Draw!——在这款游戏中,你可以画一个东西,让图片识别系统猜测你画的究竟实是什么。

166f1719426318af8cadc63401200a83a3eb4838

该公司现在又发布了玩家提交的海量图片,将其作为一个公开数据库,供人工智能开发者使用。目前,这个数据库包含5000万张图,谷歌还打算继续扩充它。

如果你觉得浏览5000万张潦草的绘画毫无乐趣,那也不要担心,因为关键不在这里。

关键在于元数据。这些元数据来自许多不同国家,内容也有很大差异,而且充满乐趣。

9e69655eef0cb0f0d0ebe4c99a524ece6715c42e

例如,你可以从中了解德国人和韩国人对猫或椅子有什么不同看法。

8f9243b6702e1c59300cf1ee00709c952713051c

当然,其中的一些模式非常值得思考。很显然,韩国人和俄罗斯人更喜欢把椅子画在角落或侧面。为什么?你或许可以借助自己的机器学习系统找出背后的原因。


其中还有很多有趣的信息。谷歌在博文中指出,整个数据库里的运动鞋比例很大,以至于系统很难识别出高跟鞋和凉鞋。人们画猫的方法可能也存在一些特定模式。你画的猫是否跟别人有所不同?或许也可以开发一套机器学习算法找出答案。

谷歌建议你使用新的Facets工具对海量数据进行视觉化。当你拥有这么大的数据时,如何对其进行分类,以便人们找到值得思考的粗糙模式和想法?如何找到系统性偏见或改进的机会,或者其他类似的东西?

这5000万张图片只是个开始——谷歌今后还将发布另外大约7.5亿张图片,还有可能包括其他项目的有趣数据。

更多信息见Google Research Blog:https://research.googleblog.com/2017/08/exploring-and-visualizing-open-global.html

数据集:https://quickdraw.withgoogle.com/data

本文作者:李杉
原文发布时间:2017-08-26 
相关文章
|
芯片
串口、COM口、RS232、RS485、USB区别
串口、COM口、RS232、RS485、USB区别
1417 0
|
人工智能 自然语言处理 安全
百度智能云“千帆大模型平台”升级:大模型最多,Prompt模板最全(上)
百度智能云“千帆大模型平台”升级:大模型最多,Prompt模板最全
830 1
|
JavaScript 前端开发 测试技术
通义灵码全栈开发实战测评报告
本内容详细评测了通义灵码在开发中的表现,涵盖环境配置、基础能力验证、自主开发能力、记忆与上下文理解、MCP工具集成及性能对比。测试显示,其代码补全响应更快(1.2s vs 1.8s),复杂任务准确率更高(78% vs 65%),并具备跨文件上下文记忆能力。实际应用中,可显著降低重复解释成本,提升中小型项目初期开发效率约40%,尤其适合快速原型开发、多技术栈整合及持续迭代维护场景。但仍需改进第三方文档同步延迟和TypeScript高级类型支持问题。
|
Linux 虚拟化 数据安全/隐私保护
系统崩溃不用慌!VMware这个逆天功能竟能让CentOS一键回档?后悔药真实存在!
备份的重要性在于它能在系统出现异常或错误时,帮助我们快速恢复到正常状态,避免重新安装系统和配置环境。VMware 提供了两种备份方式:快照和克隆。 **快照**是保存虚拟机某一时刻的完整状态(包括内存、CPU、磁盘数据),便于快速回滚,适合临时保存状态。操作简单,可在系统运行时创建。 **克隆**则是复制整个虚拟机系统,侧重长期备份,需在系统关闭时进行。分为完整克隆和链接克隆,前者独立于源系统,占用更多空间,但更安全可靠。
666 17
系统崩溃不用慌!VMware这个逆天功能竟能让CentOS一键回档?后悔药真实存在!
|
机器学习/深度学习 算法 TensorFlow
机器学习算法简介:从线性回归到深度学习
【5月更文挑战第30天】本文概述了6种基本机器学习算法:线性回归、逻辑回归、决策树、支持向量机、随机森林和深度学习。通过Python示例代码展示了如何使用Scikit-learn、statsmodels、TensorFlow库进行实现。这些算法在不同场景下各有优势,如线性回归处理连续值,逻辑回归用于二分类,决策树适用于规则提取,支持向量机最大化类别间隔,随机森林集成多个决策树提升性能,而深度学习利用神经网络解决复杂模式识别问题。理解并选择合适算法对提升模型效果至关重要。
664 4
|
SQL 数据可视化 数据库
多维度解析低代码:从技术架构到插件生态
本文深入解析低代码平台,涵盖技术架构、插件生态及应用价值。重点介绍开源低代码平台的优势,如透明架构、兼容性与扩展性、可定制化开发,以及其在数据处理、功能模块、插件生态等方面的技术特点。文章还探讨了低代码平台的安全性、权限管理及未来技术趋势,强调其在企业数字化转型中的重要作用。
|
存储 监控 Linux
在 CentOS 7 中如何进行磁盘分区和挂载的最佳实践
本文介绍了在 CentOS 7 中如何进行磁盘分区和挂载的最佳实践。通过合理规划和管理服务器磁盘空间,可以提高系统的稳定性和可维护性。具体步骤包括确认未使用的硬盘、创建分区、格式化分区、创建挂载点、临时和永久挂载分区,以及最佳实践分享。这些操作不仅有助于充分利用磁盘资源,还能提升服务器性能和可靠性。
640 1
|
存储 人工智能 算法
程序与技术分享:7z命令行压缩解压详解
程序与技术分享:7z命令行压缩解压详解
|
人工智能 算法 BI
Unity——脚本与导航系统
Unity——脚本与导航系统
587 0
|
Linux Shell C++
Linux 终端中的目录切换
Linux 终端中的目录切换
591 0