LEVAN:首款全自动视觉概念的机器学习程序

简介:

在今天数字驱动的世界,信息触手可及又无穷无尽。但当你想要了解某种未知的东西,比如你在朋友家里看到的厨房小工具的名字,你会发现你很难,也不知如何才能从网络上的大量信息中搜索、筛选有用信息。或者,一种截然相反的问题出现了--我们确实能在互联网上查找任何东西,但如何确保我们在短时间查询到一切与主题相关的信息?


来自华盛顿大学和位于西雅图的艾伦人工智能研究所( the Allen Institute for Artificial Intelligence)的计算机科学家创造了第一个全自动计算机程序,用来做视图概念的机器学习。名为学习关于一切的一切,或者叫做列文(LEVAN),该程序将在线搜索成千上万的书籍和图片,来学习某概念及所有变化,接着将结果以一组全面而可浏览的图片列表呈现给用户,以帮助他们快速详细地检索、理解主题。


“这个程序所做的就是发掘文本数据与可视化数据之间的关联,”Ali Farhadi介绍说到——他是华盛顿大学计算机科学工程专业的一位助理教授,“程序学着将图像中像素与丰富的集合描述紧密耦合,这意味着当程序看到这些图片时,就能识别出特定的概念实例”。


在本月俄亥俄州哥伦比亚的计算机视觉和模式识别年会(the Computer Vision and Pattern Recognition annual conference)上,该研究团队将会展示这一项目以及一篇相关论文。


通过浏览在线图片的内容并使用目标识别算法辨别这些图片的特征模式,程序就能分辨出相关条目。与在线图片库不同,此程序凭借丰富的短语以及图片内容、像素组合,来理解并标识图片。


用户能浏览现有的大约175概念库。这些现有的概念范围从“航线”到“窗子”,包括“美丽”,“早餐”,“阳关”,“癌症”,“创新”,“滑板”,“机器人”,以及研究人员第一个输入,“马”。


假如你查询的概念不存在,你可以提交任何搜索术语,程序会自动产生详尽的,与此概念关联的子分类图片列表。比如,一个关于狗的搜索会产生显而易见的子分类集合:照片包括“吉娃娃(Chihuahua dog)”、“沮丧(black dog)”、“游泳的狗狗”,“脏乱的狗狗”,“灵缇犬”。但“狗鼻”、狗盆、“易闯祸的人(sad dog)”、最丑的狗、“热狗”,甚至瑜伽姿势“下犬式(down dog)”,也出现其中。


此技术通过在成千上万的谷歌英文书籍中寻找文本,并且在完整的数码库中查询每一个可能的概念来发挥作用。接着用一套算法过滤掉非视觉文本概念。以“马”这个概念为例,算法会持有“奔腾的马”、“吃草的马”、“带笼罩的马”这些描述词,但会排出诸如“我的马”、“最后一匹马”这样非视觉的描述词。


一旦程序习得了那些描述词是关联的,它就会做在线图片查询,在检索到的照片中寻找存在关联性的图片。比如,当训练过的程序寻找“奔腾的马”相关的图片,它能识别所有与此描述关联的图片。


“诸如词典以及百科全书为主要来源的信息库,直接地向用户展示了可视化信息,主要是因为这些信息容易理解并且可以快速地通过概念查询去浏览。然而,用户手动查询常常限定了查询的范围。不过,新程序无需人员监控,因此它能自动针对任何概念习得视觉知识。”Santosh Divvala介绍说,他既是人工智能艾伦研究所(Allen Institute for Artificial Intelligence )的一名研究科学家,也是隶属于华盛顿大学计算机科学与工程系(UW in computer science and engineering)一名科学家。


研究团队也包括Carlos Guestrin,他是华盛顿大学计算机科学与工程系(UW in computer science and engineering)教授。三月份研究者发起这个项目时仅有少部分可视化概念,自此以后,超过130万张的图片被用6.5万不同的描述语所标识,他们见证了这些可视化概念增加的过程。

现在,程序在快速习得概念方面的能力很有限,主要受限于处理每条查询的计算能力,对于一些宽泛的概念需要12小时。研究者正加速程序处理速度以及处理能力。


团队希望开源的项目既能满足计算机可视觉化社区教学所需,又可以满足研究者对信息库的需求。与此同时,他们打算提供一个智能手机应用,以便能运行具备自动地解析归类图片功能的程序。


这项研究得到了美国海军研究办公室、全国科学基金以及华盛顿大学的基金资助。


原文发布时间为:2014-07-21

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
1月前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
28 2
|
2月前
|
机器学习/深度学习 自然语言处理 JavaScript
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)是量化概率分布差异的关键概念。本文深入探讨了KL散度及其相关概念,包括Jensen-Shannon散度和Renyi散度。KL散度用于衡量两个概率分布之间的差异,而Jensen-Shannon散度则提供了一种对称的度量方式。Renyi散度通过可调参数α,提供了更灵活的散度度量。这些概念不仅在理论研究中至关重要,在实际应用中也广泛用于数据压缩、变分自编码器、强化学习等领域。通过分析电子商务中的数据漂移实例,展示了这些散度指标在捕捉数据分布变化方面的独特优势,为企业提供了数据驱动的决策支持。
120 2
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
|
2月前
|
机器学习/深度学习 传感器 算法
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
|
4月前
|
机器学习/深度学习 算法
【机器学习】解释对偶的概念及SVM中的对偶算法?(面试回答)
解释了对偶的概念,指出对偶性在优化问题中的重要性,尤其是在强对偶性成立时可以提供主问题的最优下界,并且详细阐述了支持向量机(SVM)中对偶算法的应用,包括如何将原始的最大间隔优化问题转换为对偶问题来求解。
98 2
|
4月前
|
机器学习/深度学习
【机器学习】准确率、精确率、召回率、误报率、漏报率概念及公式
机器学习评估指标中的准确率、精确率、召回率、误报率和漏报率等概念,并给出了这些指标的计算公式。
777 0
|
5月前
|
机器学习/深度学习 数据可视化 开发者
视觉的力量!Python 机器学习模型评估,Matplotlib 与 Seaborn 如何助力决策更明智?
【7月更文挑战第23天】在Python机器学习中,模型评估不可或缺。Matplotlib与Seaborn作为数据可视化工具,助力洞察模型性能。Matplotlib基础灵活,构建复杂图表;Seaborn在其上层,简化绘图,提升美观。从折线图追踪损失到条形图对比准确率,两者互补,促进高效决策制定。尽管Matplotlib掌控力强,但Seaborn友好快捷,适于统计图形。结合使用,可将数据转化成深刻见解。
46 6
|
4月前
|
机器学习/深度学习 人工智能 算法
【机器学习】基于YOLOv10实现你的第一个视觉AI大模型
【机器学习】基于YOLOv10实现你的第一个视觉AI大模型
201 0
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之深度学习算法概念
深度学习算法是一类基于人工神经网络的机器学习方法,其核心思想是通过多层次的非线性变换,从数据中学习表示层次特征,从而实现对复杂模式的建模和学习。深度学习算法在图像识别、语音识别、自然语言处理等领域取得了巨大的成功,成为人工智能领域的重要技术之一。
97 3
|
4月前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】凸集、凸函数、凸优化、凸优化问题、非凸优化问题概念详解
本文解释了凸集、凸函数、凸优化以及非凸优化的概念,并探讨了它们在机器学习中的应用,包括如何将非凸问题转化为凸问题的方法和技术。
407 0
|
6月前
|
机器学习/深度学习 算法 数据格式
机器学习线性回归——概念梳理及非线性拟合
机器学习线性回归——概念梳理及非线性拟合
91 0