“以图搜图”的奇葩用途 | 深度

本文涉及的产品
图像搜索,7款服务类型 1个月
简介:
     你在什么时候会用图搜图?

当你感到语言苍白无力的时候。

你在扫街的时候,突然发现某撩妹达人穿了一身炫酷的T恤。


你收到朋友送来的生猛红酒,好奇这到底是百年窖藏还是山寨葡萄糖。


你在编辑文案的时候,一张非常适合的图片却挂着水印,你需要一个清晰的版本(请支持正版。。。)

以图搜图就像一个“痒痒挠”,能够到文字搜索难以企及的痒点。这让我们对这种搜索方式的结果抱有很高的期待。它让很多人能透过互联网的森林,感受到若隐若现的人工智能灵魂。这可能正是人们对这种技术好奇的原因。

以图搜图的奇葩用途 | 深度

【图像识别的应用场景】

和这种技术为伴十多年的陈杰博士,是博云视觉的CEO。他带领北大团队研发的图像识别技术如今被用在百度和微信的图像搜索和图像识别场景中。他为雷锋网详细介绍了图像识别的一个重要门派——基于尺度空间理论的视觉搜索。

以图搜图的奇葩用途 | 深度

【陈杰】

视觉的秘密

人的视觉原理很简单:物体反射自然光在眼中成像。

如果面前是一面巨大的白墙,你很难看出其中的细节。但是如果在墙面上画了一只鸟,你一眼就可以分辨出来。

你之所以能看到眼前这个鸟,是因为你的视觉认为它是一个“斑点”。通俗来讲,就是某个东西和周围的物体产生了反差。

陈杰如此解释视觉的原理。

所以在你的眼中,眼前的场景是由一些“刺激点”组成的。这些便是图像的“特征点”。而如果机器能够和人一样准确地识别两张图片中相同的“特征点”,就可以实现以图搜图这种高科技了。

但对于人眼来说易如反掌的刺激点,怎么用机器语言记录呢?

陈杰告诉雷锋网(公众号:雷锋网),在机器眼中,每一个特征点都会被记录为描述性的数据,这些数据包括像素矩阵,颜色、纹理、梯度、形状分布等

在博云视觉的算法中,每张图片会被提取1000个左右的特征点,而这些特征数据的大小约为 2Kb-4Kb。

虽然背后的算法极其精细,但是粗略来说,对数据库中的每张照片提取特征之后,图像搜索就可以开始了。

用户提交搜索的查询图片,系统会自动提取图片上的特征点,再用特征点和数据库中的图片特征做对比,两个图片的特征点匹配越多,系统就认为两张图片最为相似。于是,用户会得到一个

按照相似度排序的搜索结果列表

陈杰说,“一般两张图片拥有10个匹配的特征点,我们就可以认为他们是相似图片。”

以图搜图的奇葩用途 | 深度

警察叔叔的利器

一般童鞋可能想不到,这个高科技解放了警察叔叔。

对于重大案件来说,嫌疑人的汽车往往是破案的重要线索。于是如何从数以亿计的监控图像中找出某个特定汽车,成为了警察叔叔的噩梦。

  • 以往的方法是:警察叔叔们趴在电脑前,连续看上一两个月监控视频,才能基本找到所有包含目标汽车的监控图像。(由于汽车的移动,所以一般会在多个监控图像中发现目标。)

  • 但是如果使用图像识别技术,只要依靠一张样本,就可以在几小时之内,基本找到所有目标图像。

陈杰告诉雷锋网,在和某地公安的联合实验中,在搜索结果的前200位中,包含了正确结果的90%。也就是说:如果目标共出现在50张图片中,那么在前200位结果中包含45个。

以图搜图的奇葩用途 | 深度

【利用监控图片搜索指定汽车】

“增强现实”的工具

但是,一辆车一定是以各个角度和姿态出现在监控图像中,那么识别系统为什么可以做出相对准确的识别呢?

陈杰表示,使用这种技术做图像识别,需要面对三个重要的干扰因素:

光照

由于同一个物体在不同光线下,特征点的像素呈现出的数据会有很大的差异。所以好的算法必须能够排除光线的干扰,提取物特征点最基础的信息。但是不可否认,在极端弱光(例如黑夜)或者极端复杂光线(例如酒吧)下,特征的辨识力会降低。

几何变换

一辆汽车从各个角度来看,有很大的区别。根据物体的拍摄角度不同,特征信息一定会发生变化。然而人眼仍然能够识别出两个不同角度的图像是同一物体。对于机器识别系统来说,则需要根据不同的角度变换进行计算,这样就能尽可能做到物体平移、旋转等几何变换之后依然可以进行准确匹配。

距离

如果物体在画面中位置过远,就会变得更小,这样图像上的细节就会大量丢失。这样的话,一张近视图和远视图就很难被机器认定为相似。为了解决这个问题,陈杰和团队采用了一种基于尺度空间理论的方法:将每张图片以不同的量级进行高斯模糊,这个动作是为了模拟人眼在不同距离看到的物体。在这些模糊图片进行特征提取和比对,就可以匹配距离镜头不同距离的同一物体。

以图搜图的奇葩用途 | 深度

解决了“距离”这个棘手的问题,这种图像识别的方法就可以完美地应用在增强现实的游戏中。在这种情况下,应用场景往往是预设而且固定的,所以游戏的提供商可以把真实的场景通过拍摄不同角度和远近的照片,然后录入数据库。玩家在进行游戏的时候,会佩戴带有摄像头的眼镜,这种情况下,图像识别系统就可以对玩家眼中的“景物”和数据库中的图片匹配,理解玩家的具体位置,从而在眼镜中加入各种奇幻的特效

蕾丝边的福音

你知道蕾丝吗?我自己都没有想到这个技术可以用于蕾丝制造行业。

陈杰说。

有一个专门做蕾丝花纹搜索引擎的团队找到陈杰,告诉他一个行业的痛点:蕾丝生产厂家经常生产一些特定的类似花纹,寻求买家。但是蕾丝的花纹通常根本无法用人类的语言来形容,所以经常可以看到有人在微信群里发很多图片,询问是否有人需要这个样式;对于买家来说,他们也会发图片,并且询问是否有人有这样的花纹。

这种情况下这个蕾丝花纹搜索引擎就出现了,它对接了买家和卖家。这种搜索引擎,需要的恰恰是这种图像识别技术。

以图搜图的奇葩用途 | 深度

【蕾丝搜索引擎】

以驴找驴vs以驴找马

图像识别同样可以拯救红酒控。

陈杰告诉雷锋网,博云视觉服务的客户中,就有一个专门帮用户识别酒标的 App。“这个团队拥有一个巨大的酒标数据库。可以通过拍照搜索的方式,获得很多奇特红酒的详细信息。”

寻找酒标是尺度空间理论图像识别的典型应用方式。因为它符合一个一个规则:在数据库中找到完全相同的图片/物体。用通俗的话来说,就是“以驴找驴”。而在我们的搜索需求中, 还存在一种“以驴找马”的需求,它的目的是搜索相似图片/物体。

以图搜图的奇葩用途 | 深度

【各类红酒标】

陈杰告诉雷锋网,以驴找马这种需求,目前更多地使用区别于“尺度空间理论识别”的“机器学习”的技术路线,这也是普通人更熟悉的一种技术。

机器学习,主要原理是给一个运算力强大的计算机群学习大量的数据,然后让机器提取出这一类素材的内部规律,用这类规律帮人类工作。例如不久前战败李世石的阿法狗,使用的就是机器学习的方式。

以图搜图的奇葩用途 | 深度

【以驴找驴的搜索方式,可以更好地发现完全一致的图像结果】

这种技术在资源充足的情况下,后期会出现惊人的能力。但是它需要两个重要的因素:

1、用来“喂养”系统的巨大数据样本

2、超高的计算能力,超长的计算时间,超大的存储空间。

这种技术就像火箭发射,需要足够的燃料(数据)和强大的发动机(计算机性能)”陈杰说,

所以在很多场景中, “尺度空间识别”和“机器学习识别”需要结合起来,才能产生最优的效果。

有一点确定无疑,那就是随着图像识别领域的技术爆发,这种“解痒”的技术究竟可以用来解决很多具体的问题。正如“蕾丝边问题”一样,在很多情况下,没有人会把这种技术和具体的问题联系起来。

或者说:对科技的魔力,我们仍然懵然无知。

  
 
  本文作者: 史中

本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
3月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之视频人物卡通化本地文件处理慢,有没有优化的办法
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
6天前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
18 2
代码之外的艺术:技术写作的深度与温度
在数字时代的浪潮中,技术写作往往被视作一种冷冰冰的信息传递方式。然而,当我们深入探究时,便会发现它其实是一种富有创造力的艺术形式。本文将通过个人的技术感悟来探讨如何赋予技术写作以深度和温度,使其不仅仅是代码和逻辑的简单堆砌,而是一种能够触动人心、引发思考的创作活动。
|
1月前
|
人工智能 JSON 自然语言处理
🔍深度揭秘!如何用提示词驾驭生成式大模型,让你的创意无限飞🌈
【8月更文挑战第1天】在AI风潮中,生成式大模型因出色的内容创造能力备受创意工作者青睐。但如何巧妙运用提示词,激发模型潜力,仍是挑战。本文通过问答形式揭秘提示词技巧:理解其定义、掌握设计方法(明确目标、具象描述、考虑模型特性)、评估其影响力及调整策略(细化描述、变换风格、调节参数),并分享实用贴士,助您成为驾驭AI创作的高手。
66 7
|
11月前
|
Cloud Native Go 开发工具
如何让CSDN学习成就个人能力六边形全是100分:解析个人能力雷达图的窍门
如何让CSDN学习成就个人能力六边形全是100分:解析个人能力雷达图的窍门
251 0
|
11月前
|
传感器 XML 定位技术
《移动互联网技术》第九章 感知与多媒体: 了解质感设计的基本原则和设计方法
《移动互联网技术》第九章 感知与多媒体: 了解质感设计的基本原则和设计方法
81 0
|
机器学习/深度学习 存储 传感器
《自然》:机器视觉行为理解与脑神经有内在关联?上交卢策吾团队构建映射模型
《自然》:机器视觉行为理解与脑神经有内在关联?上交卢策吾团队构建映射模型
264 0
|
自然语言处理 搜索推荐
4款「ChatGPT搜索」全面对比!斯坦福华人博士纯手工标注:新必应流畅度最低,近一半句子都没引用
4款「ChatGPT搜索」全面对比!斯坦福华人博士纯手工标注:新必应流畅度最低,近一半句子都没引用
236 0
|
存储 数据可视化 程序员
选择文库系统的时候需要重点注意和对比哪些东西?
本人程序员出身,接近15年的代码经验,对互联网产品和运营也一直在实践和研究,尤其是对文库产品有着深度理解,因为我自己也一直在运营文库项目。下面是我站在一个普通站长角度给出的一些经验,如果你也想做一个文库网站或文库平台,需要选择一套文库系统产品,请从下面几点出发去做对比,最终做出正确选择。
选择文库系统的时候需要重点注意和对比哪些东西?
程序人生 - 艾滋病的深度科普
程序人生 - 艾滋病的深度科普
87 0
程序人生 - 艾滋病的深度科普