计算机视觉概述(一)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
大数据开发治理平台 DataWorks,不限时长
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 计算机视觉概述(一)

开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):计算机视觉概述(一)

课程地址:https://edu.aliyun.com/course/3112108/lesson/19272

 

计算机视觉概述(一)

 

内容介绍

一、 计算机视觉的知识背景

二、 计算机视觉与人类视觉的关系

三、 计算机视觉在行业中的典型应用

 

课程目标:

学习完本课程后,你将能够:

理解计算机视觉相较于人类视觉的优势

从结构和应用场景上区分计算机视觉与人类视觉

区分并结合业务需求选择对应的计算机视觉任务(如图像分类、目标检测、语义分割、实例分割、人体关健点检测

等)

区分并根据任务需求选择对应的分类任务(如单标签分类任务和多标签分类任务)

据给出的图片和标签判所出是何种图形分类任务(如跨物种语义级别图形分类、子类细粒度图像分类,多标签图

像分类)

根据出的图例判断出是何种图像分割任务(如语义分制、实例分制、全景分额)

根据目标检演的评估指标(如交并比、准确度、召回率、平地精度值)对目标检测结果进行评估分析

.根据不同的计算机视觉技术(如图像分类、目标检测、图像分割)选择对应的常用数据集和神经网络

使用里云视智开平台实现像分割

 

课程的目录

介绍计算机视觉的基础知识

计算机视觉的基本原理

图像分类基础

目标检测基础

图像分割基础

实验:计算机视觉技术简单实现

 

提问:

计算机视觉在现实生活中应用相当广泛,也是一项好理解的人们技术,能否分享一下您对计算机视觉的第一印象?

实际上,计算机视觉就是利用计算机模仿人类视觉,代替人眼完成各种任务。

 

一、计算机视觉的知识背景


图片554.png


计算机视觉的定义:·计算机视觉(ComputerVision)是一门研究如何使机器“看”的科学,也可以看作是研究如何使人工系统从图像或多维数据中“感知科学”。更具体地说,它涉及使用摄像机和计算机来代替人眼进行目标识别、跟踪、测量等操作,并进一步进行图像处理,以使计算机能够更适合人眼观察或用于机器检测的图像。


计算机视觉也可以被视为一门研究如何让人工系统从图像或多维数据中感知信息的科学。人类获取和理解世界信息的大部分方式都依赖于视觉,我们约有91%的信息来自于视觉。因此,计算机视觉成为机器理解世界的基础。其总体目标是让计算机能够像人一样看世界并理解它。

图片555.png


计算机视觉技术已经发展了多年,广泛应用于各个领域。在更多领域情况下,计算机具有明显的优势,特别是在移动速度方面。无论人类多快跑,都不及汽车的速度。同样,在视觉方面也是如此。

相对于人类来说,计算机在几个方面具有优势。


首先,在图像处理方面,计算机能够以高精度处理图像,实现超人的准确性。例如识别颜色、细节敏感度。人类能够识别的颜色大约有100多万种,但计算机可以表示的颜色达到了1600万种以上。这意味着计算机能够表示的颜色远远超出了人类的感知范围。


此外,计算机在对细节的敏感度方面也表现出色。现在,计算机可以处理非常大的图像,甚至可以处理具有上亿像素的照片。当你放大这些照片时,细节会变得非常清晰,而这些细节可能是人眼无法捕捉到的。


其次,在模式识别方面,计算机的性能总是超越人类。这与颜色和细节的敏感性有关,有些微小的变化人类可能无法分辨,但计算机却可以轻松完成。在医疗图像分析中,可能存在一些微小的变化,人眼无法察觉,但计算机可以识别出来。

最后,在计算能力方面,计算机具有无可争议的优势。计算机的速度和准确性是完全可控的,这在处理大量数据时非常有用。

 

二、计算机视觉与人类视觉的关系


让我们探讨一下计算机视觉与人类视觉之间的关系。

人的眼睛看到事物的过程是这样的:首先,我们睁开眼睛,然后眼睛接收到图像,这个图像通过神经传递到大脑,大脑对图像进行分析和判断。需要注意的是,人的眼睛并不是直接感光,而是将光传递给大脑后才构成完整的视觉,这是一个视觉处理的过程。

图片556.png


在研究计算机视觉之前,我们先了解一下人类视觉的工作原理。人类的视觉是最重要的感官之一,约90%的信息获取都通过视觉完成,而且视觉是人类最直接有效的信息获取方式。因为光传播的速度最快,视觉是物理学和生物学的结合产物。首先,光线射在物体上,然后在物体上发生反射,这些光线到达人类的视网膜上并传递信息。通常,我们所看到的东西都是通过慢反射的,这个过程是物理过程。然后,光线映射到视网膜上并转化为图像信息,然后通过视神经传送到大脑,这是一个转变的过程。最后,大脑对这些信息进行抽象、分析、处理并做出反应,这个处理过程也是人类视觉的核心。

图片557.png


让我们来对比一下计算机视觉和人类视觉。计算机视觉与人类视觉有很多相似之处,首先,它们有相似的结构。计算机视觉可以被分为接收器、转换器和处理器,与人类视觉进行了对比。计算机视觉的转换方式是数字化的,它看到了图像并将其转化为数字数据。

人类的感知方式是一个生理过程,就像人看到事物也是一个感光的过程。实际上,如果我们将感光细胞看作输入,每个数字都可以被记录下来,这本质上是一个数字化的过程。接着是接收器,即我们的眼睛。计算机也有自己的摄像头,有各种型号。然后是转换器,它通过电信线将信息传输到计算机上。


不同之处在于人类的感知过程依赖于神经细胞来传递和处理信息,而计算机则通过计算来实现。人脑用于处理信息,而计算机则依赖中央处理器(CPU)。总之,计算机视觉和人类视觉有相似之处,但也存在差异。

计算机和人类的视觉有许多相似之处,但也有显著的不同。首先,计算机是机器,而人类是生物。计算机视觉具有许多优势,因为它是通过数值计算来实现的,不容易受到错觉的影响,例如大小、长短等。而人类的视觉可以受到错觉的影响,因为它依赖于生物感知和直觉,而不是明确的计算过程。

此外,人类的眼睛比计算机摄像头更灵活,能够自由地寻找、跟踪目标并观察。这是因为人类的神经系统更加复杂。这些是计算机视觉和人类视觉之间的主要区别。

人类的直觉和理解也使其能够根据以往的知识和经验来解释感知到的信息,而不仅仅是按照计算模型进行处理。这种直觉在计算机视觉中难以实现,这是另一个重要的不同点。

计算机视觉和人类视觉之间的一些相似之处和不同之处。

在计算机领域,它的中央处理器(CPU)可以被看作是大脑,但它只能处理基于人类知识的任务。与此不同,人类拥有自己的思维过程,这是计算机视觉与人类视觉之间的重要差异之一。此外,计算机视觉能够获取人类视觉无法感知的信息,因为它是一台机器。例如,摄像机可以捕捉红外线,这是人类视觉无法做到的。另外,在低光条件下,计算机视觉也更加敏感。


还有其他特殊情况,比如监控遥远的区域,这是计算机视觉的优势之一。最后,计算机可以进入人类难以到达的地方,例如高危环境,如辐射区域。甚至在内部实习生存的条件下,机器人可以发挥视觉作用,这是人类无法做到的。总之,计算机视觉与人力视觉在多个方面存在相似之处,但也有显著的差异。

关于计算机视觉的应用,它已经深刻地渗透到我们的日常生活中。以下是一些可能会想到的应用场景:

照片和视频编辑:现在有专门的应用程序,用于编辑照片和视频,让它们看起来更加优美,包括修图、特效和路径等功能,其中很多是基于人工智能的技术。

车牌识别:自动识别车牌已经非常成熟,用于停车场出入口等场景,识别准确率也很高。

人脸识别:广泛应用于手机解锁、支付等领域,提供了便捷的身份验证方式。

自动驾驶:计算机视觉是自动驾驶技术的核心,能够识别道路状况、行人和交通信号,以确保安全驾驶。

这些都是计算机视觉技术在日常生活中的应用示例,它们已经成为我们生活中的一部分,为我们提供了更多的便利和安全性。

相关文章
|
10月前
|
人工智能 监控 前端开发
计算机视觉概述(二)
计算机视觉概述(二)
54 0
|
机器学习/深度学习 编解码 监控
计算机视觉概述:视觉任务+场景领域+发展历程+典型任务
比如下图,做到的不仅仅是检测到图像前景中有四个⼈、⼀条街道和⼏辆⻋。除了这些基本信息,⼈类还能够看出图像前景中的⼈正在⾛路,其中⼀⼈⾚脚,我们甚⾄知道他们是谁。我们可以理性地推断出图中⼈物没有被⻋撞击的危险,⽩⾊的⼤众汽⻋没有停好。⼈类还可以描述图中⼈物的穿着,不⽌是⾐服颜⾊,还有材质与纹理。⼈类能够理解和描述图像中的场景。
316 0
|
机器学习/深度学习 数据采集 编解码
【动手学计算机视觉】第十讲:传统目标检测之卷积神经网络概述
入门计算机视觉领域的绝大多数同学应该都学过或听说过斯坦福大学的公开课(CS231n: Convolutional Neural Networks for Visual Recognition),主要就围绕CNN进行展开,甚至很多近几年入门计算机视觉的同学就斩钉截铁的认为,计算机视觉就是卷积神经网络,我认为这有一些"一叶障目,不见泰山的"感觉。CNN是计算机视觉的一个子集,而且是一个很小的子集,更确切的说,计算机视觉是一种应用性技术,CNN是一种工具。本文就来介绍概述一下卷积神经网络,后续会挑选比较经典的模型详细展开并编程实现。入门计算机视觉领域的绝大多数同学应该都学过或听说过斯坦福大学的公开课
【动手学计算机视觉】第十讲:传统目标检测之卷积神经网络概述
|
2月前
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
467 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
7月前
|
机器学习/深度学习 PyTorch 算法框架/工具
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
86 0
|
22天前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
56 8
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。
【7月更文挑战第2天】计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。AlexNet开启新时代,后续模型不断优化,推动对象检测、语义分割、图像生成等领域发展。尽管面临数据隐私、模型解释性等挑战,深度学习已广泛应用于安防、医疗、零售和农业,预示着更智能、高效的未来,同时也强调了技术创新、伦理考量的重要性。
14 1
|
25天前
|
机器学习/深度学习 算法框架/工具 计算机视觉
ViT模型的出现标志着Transformer架构在计算机视觉中的成功应用
ViT模型的出现标志着Transformer架构在计算机视觉中的成功应用
36 2
|
2月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
54 3