《计算机视觉:模型、学习和推理》——导读

简介: 我们可以根据这些量选择性地组织知识,但在我看来,模型中最重要的内容是全局状态和测量值之间的统计关系。这主要有三个原因。首先,模型的类型往往超越了应用(同一个模型可用于不同的视觉任务);其次,模型能够自然地把它们自身组织成一些可分开理解的系列


image


**
前言
**
目前,已有很多关于计算机视觉的书籍,那么还有必要再写另外一本吗?下面解释撰写本书的原因。
计算机视觉是一门工程学科,机器在现实世界中捕获的视觉信息可以激发我们的积极性。因此,我们通过使用计算机视觉解决现实问题来对我们的知识进行分类。例如,大多数视觉教科书都包含目标识别和立体视觉内容。我们的学术研讨会也是用同样的模式进行组织的。本书对这一传统方式提出了质疑:这真的是我们组织自己知识的正确方法吗?
对于目标识别问题,目前已提出多种算法解决这一问题(例如子空间模型、boosting模型、语义包模型、星座模型等)然而,这些方法没有什么共同点。任何试图全面描述知识的壮举都会转变为一个非结构化的技术列表。我们怎样让新同学把所有的技术和理论都弄懂呢?我主张使用一种不同的方式来组织知识,但首先让我告诉大家我是如何看待计算机视觉问题的。
对于一幅图像,我们不仅要观察图像中的内容,同时还需要提取其测量值。例如,我们可以直接使用RGB值,或者对图像进行滤波处理,或者执行一些更复杂的预处理。计算机视觉的目标或者需要解决的问题是使用这些测量值来推理全局状态。例如:在立体视觉中,我们尝试推断出场景的深度。在目标识别中,我们尝试推断某一特定类目标存在与否。
为了实现目标,我们建立一个模型。模型描述了测量值与全局状态之间的一系列统计关系。这一系列统计关系中的特殊成员是由一个参数集合确定的。在学习的过程中,选择这些参数,以便它们能够准确反映测量值与全局状态之间的关系。在推理的过程中,选用一组新的测量值,并利用学习后的模型来推理全局状态。学习和推理的方法包含在算法中。我认为计算机视觉应该从以下几方面来理解:目标、测量值、全局状态、模型、参数、学习和推理算法。
我们可以根据这些量选择性地组织知识,但在我看来,模型中最重要的内容是全局状态和测量值之间的统计关系。这主要有三个原因。首先,模型的类型往往超越了应用(同一个模型可用于不同的视觉任务);其次,模型能够自然地把它们自身组织成一些可分开理解的系列(例如,回归、马尔可夫随机场、相机模型);最后,在模型层次上讨论视觉问题使得我们能够得到那些貌似不相关的算法和应用之间的关联。因此,本书的章节安排非常巧妙,每个主要的章节都讨论一系列不同的模型。
最后一点,本书中的大部分思想在第一次接触到时是难以理解的。因此,我的目标是使后续研究计算机视觉的学生更容易理解这些内容,我希望这本书能够达到这一目的,并能够激励读者深入了解计算机视觉。

目录

第1章 绪论
1.1 本书结构
1.2 其他书籍
第1部分 概率
[第2章 概率概述
2.1 随机变量](https://yq.aliyun.com/articles/118914)
2.2 联合概率
2.3 边缘化
2.4 条件概率
2.5 贝叶斯公式
2.6 独立性
2.7 期望
2.8 讨论
2.9 习题
第3章 常用概率分布
3.1 伯努利分布
3.2 贝塔分布
3.3 分类分布
3.4 狄利克雷分布
3.5 一元正态分布
3.6 正态逆伽马分布
3.7 多元正态分布
3.8 正态逆维希特分布
3.9 共轭性
3.10 总结
3.11 习题

相关文章
|
2月前
|
机器学习/深度学习 存储 数据库
Python3 OpenCV4 计算机视觉学习手册:6~11(5)
Python3 OpenCV4 计算机视觉学习手册:6~11(5)
66 0
|
2月前
|
机器学习/深度学习 算法 数据可视化
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-2
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
140 0
|
1月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
67 8
|
2月前
|
机器学习/深度学习 Ubuntu Linux
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-1
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
101 1
|
25天前
|
机器学习/深度学习 人工智能 自然语言处理
计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。
【7月更文挑战第2天】计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。AlexNet开启新时代,后续模型不断优化,推动对象检测、语义分割、图像生成等领域发展。尽管面临数据隐私、模型解释性等挑战,深度学习已广泛应用于安防、医疗、零售和农业,预示着更智能、高效的未来,同时也强调了技术创新、伦理考量的重要性。
20 1
|
1月前
|
机器学习/深度学习 算法框架/工具 计算机视觉
ViT模型的出现标志着Transformer架构在计算机视觉中的成功应用
ViT模型的出现标志着Transformer架构在计算机视觉中的成功应用
39 2
|
2月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
61 3
|
2月前
|
人工智能 计算机视觉
李飞飞空间智能系列新进展,吴佳俊团队新BVS套件评估计算机视觉模型
【5月更文挑战第29天】李飞飞教授的SVL实验室与吴佳俊团队推出BEHAVIOR Vision Suite(BVS),一个创新工具包,用于生成定制合成数据以评估计算机视觉模型。BVS解决了现有数据生成器在资产、多样性和真实性方面的局限,提供灵活的场景、对象和相机参数调整。它包含8000多个对象模型和1000个场景,适用于多种视觉任务。实验展示了BVS在评估模型鲁棒性、场景理解和域适应中的效用,但也指出其在覆盖范围、使用难度和域适应上的局限。[论文链接](https://arxiv.org/pdf/2405.09546)
57 4
|
2月前
|
机器学习/深度学习 算法 数据挖掘
Python3 OpenCV4 计算机视觉学习手册:6~11(2)
Python3 OpenCV4 计算机视觉学习手册:6~11(2)
90 0
|
2月前
|
机器学习/深度学习 人工智能 计算机视觉
生成式计算机视觉(CV)模型的发展历程及最新进展
在计算机视觉(CV)领域,生成式AI技术的发展经历了多个阶段。在深度学习革命之前,传统的图像生成技术主要依赖于手工制作的特征,如纹理合成和纹理映射等方法。然而,这些方法在生成复杂和生动的图像方面的能力是有限的。
456 2

热门文章

最新文章