《计算机视觉:模型、学习和推理》一1.1 本书结构

简介: 本节书摘来华章计算机《计算机视觉:模型、学习和推理》一书中的第1章 ,第1.1节, [英]西蒙J. D. 普林斯(Simon J. D. Prince)著苗启广 刘凯 孔韦韦 许鹏飞 译 译更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.1 本书结构

本书分为六部分,如图1-2所示。
本书的第一部分涵盖概率方面的背景知识。全书中所有的模型都是用概率的术语表示,概率是计算机视觉应用中一门很有用的语言。具有扎实工程数学背景的读者或许对这部分知识比较熟悉,但仍需要浏览这些章节以确保掌握相关的符号。那些尚不具备该背景的读者应该仔细阅读这些章节。这些知识相对比较简单,但它们是本书其余部分的基础。在正式提到计算机视觉知识前被迫阅读三十多页的数学虽然令人沮丧,但请相信我,这些基础知识将为后续的学习提供坚实的基础。
2017_09_19_101119

图1-2 章节依赖关系。本书分为六部分。第一部分是概率综述,是所有后续章节的基础。第二部分涉及机器学习和推理,主要描述生成模型和判别模型。第三部分讨论图模型,主要是大的模型中变量之间概率依赖关系的可视化表示方式。第四部分介绍预处理方法。第五部分涉及几何与变换。第六部分提出几个重要的视觉模型
本书第二部分介绍计算机视觉中的机器学习。这些章节讲述机器视觉的核心原理,帮助读者巩固从图像中提取有用信息的方法。建立统计模型,建立图像数据和期望获取信息之间的关系。掌握这些后,读者应该了解如何建立一个模型来解决视觉领域的几乎所有问题,即使这种模式可能还不是很实用。
本书第三部分介绍计算机视觉的图模型。图模型为简化图像数据和期望评估的属性间关系提供一个框架。当这些量都是高维时,它们之间的统计关系变得相当复杂。即使如此,我们仍可以定义相关的模型,但我们可能缺乏使其有用的训练数据或计算能力。图模型提供了一个有原则的方式来推测数据和世界属性之间的统计关系。
本书第四部分讨论图像预处理。对于理解本书中的大部分模型这不是必需的,但并不是说这部分就不重要。预处理策略的选择至少跟模型的选择一样至关重要,这决定了一个计算机视觉系统最终的性能。虽然图像处理不是本书的主题,但是这部分提供了最为重要和实用的技术总结。
本书第五部分致力于几何计算机视觉;它介绍针孔摄像机——一个用来描述三维空间中给定点在相机像素阵列中成像的数学模型。跟这个模型相关的是寻找特定场景的相机位置和重建物体三维模型的一整套技术。
最后,本书第六部分基于前面的原理,给出几组视觉模型。这些模型致力于计算机视觉最为核心的若干问题,包括人脸识别、跟踪和目标识别。
本书最后是附录。其简述书中使用的符号约定,并概括线性代数和优化技术。虽然这些知识在其他文献也能找到,但是这些内容会使得本书更加完备,并且保证在正文以统一的术语来讨论。
每章末尾有一个简短的备注。这提供了相关研究文献的详细信息。该部分倾向于提供最近、最有用的文献,可能并不能准确反映各个领域的所有相关内容。每章末尾也有配套的一些习题。在某些情况下,本书将正文中一些重要但是繁琐的衍生问题留作习题,以便继续本书主要问题的论述。习题答案将会发布在网站上(http://www.computervisionmodels.com) 关于本书教辅资源,用书教师可向剑桥大学出版社北京代表处申请,电子邮件:solutions@cambridge.org。——编辑注。每章末尾也会列出一系列应用(除了只包含理论知识的)。第1~5章、第10章之外,总之,这是关于过去十年里机器视觉重要论文的一个缩影。
最后,本文涉及的七十多种算法的伪代码,打包在一个单独的文件里面,可以从相关网站(http://www.computervisionmodels.com)下载。本书通篇使用符号表示有与这部分文字相关的伪代码。伪代码也使用相同的符号,使它很容易实现许多模型。伪代码不放在书中主要是因为它会降低本书的可读性。然而,我鼓励本书所有的读者尽可能多实现这本书里涉及的模型。计算机视觉是一门实践性的工程学科,通过尝试编写真实的代码,你将受益良多。

相关文章
|
6月前
|
机器学习/深度学习 存储 数据库
Python3 OpenCV4 计算机视觉学习手册:6~11(5)
Python3 OpenCV4 计算机视觉学习手册:6~11(5)
86 0
|
6月前
|
机器学习/深度学习 算法 数据可视化
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-2
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
|
2月前
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。
|
23天前
|
机器学习/深度学习 人工智能 TensorFlow
浅谈计算机视觉新手的学习路径
浅谈计算机视觉新手的学习路径
16 0
|
2月前
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。
|
4月前
|
自然语言处理 监控 自动驾驶
大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
【7月更文挑战第26天】大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
166 11
|
6月前
|
机器学习/深度学习 Ubuntu Linux
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-1
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
|
5月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
133 8
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。
【7月更文挑战第2天】计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。AlexNet开启新时代,后续模型不断优化,推动对象检测、语义分割、图像生成等领域发展。尽管面临数据隐私、模型解释性等挑战,深度学习已广泛应用于安防、医疗、零售和农业,预示着更智能、高效的未来,同时也强调了技术创新、伦理考量的重要性。
62 1
|
6月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
228 3

热门文章

最新文章

下一篇
无影云桌面