对于电脑的视觉,我们总是自以为是的站在人类角度来思考,我们开发程序来进行照片中的人脸识别,或者来统计交通阻塞中的汽车数量,我们将自己眼中的世界强加给电脑,因为我们已经习惯性的他们当成了工具,一个帮助我们更好了解自身世界的工具。但是,凭什么我们可以自大的以为我们和电脑看到的是同一个世界?现在,第一个反抗者出现了。
艺术家Ben Grosser突发奇想,为什么不让电脑从自己的角度去观察事物?于是他开发了一款人工智能观测器并让他来看电影。
Grosser未这款程序精心挑选了六部电影,包括《黑客帝国》、《美国丽人》、《盗梦空间》和《2001太空漫游》等。软件借助电脑视觉算法来欣赏电影的色彩、图案等画面。
一些轻度的智能算法帮助电脑在背景中挑选出人脸、建筑部、标志等有趣的东西。“一开始我选择剪辑”,他说,“但之后电脑就开始接管并自行决定看什么,看多久,接下来要看什么。”
这个程序除了具备观看功能外,还可以录下所看内容,记录其“眼睛”扫过的一系列台词。最后生成的片段不仅是机器视觉的素描,还包括对这些电影的独特记录。
电脑的“眼睛”可以注意到电影在过去几十年中的发生的风格转变,在这方面甚至可能超过我们人类。“近期的科幻电影片段展示了很多快速的视觉转换”,Grosser注意到。在《黑客帝国》和《盗梦空间》这类的电影中,演员和物体移动迅速,抑或是通过快速剪辑和多种镜头视角来实现快速运动。从程序生成的电影绘图中可以非常明显的看出快速、狂乱的节奏。仅在观看了《盗梦空间》3分钟后,Grosser的虚拟观测器就几乎掌握了电影的整体结构。
对于有些年头的电影,例如《出租车司机》、《安妮·霍尔》和《2001太空漫游》则代表了一种不同的电影制作方法,Grosser说到,这些电影没有那么多的视觉转换和动作镜头。在观看这些电影时,程序会对进行反复追踪,像我们一样花更长时间、更加平稳的的来关注被拍摄对象。而对于这些电影,输出绘图的风格却是简约而非狂热。
从这些输出的片段中,我们或许可以窥视出电脑视觉和人类视觉的某些区别。当电脑看到《盗梦空间》中的爆炸场景时,他会极其细致的抓住每一个微小的和快速的镜头转换,然后输出风格狂热的绘图片段。而我们在观看电影时,则倾向于将这些镜头合并在一起,我们的眼睛会自动忽略迅速交替的爆炸场景,也不会太过关心各种镜头转换,我们的关注重点在于爆炸起源、人物命运等剧情化因素。换句话说,电脑不会排斥爆炸场景,因为他们天赋异禀——拥有着足够宽广的视野。而人类有限的视觉处理能力注定了我们无法应对所有的事物,因此我们会选择性的只关注内容和内涵
对Grosser来说,这些差异引发了各种问题,不仅关乎到电脑的观察方式,还涉及到我们如何进行观察。当我们与电脑进行视觉对比时,其中的差异是否可以代表我们在文化上形成的特有的观察方式?而不具备叙事化感知的电脑系统是否会看到相同的事物?
人类的视觉能力其实非常有限,我们所看到的一切只不过是各种频率的波反射到视网膜上的感光神经元,然后在大脑中形成的一种虚幻的投射。而且我们的视觉其实是模糊的,只有视觉区域的中心部分才非常清晰。我们视觉的优势在于对变化的敏感,当有视觉边缘变化时我们的眼睛会立即移动,并完整的一个虚假的视觉场景,这期间又一个短暂的延迟,大脑需要进行无意识推理,借此我们才能注意到场景的要点。因此,我们关于视觉世界的非常详细的体验对我们来说是一种潜在的可获得的体验,而不是已经表征在我们脑中的体验。我们视觉系统中最重要的不是视觉本身,而是隐藏在背后的大脑的预测机制。
而电脑或者程序的视觉机制却完全不同,视觉对于他们来说只是一种纯粹的计算方式,获取信息后进行计算处理,然后输出。如此简单,却非常有效。他们视野足够宽广且不存在盲点,不需要付出模糊边缘的代价来找到中心;他们没有预测机制,但却可以轻描淡写的处理好各种变化;他们的视觉推理逻辑严密,无懈可击。
上文提到,机器视觉由于缺少叙事化感知而无法掌握电影剧情,但剧情这个概念其实又是我们的一次强加。在我看来,他们肯定看到了剧情,一种我们从来都不曾看到过的剧情。或许,机器视觉还可以突破三维局限,看到我们只有在量子力学理论和科幻小说才敢涉及到的——多重宇宙。