深度学习和相关领域的进步向Marr对视觉和人工智能的看法提出了多重挑战。也许最核心的一点是挑战了Marr的基本方法,即为人类视觉和人工智能问题寻求他所谓的“计算理论”。在Marr的书中,他提出了如今已众所周知的划分,即将对信息处理系统的理解分为三个层次:计算理论层次、算法层次和硬件实现层次。粗略地说,Marr的重点是在计算理论层次,而当前的深度网络建模则侧重于算法和实现层次,摒弃了计算理论的概念。
例如,在处理从双眼视觉计算三维形状的问题时,Marr和Poggio描述了许多使该任务成为可能的一般原则。简而言之,计算任务依赖于在左右眼获得的两张图像中建立视觉特征之间的对应关系。为了获得可靠的对应关系,最合适的特征是多个层次上清晰的图像强度变化(边)。通过将问题简化为沿所谓的极线进行一维搜索,对相应特征的搜索就变得容易了。根据这样的分析,他们描述了基于这一任务的基本原理的计算理论,并继续描述了两种均以该理论为指导的不同算法(详见本书第3章)。 类似地,基于Horn从明暗中提取三维形状的工作,第3章还使用了图像形成的基本物理方程来描述这个视觉任务的基本理论,并使用了平滑约束来恢复表面朝向,并以此恢复表面的三维形状。
相比之下,在深度学习方法中,视觉问题是通过对任务进行端到端的训练来解决的。这些训练基于图像示例,并将其与所需的输出配对。作为计算理论支柱的基本原则在这里并不起直接作用。这些原则可能会被网络模型隐式地发现并使用,但它们不会被从外部提供或显式地使用。这种方法上的差异会对Marr的方法和方法论的其他核心问题产生影响。例如,Marr强调基于计算理论的模块化设计的用处,而深度学习方法则强调端到端训练的价值。由于Marr寻求解法背后独立于特定的实现算法的基本原则,他自然认为对人类感知和人脑的研究与计算机视觉和人工智能密切相关。这是因为在基本的层次上,类似的问题很可能以类似的原则为基础进行处理。本书中的大部分讨论都关乎这些相似性的本质。那么,Marr的方法和深度学习是两种相反的可能,其在算法层次上是否对比了计算理论与端到端学习?需要注意的一点是,这两种方法其实并不能被明确地区分开来。Marr在一篇不太为人所知的论文中讨论了这个问题。该论文发表于本书英文版成书之前,题为“Artificial Intelligence–A Personal View”。在这篇论文中,Marr区分了两种类型的理论,称之为“类型 1”与“类型 2”。类型1理论受一套清晰的基本原则支配,而完整的理论正遵循这些原则。相比之下,类型2理论被描述为“通过大量进程的同时运作所解决的问题,这些进程的交互是对这个问题最简单的描述”。Marr强调视觉和人工智能中的许多问题可能是类型1和类型2的混合,而不属于“纯”类型1,而有些问题则可能完全是类型2的。
对我们人类来说,有充分的理由去寻找理论中类型1的那些层面,并在可能的情 况下使它们显式化。这是因为这些有原则的理论提供了类型2的黑盒理论所缺乏的解释。但是,在解决视觉、人工智能和人类认知方面的问题时,这些原则是否真的必要,或者至少非常有用?可能有人会说并非如此:如果我们将进化视为长期试错学习的一部分,并最终导向了我们目前的视觉和认知系统,那么扩展的端到端学习处理过程,在没有指导原则或模块化设计且结合进化和个体学习的情形下,必须足以获取视觉和认知。然而,使用当今的深度学习来实现这种扩展的学习方法是否可行,仍是一个悬而未决的问题。有很多通过当前的网络模型和训练方法取得成功的视觉算法的例子。与此同时,这种学习仍然存在根本的困难。首先是超大规模的有监督数据集被广泛且越来越多地使用。其次是当前方案在远远超出训练示例所代表的分布的情况下的泛化能力很有限。这种限制可能与当前方法发现和使用的类型1原则的短缺有关。最后,目前的学习模型是否走在正确的轨道上,以在视觉、自然语言和一般认知方面达到“真 实”的、类似人类的理解,这一点仍不清楚,也难以确定。人类证明了学习此类处理过程是可能的,但我们可能需要额外的学习方法来实现这种学习,而这可能超出了当前的技术能力。
在Marr的方法的框架中,为了获得类似人类的理解和通用的人工智能,我们可能需要更能发现他的类型1通用原则的方法。对此类方法的发现可能来自理论和计算研究,并且正如Marr所建议的那样,我们还可以尝试采用人脑和认知系统已经使用的类型1原则。
n***s 2022-01-18 13:46:30
好书,层次化思考问题,对话式讲述观点