第2章 神经网络
1986年1月,当我进入加州大学伯克利分校工作时,做的第一件事是梳理智能和大脑功能方面相关理论的发展历史。我阅读了由解剖学家、生理学家、哲学家、语言学家、计算机科学家和心理学家所撰写的数百篇论文。许多不同领域的人撰写了大量有关思维和智能的文章,而且每个领域都有一套自己的期刊,各自使用自己的术语。我发现他们的描述既不一致也不完整。语言学家用诸如“句法”和“语义”之类的术语谈论智能,因为对他们而言,大脑和智能都与语言有关;视觉科学家采用的是2D、2.5D和3D草图,因为在他们看来,大脑和智能都与视觉模式识别有关;计算机科学家则谈论模型和框架,这是他们为了表达知识而创造的新术语。这些人都没有谈及大脑的结构,以及大脑是如何实现这些理论的。虽然解剖学家和神经生理学家撰写了大量有关大脑结构及神经元行为的文章,但他们大多未曾尝试去研究并推导更为普适的理论。不同的实验方法以及由此产生的大量数据,理解起来不仅非常困难,而且令人沮丧。
大约就在此时,一种全新的有关智能机器的发展思路崭露头角,并且颇有前景。自20世纪60年代末以来,神经网络就以某种形式出现了,但就研究机构获得的资金与人才而言,神经网络和人工智能存在竞争关系。“重达800磅的大猩猩”(1)人工智能明显比神经网络研究更受人们的追捧。神经网络研究人员被列入黑名单,长达数年无法获得资助。不过,仍有少数人在继续思考这一方向,直到20世纪80年代中期,他们才终于守得云开见月明。很难确切解释为什么大家突然对神经网络产生了兴趣,但毫无疑问,其中一个促成因素是人工智能技术的发展持续遭遇失败。人们设法寻找人工智能的替代品,并在人工神经网络中找到了一种。
神经网络是对人工智能方法的真正改进,因为神经网络的体系结构基于真实的神经系统,不过非常松散。神经网络研究人员,也被称为连接主义者,他们并不热衷于计算机编程,而是渴望研究神经元相互连接后形成的整体所展现的行为。大脑由神经元构成,因而大脑就是一个神经网络。连接主义者希望通过研究神经元之间的相互作用,清楚地了解智能难以捉摸的特性,并通过复制神经元群之间的正确连接来解决人工智能无法解决的一些问题。神经网络与计算机的不同之处在于,它没有CPU,也不会将信息存储在集中式存储器中。神经网络的知识和记忆分布在整个连接中,就像真正的大脑一样。
从表面上看,神经网络似乎与我的兴趣非常契合,但我很快对这个领域的研究感到失望。当时我认为,对于理解大脑而言,有必不可少的三大准则。
第一准则是,考虑大脑的功能时需要包括时间因素。真正的大脑能够处理快速变化的庞大信息流,而这种通过大脑的信息流完全是动态的。
第二准则是反馈的重要性。神经解剖学家早已发现,大脑内部充满了反馈连接。比方说,在新皮质和在大脑中位置比较靠下的丘脑之间的连接回路中,反向连接(即通向输入)的数量几乎经常是正向连接数量的10倍!这就意味着,每有一根向前传递信息进入新皮质的神经纤维,就会有10根从新皮质反向将信息传递回感官的神经纤维。同时,反馈也控制着整个新皮质的大多数连接。虽然反馈的确切用途还不为人所知,但从已发表的研究成果来看,它确实广泛存在。综上所述,我认为反馈是至关重要的。
第三准则是,任何一个关于大脑的理论或模型都应该能够解释大脑的物理结构。就像后文中提到的那样,新皮质不是一个简单的结构,而是由一个不断重复的层次结构组成的。任何一个没有体现这种结构的神经网络,肯定不会像大脑那样工作。
很可惜,虽然神经网络研究呈爆炸式增长,但大多数研究都止步于一些极其简化的模型,而这些模型都无法满足上述三大准则。大多数神经网络主要是由少量神经元组成的三层网络。第一层神经元被用来表示输入模式;然后,这些输入神经元会被连到第二层神经元,即隐藏层神经元;随后,隐藏层神经元被连到了第三层的输出层神经元。神经元之间的连接具有不同强度。根据连接强度的不同,一个神经元的激活会促进另一个神经元的激活,但可能会抑制第三个神经元的激活。因此通过改变这些连接强度,神经网络可以学会将输入模式映射到输出模式。
这些简陋的神经网络只处理静态的输入模式,不会做出任何反馈,结构上也完全不像人脑中的神经网络。有一种最常见的神经网络叫“反向传播”网络。这种网络通过将错误信号从输出层反向传播回输入层来学习。你可能认为这应该算一种反馈,但其实不是。首先,虽然“反向传播”网络在学习时,会发生错误信息的反向传播,但是当网络经过训练能够正常工作时,信息传播就只有一个方向了,即从输入层到输出层。其次,这些简单神经网络不具备时间的概念。它们只是将静态的输入转变为静态的输出。因此,在这些网络内部不存在任何历史记录,哪怕是刚发生不久的事情。最后,与大脑中那些复杂的层次结构相比,这些神经网络的架构还是显得微不足道。
我以为该领域内的研究会很快转向更为真实的网络,但这种情况并没有发生。由于这些简单的神经网络的应用场景已经有很多,整体研究反而停滞了很多年,并未取得进展。随着这样一种全新又有趣的工具的诞生,一夜之间,成千上万的科学家、工程师和学生可以据此申请研究经费,获得博士学位,出版关于神经网络的书籍。人们忙于创办各种公司,利用神经网络来预测股市、处理贷款申请、核实签名,以及监测其他上百种关于模式分类的应用。也许神经网络的创造者怀有更宏伟的目标,但是这个领域被另一批人主宰了,而这些人对于理解大脑工作原理及智能并没有兴趣。
大众媒体并不太了解这种区别。报纸、杂志和电视科学节目将神经网络描述为“类脑”,或者将其称为“按照与大脑相同的原理”工作。与必须对所有程序进行编程的人工智能不同,神经网络通过样例学习,在某种程度上似乎更智能。NetTalk就是一个经典案例,它学会了将字母序列映射到语音中。用印刷文本训练神经网络,听起来就像是计算机在朗读单词。不难想象,假以时日,神经网络就能与人类对话。各大官方媒体报道都错误地将NetTalk称为一种学习如何朗读的机器。NetTalk是一个很棒的案例,但它的实际功能微不足道。它无法阅读,也不能理解,几乎没有实用价值。它只是将字母组合与预定义的声音模式匹配起来。
关于神经网络和大脑的区别,请让我打个比方。我们先不去想大脑是如何工作的,而是看看计算机是如何工作的。经过多年研究,我们发现,计算机里的部件都由晶体管组成。数亿个晶体管精准而复杂地连接在一起,但我们并不理解计算机是如何工作的,晶体管又为何以这种形式连接。因此,有一天我们决定只连接少数晶体管,想看看会发生什么。我们没有想到,虽然只有3根晶体管,但以某种形式连接时,它们就变成了一个放大器:一端的一个信号传输到另一端时被扩大了。收音机和电视里的扩音器就是以这种形式的晶体管组成的。这项发现十分重要,一夜之间,一个新兴产业就出现了,人们纷纷利用晶体管的这种信号放大效应制造晶体管收音机、电视和其他一些电子设备。这虽然也不错,但我们还是不知道计算机是如何工作的。尽管扩音器和计算机都由晶体管组成,但它们之间并无共同点。同理,大脑和一个三层神经网络虽然都由神经元构成,但它们也毫无共同点。
1987年夏天,有件事情进一步浇灭了我对神经网络的热情。我参加了一次神经网络会议,听了一家名叫Nestor的公司相关人员的演讲。该公司试图出售一种神经网络应用程序,用于识别便笺簿上的笔迹。他们公司给该程序定价100万美元。这引起了我的注意。尽管Nestor公司宣传他们的神经网络算法有多么高超,将它视为又一项重大突破,但我认为可以用更简单传统的方式识别笔迹。
那晚回家后,我开始思考这个问题。两天后,我就设计出一款笔迹识别器,它识别速度很快,尺寸小巧,功能灵活。我的方案没有使用神经网络,也没有像大脑那样工作。尽管受那次会议的启发,我打算设计一种带手写功能的计算机,并最终在10年后产生了PalmPilot,但它也使我确信:神经网络相较于传统方法,并无多大改进。我创建的笔迹识别器最终成为涂鸦(Graffiti)文本输入系统的基础,这套系统用于首批Palm产品。我觉得Nestor公司离倒闭不远了。
对简单神经网络的介绍就到这里。它们的大多数功能都可以通过其他方法轻松处理,最终媒体也不再报道了。至少,神经网络研究人员并没有声称他们的模型是智能的。毕竟,它们就是非常简单的网络,无法媲美人工智能程序。
我不想给你留下所有神经网络都是简单的三层这种印象,一些研究人员一直在研究不同类型的神经网络。如今,“神经网络”一词用于描述各种模型,其中一些模型的特点在生物学上更符合这个词的本义,另一些则不尽然,但几乎没有人尝试了解新皮质的整体功能或结构。
我认为,大多数神经网络最基本的问题是它们与人工智能程序所共有的特征。两者都因为过于关注行为而承受着不可衡量的损失。
无论将这些行为称为“答案”、“模式”还是“输出”,人工智能和神经网络都是在假定智能就是程序或神经网络在处理给定输入后产生的行为。计算机程序或神经网络的最重要属性是它提供正确的还是所需的输出。受图灵启发,神经网络的研究人员认为智能就等于行为。
但智能不仅是要在行为或表现上体现的问题。行为是智能的体现,但不是智能的核心特征或基本定义。只要稍加思考,你便能明白这一点:你足够智能,可以躺在黑暗中思考和理解。忽略大脑中发生的事情,只将注意力集中在行为上,已经成为理解智能和构建智能机器的一大障碍。