神经网络简史

发布于: Android转发:0回复:2喜欢:4

文/尼克

I bet the human brain is a kludge.

人脑就是一台计算机。

——Marvin Minsky(明斯基)

自图灵提出“计算机与智能”起,就一直有两派观点:一派认为实现人工智能必须用逻辑和符号系统,这一派看问题是自顶向下的;还有一派认为通过仿造大脑可以达到人工智能,这一派是自底向上的,他们认为如果能造一台机器,模拟大脑中的神经网络,这台机器就有智能了。前一派,我想用“想啥来啥”来形容;后一派就称之为“吃啥补啥”,估计他们的思想来源于中国古代的原始思维,套一句庸俗的哲学词,前者偏唯心,后者偏唯物。这两派一直是人工智能领域里“两个阶级、两条路线”的斗争,这斗争有时还你死我活。

1. 神经网络的初创文章

神经网络的原创文章发表于1943年,两位作者都是传奇人物:麦卡洛克(Warren McCulloch)和皮茨(Walter Pitts)。皮茨打小就喜欢数学和哲学,初中时就读过罗素的《数学原理》,还和罗素通过信。罗素爱才,邀请他到英国跟随自己学习逻辑。但皮茨是苦出身,连高中都读不起,英国留学自然未果。他15岁时,他爸强行要他退学上班养家。就像所有爱读书的穷孩子,皮茨一怒之下就离家出走了。他打听到偶像罗素那时要到芝加哥大学任教,就只身来到芝加哥,还真见到了罗素。老罗遂把他推荐给那时也在芝加哥任教的卡尔纳普。卡尔纳普想看看这孩子到底有多聪明,就把自己的《语言的逻辑句法》一书送了一本给皮茨。不到一个月,皮茨就看完了,把写满笔记的原书还给卡尔纳普。老卡惊为天人,于是给他在芝加哥大学安排了一份打扫卫生的工作。别看不起打扫卫生的人,在电影《心灵捕手》(Good Will Hunting)里,马特·达蒙饰演的角色就是在知名大学打扫卫生时,不小心解了一道数学难题,引起了老师的注意。扫马路至少可以避免流浪街头。皮茨后来结识了也在芝加哥的麦卡洛克。麦卡洛克比皮茨大一辈,有人称他是皮茨的养父。麦卡洛克本科在耶鲁大学学习哲学和心理学,后在哥伦比亚大学获得了心理学硕士和医学博士(MD)学位。其实医学博士和哲学博士不是一回事,MD不是学术学位,而是终极职业学位,和MBA、MFA差不多。MD的那个“D”是指“医生”,PhD的“D”才是博士。

麦卡洛克毕业后做了几年实习医生,先去了耶鲁大学研究神经生理学,后来又去了伊利诺伊大学芝加哥分校,做精神病学系的教授。麦卡洛克的强项是神经科学,但不懂数学,他和17岁的流浪汉数学票友皮茨是绝配。他们合作的成果就是神经网络的开山之作:“A Logical Calculus of the Ideas Immanent in Nervous Activity”,发表在《数学生物物理期刊》(Bulletin of Mathematical Biology)上。这篇文章成了控制论的思想源泉之一。有意思的是,这篇文章只列了三篇貌似不相关的参考文献,第一是卡尔纳普的《语言的逻辑句法》,第二是希尔伯特和他学生阿克曼合著的《数理逻辑基础》,第三是怀特海和罗素的《数学原理》。

控制论的创始人维纳(Norbert Wiener)早年自称神童,他爸是哈佛大学教授,曾经带着他到英国见过罗素,但罗素特不喜欢这孩子和他爹。自打进入20世纪后,甭管哪门哪派的学问,最后都能扯到罗素那儿,不想得诺贝尔文学奖的科学家不是好情人。维纳后来也在哈佛大学任教,但不被主流数学家喜欢,没拿到终身教职。最后到了隔壁的麻省理工学院落脚,在“二战”时搞了点武器研究。那时最好的数学家和物理学家都参与了造原子弹的“曼哈顿”计划,维纳却没沾边。这也许同他的个性有关系,他的同事和家人都觉得他对数学之外的事情反应迟钝。维纳提出“控制论”后出了大名,在麻省理工学院搞了一大笔钱,麦卡洛克就带着皮茨等一票人马投奔维纳。有钱才能当老大,哪都一样。

维纳的老婆玛格丽特是纳粹,在“二战”时,家里还偷藏了本英文版的希特勒的《我的奋斗》。那时他们的女儿芭芭拉正在读小学,有意无意地也看过那书,写作文时居然引用书里的“警句”,差点被学校开除。麦卡洛克的老婆是犹太人,与玛格丽特形同水火。其实维纳祖上是波兰犹太人,玛格丽特早干啥去了?维纳娶玛格丽特是为了自嘲吗?就像很多中国男人讨洋老婆或老外娶中国剩女,或许图的不是相貌,是稀罕。反正最后维纳被中和为“不可知论者”(agnostic)。玛格丽特有次对维纳说麦卡洛克小组有人(可能暗指皮茨)勾引宝贝女儿芭芭拉,维纳大怒,随即断绝和麦卡洛克及其学生的所有往来。现在看玛格丽特是有意造谣。但维纳的举动对皮茨造成了巨大的创伤,皮茨本来是维纳的特招学生(special student),但估计他年幼时受过挫折,秉性怪异。和维纳闹翻后,他拒绝麻省理工学院给他的研究生学位,对学问也心灰意冷。1969年,皮茨比他的长辈麦卡洛克早几个月离世,年仅46岁。

维纳曾写过两卷本的自传:《昔日神童》(Ex-prodigy)和《我是数学家》。不喜欢维纳的人开玩笑说,应该是《昔日数学家》和《我是神童》,嘲讽维纳的数学不入主流,同时暗示维纳对自己神童身份的过高自视。和维纳相熟的人,无论朋友还是敌人,都认为维纳的神童光环害了他,使他终身没有自信。维纳和麦卡洛克失和的另一个原因是他们迥然不同的学术风格。维纳无论如何首先是一位严谨的数学家,而麦卡洛克则被人称为是浪漫的科学家。所谓“浪漫”不是指生活,而是说他对科学思想的表述方式。维纳曾经把为大脑建模作为他学术生涯的最后野心,他曾经把麦卡洛克找来,要他指出脑科学最关心的几个问题,然后维纳自己花了两年时间把这些问题数学化,并试图给出解决的思路,但当维纳在一次生物学的会议上宣布自己的成果时,生物学家觉得维纳是胡闹,于是维纳觉得是麦卡洛克给他下了套。

得维纳真传的人不多,不能不说一下阿比卜(Michael Arbib)。他23岁就在维纳手下得了博士,算是维纳最后一个学生。阿比卜本是英国犹太人,他爸“二战”时当兵被俘,战后举家迁到澳大利亚。他在悉尼大学读数学。他回忆大学时博览群书,而对他影响最大的是维纳的《控制论》、麦卡洛克和皮茨的神经网络、拉宾和斯考特的有限自动机,以及麦卡锡和香农编辑的文集《自动机研究》(Automata Studies)。他认真读过图灵的经典论文《论可计算的数》,自称曾挑出过31个错,还翻译了哥德尔1931年那篇改天换地的文章。他选择到麻省理工学院读博士,因为那里有维纳、麦卡洛克、皮茨,还有麦卡锡和明斯基。阿比卜到麻省理工学院时,维纳和麦卡洛克已经失和。尽管维纳是他名义上的导师,却很少提供指导,而他实际上花了更多时间和维纳的对头麦卡洛克在一起。他在拿到博士学位后才告诉维纳,维纳大怒。阿比卜曾如此评论维纳:“伟人,但有人格缺陷。”

阿比卜虽是维纳的学生,但他并没有把自己局限于控制论的狭隘圈子里。他是全才,出版过计算理论、人工智能等多种专著及科普读物,甚至还一度玩过高深莫测的范畴论。和计算理论相比,控制论更不纯粹。阿比卜的“杂学”体现在他那本科普书《大脑、机器和数学》里,其实他本科毕业论文已初露端倪,那篇题为“Turing Machines, Finite Automata, and Neural Nets”的文章发表在美国计算机学会会刊JACM上。阿比卜后来创办了麻省大学的计算机系,并延揽一帮人工智能人马,其中有后来以强化学习出名的巴托(Andy Barto),使麻省大学的人工智能曾在很长一段时间都处于领先地位。20世纪80年代末期,阿比卜离开麻省大学,转往南加州大学,曾一度风光,担任一堆系(包括计算机、生物、生物医学工程、电气工程、神经科学,还有心理)的教授。他那名片要是印出来,估计会像一些爱炫耀的企业家的那样长吧。但阿比卜最终并未成为开天辟地的宗师,有愧于他的天分和才华。南加州大学并没有因为他的到来而添彩,但麻省大学却因为他的出走而失去了自己的特色和主心骨。就像遗传算法的祖师爷霍兰德所说:自己的影响力很大程度上要看有没有出名的学生,学生是学术圈生态环境的一个环节。麻省大学有阿比卜需要的生态环境,南加州大学则有名无实。阿比卜晚年为自己日渐衰落的学术影响力找过借口,他认为原因是马尔(David Marr)学派的当道。马尔和他那一小撮把他当神一样崇拜的学生曾经一度统治了视觉研究领域,马尔的早逝加剧了马尔的神话,马尔的书《视觉》也成为学生们的“圣经”。阿比卜认为马尔的工作是建立在自己的工作之上的,但“圣经”里并没有提及,仿佛一切都是马尔自己一夜之间发明的。

1949年,神经心理学家赫布(Donald Hebb)出版了《行为组织学》(Organization of Behavior)。在该书中,赫布提出了被后人称为“Hebb学习规则”的学习机制。该规则认为,如果两个细胞总是同时激活的话,它们之间就有某种关联,同时激活的概率越高,关联度也越高。换句话说,就是“吃啥补啥”。2000年诺贝尔生理学或医学奖得主肯德尔(Eric Kandel)的动物实验也证实了Hebb学习规则。后来的各种无监督机器学习算法或多或少都是Hebb学习规则的变种。

2. 罗森布拉特和感知机

神经网络研究的后一个大突破是在1957年。康奈尔大学的实验心理学家罗森布拉特(Frank Rosenblatt)在一台IBM-704计算机上模拟实现了一种他发明的叫作“感知机”(Perceptron)的神经网络模型。这个模型可以完成一些简单的视觉处理任务。这在当时引起了轰动。

罗森布拉特在理论上证明了单层神经网络在处理线性可分的模式识别问题时,可以收敛,并以此为基础做了若干感知机有学习能力的实验。罗森布拉特1962年出了本书《神经动力学原理:感知机和大脑机制的理论》(Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms),这本书总结了他的所有研究成果,一时成为“吃啥补啥”派的“圣经”。罗森布拉特的名声越来越大,得到的研究经费也越来越多。美国国防部和海军都资助了他的研究工作。媒体对罗森布拉特也表现出了过度的关注。毕竟,能够构建一台可以模拟大脑的机器,当然是一个头版头条的抢眼消息。此时的罗森布拉特也一改往日的害羞,经常在媒体出镜,他开跑车,弹钢琴,到处显摆。这使得另一派的人相当不爽。

明斯基是人工智能的奠基人之一,是达特茅斯会议的组织者。他在一次会议上和罗森布拉特大吵,认为神经网络不能解决人工智能的问题。随后,明斯基和麻省理工学院的另一位教授佩珀特(Seymour Papert)合作,企图从理论上证明他们的观点。他们合作的成果就是那本影响巨大、“是也非也”的书:《感知机:计算几何学》(Perceptrons: An Introduction to Computational Geometry)。在书中,明斯基和佩珀特证明单层神经网络不能解决XOR(异或)问题。异或是一个基本逻辑问题,如果连这个问题都解决不了,那神经网络的计算能力实在有限。其实罗森布拉特也已猜到感知机可能存在限制,特别是在“符号处理”方面,并以他神经心理学家的经验指出,某些大脑受到伤害的人也不能处理符号。但感知机的缺陷被明斯基以一种敌意的方式呈现出来,当时对罗森布拉特是个致命打击。原来的政府资助机构也逐渐停止对神经网络研究的支持。1971年,罗森布拉特在43岁生日那天划船时淹死。很多人认为他是自杀。王国维沉湖时遗言“经此世变,义无再辱”,而对于罗森布拉特,我猜“辱”是明斯基的书,“世变”是随后神经网络学科的消沉。不同的是,王国维谓之“世变”的是历史潮流,神经网络学科10年后却会逆袭。

表面看是因为科学,但有证据表明明斯基和罗森布拉特以前就有瓜葛。他们是中学同学。布朗克斯(Bronx)科学高中大概是全世界最好的高中,毕业生里得过8个诺贝尔奖、6个普利策奖、1个图灵奖。远的不说,明斯基是1945年的毕业生,而罗森布拉特是1946年的毕业生。美国高中学制4年,明斯基和罗森布拉特至少有两年重叠,而且彼此认识,互相嫉妒。1956年的达特茅斯会议定义了“人工智能”这个词,会议的组织者包括明斯基、麦卡锡和香农等,参会者还有司马贺、纽厄尔等。这个会议在定义“人工智能”领域时只是提到了神经网络。那时明斯基是神经网络的支持者。他1954年在普林斯顿大学的博士论文题目是《神经-模拟强化系统的理论,及其在大脑模型问题上的应用》,实际上就是一篇关于神经网络的论文。他晚年接受采访时开玩笑说,那篇300多页的博士论文从来没有正式发表过,大概只印了三本,他自己也记不清内容了。貌似他想极力开脱自己和神经网络学科千丝万缕的关系。达特茅斯会议的主题并不是神经网络,而是后来被纽厄尔和司马贺称为“物理符号系统”的东西,也就是说,“想啥来啥”派是主要基调。

罗森布拉特被比他大一岁的明斯基妒忌是自然的。工作上,明斯基所负责的麻省理工学院的人工智能实验室也在向美国国防部和海军申请经费。大多数圈内的科学家对罗森布拉特突然被塑造起来的明星范儿很反感。明斯基早期也是“吃啥补啥”派出身,但此时已经改为“想啥来啥”派了。由于他和佩珀特对感知机的批判,俩人后来被“吃啥补啥”派称为“魔鬼搭档”。其实明斯基结识佩珀特还是通过麦卡洛克的介绍,历史真是纠结。被称为“魔鬼”是因为《感知机:计算几何学》第一版有言:“罗森布拉特的论文大多没有科学价值。”这话跳步确实有点大,但罗森布拉特人缘不好,没有得到同行的支持。

比罗森布拉特小一岁的维德罗(Bernard Widrow)是斯坦福大学的教授,在罗森布拉特刚提出感知机时,他就提出了Adaline可适应性算法。Adaline和感知机很相似,也是机器学习的鼻祖模型之一。罗森布拉特享受盛誉时,维德罗也沾了光,但在罗森布拉特死后,他却并没有被非难。维德罗在几十年后回忆说,那是因为他后来主要在电机系(EE)做集成电路的工作,而不是在计算机系里从事派系繁杂的人工智能研究,圈子不同,老死不相往来。

感知机的失败导致了神经网络研究的式微,用加州理工学院的集成电路大佬米德(Carver Mead)的话说是“二十年大饥荒”。明斯基1988年在《感知机:计算几何学》一书再版时,删除了第一版中对罗森布拉特个人攻击的句子,并手写了“纪念罗森布拉特”(In memory of Frank Rosenblatt)。但其他在“大饥荒”时期受到压迫的科学家认为明斯基不可原谅,后来神经网络再度得势后,这些人纷纷对明斯基进行口诛笔伐。美国电气电子工程师协会(IEEE)于2004年设立了罗森布拉特奖,以奖励他在神经网络领域的杰出研究。

2017年得到罗森布拉特奖的格罗斯伯格(Stephen Grossberg)1989年在AI Magazine上撰写书评(Grossberg,1989),对再版明斯基和佩珀特的《感知机:计算几何学》一书表现出极度的不屑甚至愤怒。格罗斯伯格的故事可算是神经网络几十年此起彼伏的典型案例,他本人就是当年受迫害的科学家的代表。他1957年进入达特茅斯学院主修数学和心理学,跟随的导师就是把麦卡锡招到达特茅斯学院的克门尼(John Kemeny)。他以优异的成绩毕业后到斯坦福大学接着读数学,他看重斯坦福大学把数学和社会科学与心理学结合的几个计划,但在读了90个学分之后,他只拿了个硕士学位就离开了,下一站是洛克菲勒大学的前身洛克菲勒研究所,跟随两位数学大师罗塔(Gian-Carlo Rota)和凯克(Mark Kac)。那时的洛克菲勒尽管已经定下以生物科技为主的方向,但仍然招了很多数学家、物理学家和逻辑学家,交叉学科气氛浓厚,这是吸引格罗斯伯格投奔的主要原因。1967年,格罗斯伯格毕业后被两位大师推荐到麻省理工学院任教。1969年,他被提升为副教授,但没有被授予终身教职。神经网络的冬天来了,他转会到查尔斯河对岸的波士顿大学,在那里创办了认知与神经系统系。几十年来,他和同事致力于用严谨的数学工具为神经网络建立理论模型,但他的大多数工作被忽视了。他1981年提出的Cohen-Grossberg模型被认为比1984年霍普菲尔德提出的模型更为通用,而霍普菲尔德模型是20世纪80年代末神经网络研究复兴的主要原因之一。

3. 神经网络的复兴

在信息科学和神经科学的结合部的失败,并没有影响到神经生物学内部。哈佛大学的神经生物学家胡贝尔(David Hubel)和威瑟尔(Torsten Wiesel)对视网膜和视觉皮层(visual cortex)中神经细胞的信息处理模式做了深入研究,他们为此获得了1981年的诺贝尔生理学或医学奖。随后,麻省理工学院的马尔为视觉信息处理建立数学模型,影响了后来连接主义的运动。威瑟尔后来离开哈佛大学去了洛克菲勒大学。1991年,洛克菲勒大学的时任校长巴尔的摩出了学术丑闻被迫辞职,威瑟尔接任洛克菲勒校长,为维持那所学校作为生物学重镇的地位做出了贡献。

1974年,哈佛大学的一篇博士论文证明了在神经网络多加一层,并且利用“后向传播”(back-propagation)学习方法,可以解决XOR问题。这篇论文的作者是沃波斯(Paul Werbos),他后来得到了IEEE神经网络学会的先驱奖。沃波斯这篇文章刚发表时并没引起多少重视,那时正是神经网络研究的低谷,文章不合时宜。沃波斯也是递归神经网络RNN的原创者。但在深度学习大火后,他的兴趣转向了量子力学。

神经网络在20世纪80年代的复兴归功于物理学家霍普菲尔德(John Hopfield)。1982年,霍普菲尔德在加州理工学院担任生物物理教授,他提出了一种新的神经网络,可以解决一大类模式识别问题,还可以给出一类组合优化问题的近似解。这种神经网络模型后来被称为霍普菲尔德网络。1984年,霍普菲尔德用模拟集成电路实现了自己提出的模型。霍老也培养了一批后起之秀,包括现在在生物学重镇Salk研究所担任计算神经生物学实验室主任的塞吉诺斯基(Terry Sejnowski)。霍老后转往普林斯顿大学担任分子生物学教授,现已退休。

霍普菲尔德模型的提出振奋了神经网络领域。神经网络的这次复兴和生物学没啥关系,它既不是来自生物学的刺激,也没有给生物学送去任何慰藉。倒是它来源于物理学家,并引起了物理学家的关注,曾经一批对复杂系统感兴趣的物理学家在交叉学科杂志Physica D上接二连三地发表文章,好不热闹。

一帮早期神经网络研究的“幸存者”,在生物学家克里克(Francis Crick)和认知科学大佬诺曼(Don Norman)的鼓励下,以加州大学圣地亚哥分校为基地,开始了连接主义(Connectionism)运动。这个运动的领导者是两位心理学家鲁梅尔哈特(David Rumelhart)和麦克利兰德(James McLelland),外加一位计算机科学家辛顿(Geoffrey Hinton)。

连接主义运动的成果之一就是那本被称为PDP(Parallel Distributed Processing)的著名文集(分两卷)。此书的出版给认知科学和计算机科学吹了股春风,被后起的神经网络新秀称为“圣经”。此书第一次印刷就印了6000本,这在科技文集类书里实属少见。20世纪80年代的“神经网络”就像20世纪90年代的互联网、后来的Web 2.0和眼下的“大数据”,谁都想套套近乎。一些做理论的大佬也不能免俗,RSA算法的发明者之一李维斯特(Ronald L. Rivest)也带了几个学生转做神经网络学习问题的复杂性。一时间好不热闹。1993年,美国电气电子工程师学会IEEE开始出版《神经网络会刊》,为该领域的高质量文章提供出版渠道。美国国防部、海军和能源部等也加大资助力度。神经网络一下子成了显学。

连接主义运动也培养了一堆新人,并使得加州大学圣地亚哥分校的认知科学系成为同类系科的佼佼者。鲁梅尔哈特后转往斯坦福大学任教,2011年不幸死于已挣扎多年的神经退化疾病。乔丹(Michael Jordan)就是他的学生,而吴恩达(Andrew Ng)又是乔丹的学生。鲁梅尔哈特人虽离世,但香火没灭。他的另一名学生格鲁什科(Robert Glushko)后来远离本行,跟随硅谷互联网早期英雄塔南鲍姆(Marty Tennenbaum)创立了一家XML公司,那家公司后来卖给Commerce One,赚了一票钱。格鲁什科捐钱设立了“鲁梅尔哈特奖”来奖励神经网络的研究者,辛顿成了第一位获奖者。麦克利兰德则先转往卡内基梅隆大学担任计算机和心理两系教授,后来到斯坦福大学建立了“心、脑、计算研究中心”,还一度担任心理系主任。顺便说一句,塔南鲍姆的儿子约书亚·塔南鲍姆(Joshua Tennenbaum)现在都在麻省理工学院脑科学系当教授了。

辛顿则先转往卡内基梅隆大学,最终到加拿大多伦多大学计算机系任教。辛顿现在可是神经网络领域最牛的人了。他还有一段不太为外人所知的革命家史:他是布尔的外曾曾孙子(对,就是“布尔代数”的那个布尔),他的曾祖母艾伦(Mary Ellen)是布尔的大女儿。中国革命的参与者、美国铁杆左派韩丁(William Hinton)和寒春(Joan Hinton)也是艾伦的孙子孙女。照这么说,韩丁是辛顿的堂叔,寒春是辛顿的堂姑。布尔的小女儿、艾伦的小妹妹伏尼契(Ethel Lilian Voynich)是传遍苏联和中国的小说《牛虻》的作者。《牛虻》西方不亮东方亮,在苏联和中国是几代人的革命加爱情励志畅销书。晚年在纽约生活陷入困顿的伏尼契,靠苏联和周恩来特批的稿费得以善终。这一家子把中国、苏联、革命、逻辑和神经网络都联系起来了,通吃“吃啥补啥”派和“想啥来啥”派。(智力题:伏尼契和辛顿是啥关系?)

语言学家、大知识分子平克(Steve Pinker)对连接主义不以为然。鲁梅尔哈特和麦克利兰德在PDP“圣经”中合作了一章,讲神经网络可以学会动词的过去式,比如一看start,就知道started,一看come就知道came,等等。平克认为有规则的过去式(直接加ed的,如started)可以通过简单计算得来;而不规则的(不通过加ed的,如came)则是存在大脑的一个特定区域。平克引用神经心理学的证据指出,处理规则的和不规则的操作是在大脑不同部位完成的,他还认为神经网络的行为和一类大脑受伤害患失语症的病人的行为相似。其实这种观察并不深刻,都是罗森布拉特30年前玩剩下的。符号系统可能比较适合处理规则的情况,而神经网络可能更适合不规则的情况,这个一般人都能想到。对神经网络派的批评也是如此:我们可以定义一个规则,既可以用符号系统实现,也可以用神经网络实现。哪个快用哪个。

符号系统和神经网络的方法论之争有时会被夸大。伟大的乔姆斯基就不认可人工智能领域的最新进展。机器翻译历来是人工智能的试金石之一,就像在1996年之前的计算机下棋。机器翻译的早期实践都源于乔姆斯基的理论,但近来的突破却是基于统计的方法。乔姆斯基认为统计的方法不“优雅”(elegant),只是模仿而不是理解。会骑自行车不算理解,对自行车为什么不倒,能说清道理,才算理解。谷歌的研发总监诺维格(Peter Norvig)为统计方法辩护时说:简单的模型(如乔姆斯基理论,以及后来的各种改进版本)不能解决复杂的问题,人工智能的进一步发展必须两条腿走路。诺维格在加入谷歌之前曾是加州大学伯克利分校的计算机教授,他对两派都了如指掌,在学术界和工业界都被尊重,他写的《人工智能》是最流行的教科书。他的观点似乎被更多的人接受。

4. 深度学习

神经网络在20世纪80年代的光芒被后来的互联网掩盖了。但这几年,恰恰是互联网产生的海量数据给了神经网络更大的机会。人工智能学者在计算机系曾经是最抬不起头的,这几年却人人都变成了大知识分子。而人工智能领域非常火的词儿就是“深度学习”。神经网络由一层一层的神经元构成。层数越多,就越深,所谓深度学习就是用很多层神经元构成的神经网络实现机器学习的功能。

理论上说,如果一层网络是一个函数的话,多层网络就是多个函数的嵌套。网络越深,表达能力越强,但伴随而来的训练复杂性也急剧加大。目前对神经网络各种形态所对应的计算复杂性的研究并不多,从业者也以工程师、心理学家和统计学家居多。

辛顿是深度学习的先驱,他和学生在2006年发表的两篇文章开辟了这个新领域,其中登在《科学》上的那篇提出了降维和逐层预训练的方法,使得深度学习的实用化成为可能。深度神经网络最后几层的每个节点都可对应于某些概念。这是神经网络的一大进步,貌似为“吃啥补啥”找到了科学根据,调和了与符号派的矛盾。至于符号派买不买账,就是另一回事了。

深度学习的实测效果很好。辛顿一直用深度神经网络做图像识别,在2012年举办的图像识别国际大赛ILSVRC(ImageNet Large Scale Visual Recognition Challenge)上,辛顿团队的SuperVision以绝对领先的成绩击败众竞争对手拔得头筹。该比赛用1000万张图像训练,用15万张图像测试,目标是识别测试图像到底是动物,是花儿,还是船,等等。在2012年前,普遍的错误率在26%。但SuperVision头次参赛就把错误率控制在了15%之下,以超过10%的惊人优势遥遥领先。

2009年,微软研究院的邓力小组开始和辛顿合作,用深度学习加上隐马尔可夫模型开发可实用的语音识别和同声翻译系统,2011年取得突破。2012 年,微软负责研发的拉希德(Rick Rashid)在天津举行的一次会议上现场演示,他用英文演讲,机器用中文实时翻译,甚至中文合成的声音跟他自己的声音都非常相像。微软把这一成果迅速产品化,微软收购的聊天工具Skype首先得益,整合了实时语音翻译的功能。此后,语音识别问题已经被认为彻底解决了。现在即使开源的软件也可以达到很高的识别率。腾讯科大讯飞等也都有此类产品。

年过60岁的辛顿不甘寂寞,和他的两个学生开了家专注深度学习的公司。公司成立没多长时间,谷歌微软就对这家公司动了收购的念头,后来百度也加入竞标,最终花落谷歌,谷歌出了几千万美元,于2013年年初收购了这家只有三名员工的公司。为了把辛顿纳入花名册,谷歌还真不差钱。

有意思的是,机器学习的几个主要研究团队都在加拿大,例如多伦多的辛顿、蒙特利尔的班乔(Yoshua Bengio)和阿尔伯塔的萨顿(Richard Sutton)。辛顿和萨顿的金主都是谷歌,他们陆续迁往加拿大都是在神经网络研究不招人待见的时期。无独有偶,王浩的学生库克(Steve Cook)也是在惨遭加州大学伯克利分校拒绝终身教职后迁往多伦多的。

2012年,时任斯坦福大学人工智能实验室主任的吴恩达和谷歌合作建造了一个当时最大的神经网络,这是谷歌神秘的X实验室的一个计划。网络上一度疯传的谷歌猫脸识别就是用的这个参数多达17亿的神经网络。后来,吴恩达在斯坦福大学又搞了个更大的神经网络,参数高达112亿。人脑的神经连接有一百万万亿个。从计算能力上说,如果这个人工神经网络要能接近大脑,每个人工神经元必须达到一万个大脑神经元的功能。这个神经网络会用到大量的图形处理芯片GPU,GPU一度是模拟神经网络的完美硬件,因为每个GPU芯片内都有大量的小核心。这和神经网络的大规模并行性天然相似。硬件的进步让以往不可能的成为了可能。GPU的厂商Nvidia股票也一路飙升。对计算量的需求是没有止境的,新的芯片技术也被用到深度学习中,先是有人试图用FPGA(可编程阵列)和ASIC实现各种深度学习算法,后来谷歌推出了专用芯片TPU。

人工智能的统计派(或神经网络派)和逻辑派(或符号派)之争是从1956年达特茅斯会议开始的。明斯基的合作者佩珀特曾说神经网络派和符号派的区别就像分子生物学和进化生物学的区别,甚至有人因而争论大学的数学课应该以微积分为主还是以统计为主。新派自然是以统计为主。

2018年的图灵奖颁给了深度学习的三位代表人物,辛顿(Geoffrey Hinton)、班乔(Yoshua Bengio)以及杨立昆(Yann LeCun)。辛顿老兵不老,当之无愧。也有人议论说如果颁给辛顿代表的深度学习以及巴托和萨顿代表的强化学习也许更为公平,他们三位伴随了人工智能的起落和派别的纷争,几十年风风雨雨,初衷不改,令人感佩。班乔和杨立昆还年轻,没吃过什么苦,他们赶上了好时候,这一次奖给了深度学习,强化学习再得奖的机会也许会减少吧。《纽约时报》在当天的报道中引用了曾在微软工作的邓力对辛顿工作的评价,恰是邓力与辛顿合作,在语音识别上利用深度学习取得突破,导致了深度学习近几年在各领域的广泛应用。邓力也是辛顿得奖的提名者之一。如果把辛顿比作杨振宁的话,邓力恰像吴健雄。辛顿和他的学生们 2006年在《科学》(Science)杂志上发表的文章引发了这一波人工智能的高潮,而巴托和萨顿的徒子徒孙们用强化学习做的AlphaGO更是火上浇油。这次的各种“机器学习”算法解决了大规模实际世界的问题,尤其是过去被认为很难的语音和图像问题。

斯坦福大学人工智能实验室的创办人麦卡锡是达特茅斯会议的主要组织者,“人工智能”这个词如果不是他最早提出的,至少是他最早使之流行的。也正是他把明斯基拉到了他当时任教的麻省理工学院。说他是“人工智能之父”是名副其实的,约翰大叔是铁杆的符号派。但后来的人工智能实验室主任却分别是做神经网络的吴恩达和李飞飞。这个转变也许是“吃啥补啥”派得志的风向标。斯坦福大学的这个神经网络的目标是模拟人的大脑。这让我们不禁想起了罗森布拉特,那不正是他的梦想吗?

参考文献指南

A Logical Calculus of the Ideas Immanent in Nervous Activity(McCulloch,Pitts,1943)今天读来仍有意义;而The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain(Rosenblatt,1958)和Perceptrons: An Introduction to Computational Geometry(Minsky et al.,1969)则没必要花工夫去仔细研读了,只要知道结果就行了,就像想知道牛顿第二定律不一定非得读他的原著《自然哲学的数学原理》,读一本中学物理教科书足矣。大多数科学的原创著作更多的价值是科学史的,而不是内容的。On the Origin of Deep Learning(Wang et al.,2017)是翔实的深度学习历史,但那是写给内行人看的。霍普菲尔德开创了神经网络研究的新气象,“Neural Networks and Physical Systems with Emergent Collective Computational Abilities”(Hopfield,1982)讲离散型霍普菲尔德网络,““Neural” Computation of Decisions in Optimization Problems”(Hopfield et al.,1985)讲连续型霍普菲尔德网络。如果有理工背景,这两篇文章都不难懂,值得一看。

Parallel Distributed Processing: Explorations in the Microstructure of Cognition(Rumelhart et al.,1987)一书具有里程碑价值。神经网络的口述历史Talking Nets: An Oral History of Neural Networks(Anderson et al.,1998)一书对于想了解那段历史的人来说是必看读物。深度学习的文献真不需要“指南”,各种深度的“深度”都烂大街了。

格罗斯伯格2010年为《神经网络》杂志写的编者按“Towards Building a Neural Network Community”(Grossberg,2010)很有看头。他已经不像20世纪80年代末期神经网络刚复兴时那么愤世嫉俗和激动。他总结了大脑动力学的三个N(nonlinear,nonstationary,nonlocal),他认为,神经网络历史上碰到的艰难险阻主要原因是这是门交叉学科缺乏合适的数学工具。所谓“连接主义革命”(Connectionist Revolution)的起因和库恩的范式革命不同,这是多门学科综合形成的。

全部讨论

谢谢师兄的一系列好文,获益良多,感谢感恩