图片来自123rf
图片来自123rf

时至春季,人工智能的春天也来了。

从去年AlphaGo与李世石的人机大战之后,人工智能瞬间成为科技行业最为耀眼的明星。除了国内外的巨头动作频繁,该领域的创业公司也如雨后春笋般生长起来。而这背后,自然离不开让机器学会思考的造物主们。本文,我们就来认识一些将人工智能梦想变成现实的功臣们。

阿兰⋅图灵

图片来源BBC
图片来源BBC

二战时阿兰⋅图灵在布莱切利公园担任解码专家,于1940年创造出可以破译德军密报的机器Bombe,为盟军的胜利立下了汗马功劳。战后,他任职于泰丁顿国家物理研究所,开始从事“自动计算机”的逻辑设计和具体研制工作。1946年,图灵发表论文阐述存储程序计算机的设计,因此被称为计算机之父。

基于计算机,他还思考怎么去创造一个思考的机器(Thinking Machine) 。他说:“要建造一个智能的机器的话,可能最好的方法就是用钱买得到的最好的感知器来组建它,并教会它使用英文。”

图灵并没有建立起人工智能这个领域,但是他带来了最初的一些重要的思想元素:我们要做一个会思考的机器,里面就需要包括:视觉、语言。另外,图灵还提出著名的“图灵测试”,指出如果第三者无法辨别人类与人工智能机器反应的差别,则可以论断该机器具备人工智能。“图灵的成就不得地让我们联想,是否等到人类灭亡之后会留下机器人来统治这个世界。”互联网之父文特·瑟夫如此评论。正是图灵开启了人工智能研究的先河。如今,由美国计算机协会(The Association for Computing Machinery )设立图灵奖为其最高奖项,以表彰图灵在计算机以及人工智能领域的特殊贡献。

Terry Winograd

Terry Winograd

Terry是人工智能界,第一代把图灵的思想付诸实践的人,他也是现在在世的计算机界最伟大的科学家之一。Terry不光在人工智能领域做了最重要的工作,而且他后来转行去做人机交互,也把这个领域重新带动了起来。

在 Terry 看来,要实现人工智能,需要有这 3 个要素:语法,语义和推理。他说一个人,或者一个机器,要去理解世界,需要去感知。感知以后,需要做的第一件事是对这个世界的结构进行理解,这叫语法的理解(Syntax Understanding) 。Terry说,机器能够理解语法以后,接下去需要做的就是理解语义(Semantics)。语义就是指含义,语言有语言的含义,视觉有物体、有动作,有视觉的含义。最后,当我们把语法和语义解决以后,智能的机器或者是人主要解决的问题就是统计推理(Inference)这个过程。1970年,Terry Winograd教授在麻省理工学院人工智能实验室创建了SHRDLU(积木世界),其被誉为微世界程序的最高成就,它能用普通的英语句子与人交流,还能作出决策并执行操作。可以说它既是自然人展示自己如何借助计算机实现自然语言理解的一个经典示例,也是怎样应用计算机有效进行自然语言处理的一个里程碑。
Geffory Hinton

Geoffrey Hinton

人类大脑有数十亿个神经细胞,它们之间通过神经突触相互影响,形成极其复杂的相互联系。然而科学家们并不能解释这些具体的影响和联系。神经到底是如何进行学习以及计算的,对于Hinton,这些正是他所关心的问题。他不知道所有的答案,但在他的努力之下已经取得了进展。

Geoffrey Hinton 被尊称为“神经网络之父”,将 Back Propagation(反向传播)算法应用到神经网络与深度学习,还提出了“Dark Knowledge”概念。他将神经网络带入到研究与应用的热潮,这些人工神经网络可以收集信息,也可以对其做出反应。它们能对事物的外形和声音做出解释。它们对语言的理解也在进步。它们可以自行学习与工作,而不需要人为提示或者参与控制。这些正是它们与传统的学习机器的区别。随着时间的推移,计算机能力的发展,神经网络也更加快速,灵活,高效,得到了很好的扩展。

据了解,早在80年代初期,当Hinton和他的同事们刚开始这项研究时,那时的电脑还不够快,不足以处理有关神经网络的这些庞大的数据,他们取得的成就是有限的。而当时AI普遍的研究方向也与他们相反,都在试图寻找捷径,直接模拟出行为,而不是试图通过模仿大脑的运作来实现。在这样艰难的环境下,只有Hinton和他的同事坚持了下来,而事实则证明他们是对的。

Geoffrey Hinton于2006年在《Science》上发表的论文首次提出深度学习的主要观点。从2012年取得ImageNet竞赛的标志性事件之后,深度学习不断取得一系列的重大进展,解决了人工智能界的尽最大努力很多年仍没有进展的问题,除了在图像识别、语音识别等领域打破了纪录,还在其他的领域击败了其他机器学习技术,包括预测潜在的药物分子的活性、分析粒子加速器数据、重建大脑回路、预测非编码DNA突变对基因表达和疾病的影响。更令人惊讶的是,深度学习在自然语言理解的各项任务中也有非常可喜的成果,特别是主题分类、情感分析、自动问答和语言翻译。

可以说,正是Geoffrey Hinton将“深度学习”从边缘课题变成了谷歌等互联网巨头仰赖的核心技术。

Yann LeCun

yann-lecun-660x440

Yann LeCun,Geoffrey Hinton的博士后学生,也是将CNNs应用最成功的人(CNNs,是一种深度的监督学习下的机器学习模型)。目前感兴趣的研究领域包括人工智能、机器学习、计算机感知、机器人和计算神经科学。他最出名的是对深度学习和神经网络的贡献,特别是广泛用于计算机视觉和语音识别应用的CNN(卷积神经网络),他第一个把BP算法用在CNN上并且完善CNN使得它可以在真实场景中得以应用,并在这些主题以及手写字体识别、图像压缩和人工智能硬件等主题上发表过 190 多份论文。

LeCun使CNN成为目前人工智能领域最有用的模型。在谷歌,卷积神经网络帮助他们在安卓手机上开发语音识别系统;而百度则可以利用它开发全新的视觉搜索引擎。

Yann LeCun是纽约大学终身教授,现任Facebook人工智能实验室负责人。LeCun位列新泽西州的发明家名人堂,并获得 2014 年 IEEE 神经网络先锋奖、2015 年 IEEE PAMI 杰出研究奖、2016 年 Lovie 终身成就奖和来自墨西哥 IPN 的名誉博士学位。

Yoshua Bengio

Yoshua Bengio

Yoshua Bengio教授是机器学习大神之一,尤其是在深度学习这个领域。他连同Geoff Hinton以及 Yann LeCun教授,缔造了2006年开始的深度学习复兴。

其他方面,Bengio 的 《a neural probabilistic language model》这篇论文开创了神经网络做 language model 的先河,里面的思路影响、启发了之后的很多基于神经网络做 nlp(自然语音处理) 的文章。

Bengio博士后的导师Jordan曾提到:“到目前为止,在更高级的自然语言处理任务中,深度学习并未像在语音识别、物体识别等任务上做到的那样,显著降低错误率。”所以在 Hinton提出深度学习概念激活了整个领域、lecun发表了卷积神经网络(CNN)这样的阶段性突破成果的前提下,Bengio对自然语音处理难题的贡献是非常有意义的。

Jürgen Schmidhuber

Jürgen Schmidhuber

1997 年,Schmidhuber 博士和他的同事发表了一篇技术论文,后来证明这篇论文对最近的视觉和语音上的快速进展起到了关键作用。这个方法被称长短期记忆,简称为 LSTM。这个方法在刚引进时没有得到广泛的理解。它主要提供了一种记忆形式,或者说是一种神经网络的环境。

就像人类不会每次都从头学起一样,神经网络的机制中存在循环和记忆的机制,每个输入的单词和观察到的像素都会被其理解。长短时记忆(LSTM)的出现让这种系统的表现得到了很大的提升,输出结果瞬间变得准确。

去年,谷歌的研究人员在这一方面的研究得到发表,他们使用 LSTM 减少了 49% 的语音识别错误,这是一个飞跃性进步。

动点科技还将梳理人工智能领域的优秀华人科学家名单,敬请期待。