嗨热线网 > 科技 >

AI教父Hinton最新采访万字实录

2023-04-10 13:34

【新智元导读】Geoffrey Hinton被公认是人工智能的教父,数十年前他就支持和推动了机器学习,随着像ChatGPT这样的聊天机器人引起广泛关注,CBS的主持人于2023年3月初在多伦多的Vector研究所采访了Hinton。

最近,全长40分钟的采访视频被放了出来,整个采访干货满满,非常精彩。作者对采访内容进行了翻译整理,和大家分享。

问:您如何描述当前AI机器学习领域的时刻?

答:我认为这是一个关键时刻。ChatGPT表明,这些大型语言模型可以做一些令人惊奇的事情。普通公众突然开始关注这个领域,因为微软发布了一些产品,他们突然意识到了大公司在过去五年里所知道的东西。

问:你第一次使用ChatGPT时的想法是什么?

答:在ChatGPT前,我已经使用了许多类似的东西,所以ChatGPT并没有让我感到惊讶。GPT-2(这是早期的一种语言模型)让我惊讶,谷歌的一个模型也让我惊讶,它实际上可以解释为什么一个笑话很好笑。它用自然语言告诉你为什么一个笑话很好笑。当然,并非所有笑话都可以,但对于很多笑话,它都可以告诉你为什么它们好笑。

问:如果ChatGPT并不那么令人惊讶或令人印象深刻,那么您对公众对它的反应感到惊讶吗?因为反应很大。

答:是的,我认为每个人都有点惊讶于反应如此之大。这是最快增长的应用程序。也许我们不应该感到惊讶,但研究人员已经习惯于这些东西实际上是有效的。

问:你在AI领域一直处于领先地位,半个世纪都领先于其他人,对吗?

答:其实不然。在AI领域,有两种思路。一种是主流AI,另一种是关于神经网络的。主流AI认为,AI是关于推理和逻辑的,而神经网络则认为,我们最好研究生物学,因为那些才是真正有效的东西。所以,主流AI基于推理和逻辑制定理论,而我们基于神经元之间的连接变化来学习制定理论。从长远来看,我们取得了成功,但短期内看起来有点无望。

问:回顾过去,了解你现在所知道的,你认为当时你是否可以说服人们?

答:我当时可以说,但那并不能说服人们。我可以说,神经网络在20世纪80年代没有真正奏效的唯一原因是计算机运行速度不够快,数据集不够大。然而,在80年代,一个重要的问题是,一个拥有大量神经元的大型神经网络,计算节点和它们之间的连接,仅通过改变连接的强度,从数据中学习,而没有先验知识,这是否可行?主流AI的人认为这完全荒谬。尽管这听起来有点荒谬,但它确实有效。

问:您是如何知道或为什么相信这种方法会奏效的?

答:因为大脑就是这样。你必须解释我们是如何做到这些事情的,以及我们是如何做到那些我们没有进化出来的事情的,比如阅读。阅读对我们来说是非常新近的,我们没有足够的进化时间来适应它。但我们可以学会阅读,我们可以学会数学。所以一定有一种在这些神经网络中学习的方法。

问:昨天,曾与您共事的Nick告诉我们,您并不是真正对创建AI感兴趣,您的核心兴趣是理解大脑是如何工作的。

答:是的,我真的想了解大脑是如何工作的。显然,如果你关于大脑工作原理的错误理论带来了好的技术,你可以利用这一点来获得资助。但我真的想知道大脑是如何工作的。我认为目前人工神经网络与大脑实际工作原理之间存在一定的分歧。我认为它们现在走的是不同的道路。

问:那么我们现在还没有采取正确的方法?

答:这是我的个人观点。

问:但所有大型模型现在都使用一种叫做反向传播的技术,而这种技术是您帮助推广的。

答:我认为大脑并不是在做这个。有两条通往智能的不同道路。一条是生物学途径,另一条是我们所拥有的模拟硬件途径。我们必须用自然语言进行沟通,还要向人们展示如何做事情,模仿等。但我们在交流方面做得很糟糕,与现在运行在数字计算机上的计算机模型相比,我们的交流能力差得多。计算机模型之间的沟通带宽非常大,因为它们是相同模型的克隆,运行在不同的计算机上。正因为如此,它们可以查看大量的数据,因为不同的计算机可以查看不同的数据,然后它们结合了它们所学到的东西,远远超出了任何人能够理解的范围。尽管如此,我们仍然比它们聪明。

问:所以它们就像是天才白痴吗?

答:对,ChatGPT知道的比任何一个人都多。如果有一个关于知识量的比赛,它会轻松击败任何一个人。它在智力竞赛中表现出色,可以写诗,但在推理方面并不擅长。我们在推理方面做得更好。我们必须从更少的数据中提取我们的知识。我们有100万亿个连接,其中大部分是通过学习得到的,但我们只活了十亿秒,这并不算很长的时间。像ChatGPT样的东西,它们在许多不同的计算机上运行了比我们更长的时间,吸收了所有这些数据。

问:1986年,您在《自然》杂志上发表了一篇文章,提出了一个想法:我们将拥有一个由单词组成的句子,并预测最后一个单词。

答:是的,那是第一个语言模型,基本上就是我们现在在做的事情。1986年是很久以前的事情了。

问:为什么那时候人们还没有说「哦,好吧,我认为他找到了方法」?

答:因为那时候,如果你问我用多少数据训练了那个模型,我有一个简单的家庭关系模型,有112个可能的句子,我用其中的104个进行了训练,然后检查它是否正确预测了最后8个。它在预测最后8个方面表现得相当好,比符号AI更好。问题是那时候的计算机还不够强大。现在的计算机速度快了数百万倍,可以进行数百万倍的计算。我做了一个小计算,如果我拿1986年的计算机去学习一些东西,它现在仍在运行,但还没有完成。现在,学习这些东西只需要几秒钟。

问:你知道这是你的制约因素吗?

答:我并不知道,但我相信那可能是我们的制约因素。但人们对这样的说法嗤之以鼻,好像这是一个借口:「如果我有更大的计算机和更多的数据,一切都会好起来。现在它不起作用是因为我们没有足够的数据和计算能力。」这种观点被当作对事物无法正常运作的一种狡辩。

问:在90年代从事这项工作很困难吗?

答:在90年代,计算机在不断发展,但是那时确实有其他学习技术,在小型数据集上表现得和神经网络一样好,而且更容易解释,背后有更为复杂的数学理论。所以,在计算机科学领域,人们对神经网络失去了兴趣。但在心理学领域,他们仍然对神经网络感兴趣,因为心理学家对人类可能如何学习感兴趣,这些其他技术甚至比反向传播还不合理。

问:这是您背景的一个有趣部分,您之所以投身于这个领域,并非因为对计算机感兴趣,而是因为对大脑感兴趣。

答:是的,我原本对心理学感兴趣,后来我决定,如果不了解大脑,我们永远无法理解人类。在70年代,有一种时髦的观点认为,你可以在不关心大脑的情况下做到这一点,但我觉得那是不可能的。你必须了解大脑是如何运作的。

问:现在我们快进到2000年代,您回顾过去,是否认为有一个关键时刻,当时您觉得我们这一方将在这场争论中获胜?

答:大约在2006年,我们开始做所谓的深度学习。在那之前,让具有多层表示的神经网络学会复杂事物一直很困难。我们找到了更好的方法来实现这一点,更好的初始化网络的方法,称为预训练。在ChatGPT中,P代表预训练。T代表变换器,G代表生成。实际上,是生成模型为神经网络提供了更好的预训练方法。2006年时,这个理念的种子已经埋下,到了2009年,我们已经研发出了比最好的语音识别器更好的东西,用与其他所有语音识别器不同的技术识别您说的哪个音素。

问:那么2012年发生了什么大事呢?

答:实际上2012年发生了两件大事。其中一项研究始于2009年,是由我的两名学生在暑假进行的,他们的研究成果导致了语音识别的改进。这项技术被推广到了微软、IBM和谷歌等大型语音识别实验室。2002年,谷歌首次将其应用于产品,突然之间,安卓上的语音识别变得跟Siri一样好,甚至更好。这是深度神经网络在语音识别领域的一个应用,比以前提前了三年。

在那个时间点的几个月内,我的另外两名学生开发了一个物体识别系统。该系统可以查看图像,告诉你图像中的物体是什么,效果比以前的系统好得多。

这个系统是怎么工作的呢?有一个人叫李飞飞,和她的合作者创建了一个大型图像数据库,包含了1000个不同类别的100万张图像。你需要查看一张图像,并对图像中的主要物体进行最好的猜测。所以,这些图像通常会在中间有一个物体,比如子弹头火车或者哈士奇之类的东西。其他系统的错误率是25%,而我们的错误率是15%。几年之后,15%的错误率降到了3%,这已经接近人类水平了。

让我试着解释一下,让人们理解他们的方法与其他团队的方法之间的区别。假设你想在图像中识别一只鸟。图像本身,假设是200x200的图像,有200x200个像素,每个像素有三个颜色值RGB。所以你在计算机里有200x200x3个数字,就是计算机里的数字。任务是将这些数字转换成一个表示鸟的字符串。50年来,标准AI领域的人们一直试图做到这一点,但没有成功。将一堆数字转换成一个表示鸟的标签是很棘手的。

你可以这样做:首先,你可以制作特征检测器,检测像素的小组合。然后在下一级别,你可能会说,假设我有22个边缘检测器,它们以一个细角相连,那可能就是一只喙。然后在更高的层次上,我们可能有一个探测器,它会说,嘿,我找到了这个类似喙的东西,还找到了一个圆形的东西,它们在空间关系上大致是一只鸟的眼睛和喙。所以下一个级别,你会有一个鸟类探测器,它会说,如果我看到这两个特征,我认为这可能是一只鸟。你可以想象通过手动连接这些特征检测器。而反向传播的思想就是在一开始随机设置连接权重,然后根据预测结果调整权重。如果预测出现错误,那么你就通过网络反向计算,并提出以下问题:我应该如何改变这个连接强度,使其更不容易说出错误答案,更容易说出正确答案?这称为误差或差异。然后,你要计算每个连接强度如何进行微调,使其更容易得出正确答案,更不容易得出错误答案。

一个人会判断这是一只鸟,然后将标签提供给算法。但是反向传播算法只是一种计算方法,用于确定如何改变每个连接强度,使其更容易说鸟,更不容易说猫。算法会不断尝试调整权重。现在,如果你展示足够多的鸟和猫,当你展示一只鸟时,它会说鸟;当你展示一只猫时,它会说猫。事实证明,这种方法比手动连接特征检测器要有效得多。

这就是我的学生在图像数据库上所做的事情。他们让这个系统工作得非常好。这些学生非常聪明,事实上,其中一名学生,他是ChatGPT背后的主要人物之一。那是人工智能的一个巨大时刻,他实际上参与了这两个项目。

你可以想象,当你调整这个小旋钮时,它会说出「鸟」,这感觉就像是一个惊人的突破。这主要是因为计算机视觉领域的其他人认为,这些神经网络只适用于简单的任务,例如识别手写数字,但这并不是真正复杂的图像,具有自然背景等。他们认为这种方法永远不会适用于这些大型复杂图像,但突然之间,这种方法就成功了。

值得称道的是,那些曾经坚定反对神经网络的人,当看到这种方法成功时,他们做了科学家通常不会做的事情,也就是说:「哦,它有效,我们会采用这个方法。」人们认为这是一个巨大的转变。因为他们看到这种方法比他们正在使用的方法更有效,所以他们很快就改变了立场。

当人们既在思考机器,也在思考我们自己的思维方式时,我们常常认为,输入是语言,输出是语言,那么中间一定也是语言。这是一个重要的误解。实际上,这种观点并不正确。如果这是真的,那么被称为符号人工智能的方法应该非常擅长进行机器翻译,比如把英语转换成法语。你会认为操作符号是实现这一目标的正确方法。但实际上,神经网络的效果更好。当谷歌翻译从使用符号方法转向神经网络时,效果大大提高了。我认为,在中间的部分,你会发现有数百万个神经元,它们中的一些是活跃的,一些则不是。符号只能在输入和输出处找到,而不是在整个过程中。

现在,我们在多伦多大学附近,虽然并非在多伦多大学里,但在这里和世界各地的大学里,我们教育了很多人学习编码。教这么多人编码是否仍然有意义呢?我不知道答案是什么。在2015年左右,我曾经声称,在未来五年内,计算机将在图像识别方面超越放射科医生,因此教他们识别图像中的东西已经没有意义了。事实证明,我的预测错误了,实际上需要10年,而不是5年。在精神层面上,我并没有错,只是时间预测出了差错。计算机现在在很多医学图像识别方面与放射科医生相当,尽管它们还没有在所有方面做得更好,但它们只会变得更好。

因此,我认为有一段时间,我们仍然需要编码人员。我不知道这段时间会有多长,但我们需要的编码人员会减少。或者,我们可能需要相同数量的编码人员,但他们将能够实现更多的成果。

问:我们在这里谈论的是一家初创公司,昨天我们拜访了他们。你是他们的投资者,那么,什么是说服你的投资理由呢?

答:首先,他们是好人,我曾与其中的几位合作过。其次,他们是第一批意识到需要将Google、OpenAI等地开发的大型语言模型带给企业的公司。这对公司来说将非常有价值,因此,他们一直在努力实现这一目标,而且在这方面取得了领先地位。所以,我认为他们会成功的。

问:你曾经提到过一个我觉得非常有趣的观点,那就是未来可能会有一种新型计算机,专门解决这个问题。这个观点是什么?

答:我们有两种途径来理解智能:一种是生物途径,其中每个大脑都是不同的,我们需要通过语言来在不同的大脑之间传递知识;另一种是目前的AI神经网络版本,你可以在不同的计算机上运行相同的模型,实际上它们可以共享连接权重,因此它们可以共享数十亿个数字。

郑重说明:网站资源摘自互联网,如有侵权,麻烦通知删除,谢谢!

联系方式:hiholiday12399@gmail.com