AI教父Hinton最新采访万字实录

2023-04-10 13:34

【新智元导读】Geoffrey Hinton被公认是人工智能的教父，数十年前他就支持和推动了机器学习，随着像ChatGPT这样的聊天机器人引起广泛关注，CBS的主持人于2023年3月初在多伦多的Vector研究所采访了Hinton。

最近，全长40分钟的采访视频被放了出来，整个采访干货满满，非常精彩。作者对采访内容进行了翻译整理，和大家分享。

问：您如何描述当前AI机器学习领域的时刻？

答：我认为这是一个关键时刻。ChatGPT表明，这些大型语言模型可以做一些令人惊奇的事情。普通公众突然开始关注这个领域，因为微软发布了一些产品，他们突然意识到了大公司在过去五年里所知道的东西。

问：你第一次使用ChatGPT时的想法是什么？

答：在ChatGPT前，我已经使用了许多类似的东西，所以ChatGPT并没有让我感到惊讶。GPT-2（这是早期的一种语言模型）让我惊讶，谷歌的一个模型也让我惊讶，它实际上可以解释为什么一个笑话很好笑。它用自然语言告诉你为什么一个笑话很好笑。当然，并非所有笑话都可以，但对于很多笑话，它都可以告诉你为什么它们好笑。

问：如果ChatGPT并不那么令人惊讶或令人印象深刻，那么您对公众对它的反应感到惊讶吗？因为反应很大。

答：是的，我认为每个人都有点惊讶于反应如此之大。这是最快增长的应用程序。也许我们不应该感到惊讶，但研究人员已经习惯于这些东西实际上是有效的。

问：你在AI领域一直处于领先地位，半个世纪都领先于其他人，对吗？

答：其实不然。在AI领域，有两种思路。一种是主流AI，另一种是关于神经网络的。主流AI认为，AI是关于推理和逻辑的，而神经网络则认为，我们最好研究生物学，因为那些才是真正有效的东西。所以，主流AI基于推理和逻辑制定理论，而我们基于神经元之间的连接变化来学习制定理论。从长远来看，我们取得了成功，但短期内看起来有点无望。

问：回顾过去，了解你现在所知道的，你认为当时你是否可以说服人们？

答：我当时可以说，但那并不能说服人们。我可以说，神经网络在20世纪80年代没有真正奏效的唯一原因是计算机运行速度不够快，数据集不够大。然而，在80年代，一个重要的问题是，一个拥有大量神经元的大型神经网络，计算节点和它们之间的连接，仅通过改变连接的强度，从数据中学习，而没有先验知识，这是否可行？主流AI的人认为这完全荒谬。尽管这听起来有点荒谬，但它确实有效。

问：您是如何知道或为什么相信这种方法会奏效的？

答：因为大脑就是这样。你必须解释我们是如何做到这些事情的，以及我们是如何做到那些我们没有进化出来的事情的，比如阅读。阅读对我们来说是非常新近的，我们没有足够的进化时间来适应它。但我们可以学会阅读，我们可以学会数学。所以一定有一种在这些神经网络中学习的方法。

问：昨天，曾与您共事的Nick告诉我们，您并不是真正对创建AI感兴趣，您的核心兴趣是理解大脑是如何工作的。

答：是的，我真的想了解大脑是如何工作的。显然，如果你关于大脑工作原理的错误理论带来了好的技术，你可以利用这一点来获得资助。但我真的想知道大脑是如何工作的。我认为目前人工神经网络与大脑实际工作原理之间存在一定的分歧。我认为它们现在走的是不同的道路。

问：那么我们现在还没有采取正确的方法？

答：这是我的个人观点。

问：但所有大型模型现在都使用一种叫做反向传播的技术，而这种技术是您帮助推广的。

答：我认为大脑并不是在做这个。有两条通往智能的不同道路。一条是生物学途径，另一条是我们所拥有的模拟硬件途径。我们必须用自然语言进行沟通，还要向人们展示如何做事情，模仿等。但我们在交流方面做得很糟糕，与现在运行在数字计算机上的计算机模型相比，我们的交流能力差得多。计算机模型之间的沟通带宽非常大，因为它们是相同模型的克隆，运行在不同的计算机上。正因为如此，它们可以查看大量的数据，因为不同的计算机可以查看不同的数据，然后它们结合了它们所学到的东西，远远超出了任何人能够理解的范围。尽管如此，我们仍然比它们聪明。

问：所以它们就像是天才白痴吗？

答：对，ChatGPT知道的比任何一个人都多。如果有一个关于知识量的比赛，它会轻松击败任何一个人。它在智力竞赛中表现出色，可以写诗，但在推理方面并不擅长。我们在推理方面做得更好。我们必须从更少的数据中提取我们的知识。我们有100万亿个连接，其中大部分是通过学习得到的，但我们只活了十亿秒，这并不算很长的时间。像ChatGPT样的东西，它们在许多不同的计算机上运行了比我们更长的时间，吸收了所有这些数据。

问：1986年，您在《自然》杂志上发表了一篇文章，提出了一个想法：我们将拥有一个由单词组成的句子，并预测最后一个单词。

答：是的，那是第一个语言模型，基本上就是我们现在在做的事情。1986年是很久以前的事情了。

问：为什么那时候人们还没有说「哦，好吧，我认为他找到了方法」？

答：因为那时候，如果你问我用多少数据训练了那个模型，我有一个简单的家庭关系模型，有112个可能的句子，我用其中的104个进行了训练，然后检查它是否正确预测了最后8个。它在预测最后8个方面表现得相当好，比符号AI更好。问题是那时候的计算机还不够强大。现在的计算机速度快了数百万倍，可以进行数百万倍的计算。我做了一个小计算，如果我拿1986年的计算机去学习一些东西，它现在仍在运行，但还没有完成。现在，学习这些东西只需要几秒钟。

问：你知道这是你的制约因素吗？

答：我并不知道，但我相信那可能是我们的制约因素。但人们对这样的说法嗤之以鼻，好像这是一个借口：「如果我有更大的计算机和更多的数据，一切都会好起来。现在它不起作用是因为我们没有足够的数据和计算能力。」这种观点被当作对事物无法正常运作的一种狡辩。

问：在90年代从事这项工作很困难吗？

答：在90年代，计算机在不断发展，但是那时确实有其他学习技术，在小型数据集上表现得和神经网络一样好，而且更容易解释，背后有更为复杂的数学理论。所以，在计算机科学领域，人们对神经网络失去了兴趣。但在心理学领域，他们仍然对神经网络感兴趣，因为心理学家对人类可能如何学习感兴趣，这些其他技术甚至比反向传播还不合理。

问：这是您背景的一个有趣部分，您之所以投身于这个领域，并非因为对计算机感兴趣，而是因为对大脑感兴趣。

答：是的，我原本对心理学感兴趣，后来我决定，如果不了解大脑，我们永远无法理解人类。在70年代，有一种时髦的观点认为，你可以在不关心大脑的情况下做到这一点，但我觉得那是不可能的。你必须了解大脑是如何运作的。

问：现在我们快进到2000年代，您回顾过去，是否认为有一个关键时刻，当时您觉得我们这一方将在这场争论中获胜？

答：大约在2006年，我们开始做所谓的深度学习。在那之前，让具有多层表示的神经网络学会复杂事物一直很困难。我们找到了更好的方法来实现这一点，更好的初始化网络的方法，称为预训练。在ChatGPT中，P代表预训练。T代表变换器，G代表生成。实际上，是生成模型为神经网络提供了更好的预训练方法。2006年时，这个理念的种子已经埋下，到了2009年，我们已经研发出了比最好的语音识别器更好的东西，用与其他所有语音识别器不同的技术识别您说的哪个音素。

问：那么2012年发生了什么大事呢？

答：实际上2012年发生了两件大事。其中一项研究始于2009年，是由我的两名学生在暑假进行的，他们的研究成果导致了语音识别的改进。这项技术被推广到了微软、IBM和谷歌等大型语音识别实验室。2002年，谷歌首次将其应用于产品，突然之间，安卓上的语音识别变得跟Siri一样好，甚至更好。这是深度神经网络在语音识别领域的一个应用，比以前提前了三年。

在那个时间点的几个月内，我的另外两名学生开发了一个物体识别系统。该系统可以查看图像，告诉你图像中的物体是什么，效果比以前的系统好得多。

这个系统是怎么工作的呢？有一个人叫李飞飞，和她的合作者创建了一个大型图像数据库，包含了1000个不同类别的100万张图像。你需要查看一张图像，并对图像中的主要物体进行最好的猜测。所以，这些图像通常会在中间有一个物体，比如子弹头火车或者哈士奇之类的东西。其他系统的错误率是25%，而我们的错误率是15%。几年之后，15%的错误率降到了3%，这已经接近人类水平了。

让我试着解释一下，让人们理解他们的方法与其他团队的方法之间的区别。假设你想在图像中识别一只鸟。图像本身，假设是200x200的图像，有200x200个像素，每个像素有三个颜色值RGB。所以你在计算机里有200x200x3个数字，就是计算机里的数字。任务是将这些数字转换成一个表示鸟的字符串。50年来，标准AI领域的人们一直试图做到这一点，但没有成功。将一堆数字转换成一个表示鸟的标签是很棘手的。

你可以这样做：首先，你可以制作特征检测器，检测像素的小组合。然后在下一级别，你可能会说，假设我有22个边缘检测器，它们以一个细角相连，那可能就是一只喙。然后在更高的层次上，我们可能有一个探测器，它会说，嘿，我找到了这个类似喙的东西，还找到了一个圆形的东西，它们在空间关系上大致是一只鸟的眼睛和喙。所以下一个级别，你会有一个鸟类探测器，它会说，如果我看到这两个特征，我认为这可能是一只鸟。你可以想象通过手动连接这些特征检测器。而反向传播的思想就是在一开始随机设置连接权重，然后根据预测结果调整权重。如果预测出现错误，那么你就通过网络反向计算，并提出以下问题：我应该如何改变这个连接强度，使其更不容易说出错误答案，更容易说出正确答案？这称为误差或差异。然后，你要计算每个连接强度如何进行微调，使其更容易得出正确答案，更不容易得出错误答案。

一个人会判断这是一只鸟，然后将标签提供给算法。但是反向传播算法只是一种计算方法，用于确定如何改变每个连接强度，使其更容易说鸟，更不容易说猫。算法会不断尝试调整权重。现在，如果你展示足够多的鸟和猫，当你展示一只鸟时，它会说鸟；当你展示一只猫时，它会说猫。事实证明，这种方法比手动连接特征检测器要有效得多。

这就是我的学生在图像数据库上所做的事情。他们让这个系统工作得非常好。这些学生非常聪明，事实上，其中一名学生，他是ChatGPT背后的主要人物之一。那是人工智能的一个巨大时刻，他实际上参与了这两个项目。

你可以想象，当你调整这个小旋钮时，它会说出「鸟」，这感觉就像是一个惊人的突破。这主要是因为计算机视觉领域的其他人认为，这些神经网络只适用于简单的任务，例如识别手写数字，但这并不是真正复杂的图像，具有自然背景等。他们认为这种方法永远不会适用于这些大型复杂图像，但突然之间，这种方法就成功了。

值得称道的是，那些曾经坚定反对神经网络的人，当看到这种方法成功时，他们做了科学家通常不会做的事情，也就是说：「哦，它有效，我们会采用这个方法。」人们认为这是一个巨大的转变。因为他们看到这种方法比他们正在使用的方法更有效，所以他们很快就改变了立场。

当人们既在思考机器，也在思考我们自己的思维方式时，我们常常认为，输入是语言，输出是语言，那么中间一定也是语言。这是一个重要的误解。实际上，这种观点并不正确。如果这是真的，那么被称为符号人工智能的方法应该非常擅长进行机器翻译，比如把英语转换成法语。你会认为操作符号是实现这一目标的正确方法。但实际上，神经网络的效果更好。当谷歌翻译从使用符号方法转向神经网络时，效果大大提高了。我认为，在中间的部分，你会发现有数百万个神经元，它们中的一些是活跃的，一些则不是。符号只能在输入和输出处找到，而不是在整个过程中。

现在，我们在多伦多大学附近，虽然并非在多伦多大学里，但在这里和世界各地的大学里，我们教育了很多人学习编码。教这么多人编码是否仍然有意义呢？我不知道答案是什么。在2015年左右，我曾经声称，在未来五年内，计算机将在图像识别方面超越放射科医生，因此教他们识别图像中的东西已经没有意义了。事实证明，我的预测错误了，实际上需要10年，而不是5年。在精神层面上，我并没有错，只是时间预测出了差错。计算机现在在很多医学图像识别方面与放射科医生相当，尽管它们还没有在所有方面做得更好，但它们只会变得更好。

因此，我认为有一段时间，我们仍然需要编码人员。我不知道这段时间会有多长，但我们需要的编码人员会减少。或者，我们可能需要相同数量的编码人员，但他们将能够实现更多的成果。

问：我们在这里谈论的是一家初创公司，昨天我们拜访了他们。你是他们的投资者，那么，什么是说服你的投资理由呢？

答：首先，他们是好人，我曾与其中的几位合作过。其次，他们是第一批意识到需要将Google、OpenAI等地开发的大型语言模型带给企业的公司。这对公司来说将非常有价值，因此，他们一直在努力实现这一目标，而且在这方面取得了领先地位。所以，我认为他们会成功的。

问：你曾经提到过一个我觉得非常有趣的观点，那就是未来可能会有一种新型计算机，专门解决这个问题。这个观点是什么？

答：我们有两种途径来理解智能：一种是生物途径，其中每个大脑都是不同的，我们需要通过语言来在不同的大脑之间传递知识；另一种是目前的AI神经网络版本，你可以在不同的计算机上运行相同的模型，实际上它们可以共享连接权重，因此它们可以共享数十亿个数字。

AI教父Hinton最新采访万字实录

最新推荐

今日热点