三名谷歌研究人员在最新提交给预印本文献库(ArXiv)的一篇论文中指出,人工智能领域的底层技术深度神经网络transformer并不擅长归纳概括。
Transformer是ChatGPT等人工智能工具背后大语言模型的基础。在11月1日提交给ArXiv的一篇新论文中,三名作者Steve Yadlowsky、Lyric Doshi和Nilesh Tripuraneni写道:“当任务或功能需要超出预训练数据的范围时,transformer出现了各种故障模式,发现即使是简单的任务外延也会降低它们的归纳能力。”
根据这篇论文的说法,深度神经网络transformer所擅长的是执行与训练数据相关的任务,并不太擅长处理超出这个范围的任务。
对于那些希望实现通用人工智能(AGI)的人来说,这个问题不容忽视。通用人工智能是技术人员用来描述可以完成任何人类所做事情的假想人工智能。就目前而言,人工智能非常擅长执行特定任务,但不像人类那样能跨领域转移技能。
华盛顿大学计算机科学与工程荣誉教授佩德罗·多明戈斯(Pedro Domingos)表示,新研究意味着“在这一点上,我们不应该对即将到来的人工智能过于疯狂。”
人们将AGI吹捧为人工智能领域的终极目标,从理论上讲,其代表着人类创造出与自己一样聪明或比自己更聪明的东西。许多投资者和技术人员都在为此投入大量时间和精力。
本周一,OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)就与微软首席执行官萨蒂亚·纳德拉(Satya Nadella)共同登台,重申了他关于“合作打造AGI”的愿景。
实现这一目标意味着让人工智能完成许多人类大脑可以完成的归纳性任务,包括适应不熟悉的场景、创建类比、处理新信息以及抽象思维等等。
但是,正如研究人员指出的那样,如果这项技术连“简单的任务外延”都难以实现,那么显然我们离目标还很远。
普林斯顿大学计算机科学教授阿尔温德·纳拉亚南(Arvind Narayanan)在社交媒体平台X上写道:“这篇论文甚至与大语言模型无关,但似乎是打破集体信念泡沫的最后一根稻草,让许多人接受了大语言模型的局限性。”“该是清醒的时候了”。
英伟达高级人工智能科学家Jin Fan质疑为什么这篇论文的发现会让人们感到惊讶,因为“transformer本来就不是灵丹妙药”。