为何ChatGPT如此擅长一本正经的胡说八道

语言常被认为是思维驾驭着的工具，人们“表达出”、“说出想法”，人们遵循着“思维的列车”或是“意识流”。而人类创造的一些巅峰——音乐，几何，计算机编程，则被定义为隐喻语言。这其中隐含了一种假设，即大脑通过一系列单词来处理世界以及我们对世界的体验。这种假定的联系也正是ChatGPT和类似程序如此神奇的原因：AI能够用类似人类的语言回答任何提词，这意味着机器具有某种意图，甚至是感知。

但随后程序说了一些完全荒谬的东西，例如在“nineteen”中有12个字母、或是旗鱼是哺乳动物——语言智能的“面纱”就此掉落。尽管ChatGPT可以生成流畅甚至优雅的散文，轻松通过困扰了AI领域超过70年的图灵测试基准，但它也可能看起来非常愚蠢，甚至危险：它在数学上会出错，无法给出最基础的烹饪建议，还会表现出令人震惊的偏见。

在一篇新论文*中，认知科学家和语言学家通过将语言交流和思维行为分离来解决这种不协调：具有一种能力并不代表具有另外一种。在专家们专注于生成式人工智能颠覆我们生活和工作的潜力之际，他们的争论也应该迫使人们去重新评估人工智能于人类智能的局限与其复杂性。

Mahowald, Kyle, et al. "Dissociating language and thought in large language models: a cognitive perspective." arXiv preprint arXiv:2301.06627 (2023).

https://arxiv.org/abs/2301.06627

*译者注

本文考虑了大语言模型在语言使用的两个不同方面的表现来评价其能力，即"形式语言能力"——包括指定语言的规则和模式的知识，以及"功能语言能力"——现实世界中语言理解和使用所需的一系列认知能力。大语言模型在形式语言的任务中表现令人深刻，却在很多需要功能语言能力的测试中失败。

研究人员解释道，作为思想的借代/提喻，语言的效果或许并不是很好。毕竟人们是基于视觉与语言思维的连续性来识别自我的*，无法用语言表达一个想法的体验，或许和语言本身一样是人类所特有的。这项研究的两位主要作者之一、麻省理工学院的认知神经科学家安娜·伊万诺娃（Anna Ivanova）也说道，当代对人脑的研究也表明“语言与思想之间存在分割”。对使用数十种语言的人们进行脑扫描后，研究人员发现了一个特殊的神经元网络*，其激活与所使用的语言无关（包括虚构的纳维语Na’vi和多斯拉克语Dothraki*）。

*译者注

识别自我：在Visual Thinking: The Hidden Gifts of People Who Think in Pictures, Patterns, and Abstractions一书中，Temple Grandin提到了一种思维风格的连续体，大致分为三部分，其中一端为语言思考者——更倾向于有序的、基于符号的方法，而另外一端则是，对象可视化思考者——他们通过使用具体的、类似于照片的心理图像来得出结论，而在中间的则是空间可视化思考者，他们似乎结合了抽象和具体的方法。

链接：https://www.newyorker.com/magazine/2023/01/16/how-should-we-think-about-our-different-styles-of-thinking

研究人员发现了一个特殊的神经元网络：

https://www.nature.com/articles/s41593-022-01114-5

虚构的纳维语Na’vi和多斯拉克语Dothraki：分别为《阿凡达》与《冰与火之歌》中的虚构语言。

该神经元网络一般不涉及包括数学，音乐与编程在内的思想活动。此外，许多丧失了理解和处理语言能力的失语症患者，仍然拥有计算或是其他非语言性心智任务的能力。结合来看，这两项证据表明语言本身并非思想的媒介，它更像是一个信使。人类语言的特殊之处便在于，它能够使用语法和词汇来与涉及了其他脑区的功能相连通，例如社交与逻辑。

虽然ChatGPT和其他类似的软件，展现出了将单词串联在一起的令人难以置信的能力，但它们在其他任务上却很吃力。如果你想要一封向孩子解释“圣诞老人是虚假的”的信，它会生成一个由圣诞老人本人签名的感人回复。这些大语言模型，或被称为LLMs*，基于前文的一切预测一句话中的下一个单词（例如在“相较于”后接上“主流看法”）。但如果让ChatGPT做一些基本计算和拼写，或是为煎蛋给出建议，你可能会得到语法完美的废话：“如果你在煎蛋时用力过大，蛋壳就会碎裂。”

*译者注

LLMs，Large language models

这些缺陷表明了一种与人脑中所存在的相同的区别，即拼凑单词与拼凑想法的区别——论文的作者分别称之为形式语言能力与功能语言能力。该论文的另外一名作者，德克萨斯大学奥斯汀分校（the University of Texas at Austin）的语言学家凯尔·马霍瓦尔德（Kyle Mahowald）表示“语言模型确实很擅长生成流利且合乎语法的语句，但这并不一定意味着一个东西能够生成符合语法的语言，它就能够进行数学计算、逻辑推理、思考或者确认社会语境。”

如果人类大脑的语言网络不负责数学，音乐或编程这些思考任务，那么一个在TB级文本上训练的人工“神经网络”也就没理由擅长这些。作者写道，“与认知神经科学的证据一致，LLMs的行为突出了擅长语言和擅长思考之间的差异。”ChatGPT在一些商学院和法学院的考试中取得中等分数的能力，与其说是理解能力的象征，不如说只是泡影。

尽管如此，关于下一代语言模型的炒作仍然四起：下一代将会在更多的单词之上进行训练，并且拥有更强大的计算能力。ChatGPT的创始者OpenAI声称，他们的程序正在靠近所谓的通用智能，这将会使机器与人类处于同等智慧水平。如果该比较成立，那么仅仅是让模型更擅长于单词预测并不能让他们接近这个目标。换句话说，你可以驳斥ChatGPT这样的AI程序具有灵魂或是像外星人入侵这类观念。

伊万诺娃和马霍瓦尔德认为需要不同的训练方式来促进AI的更进一步发展——例如针对逻辑或是社会推理的方法，而非单词预测。ChatGPT可能已经在该方向上跨出了一步，它不仅是阅读大量文本，还包含了人类反馈，监督者（用户）可以评论是什么构成了好或坏的回答。但由于缺乏ChatGPT的训练细节，尚不明确人类输入的目标是什么，程序显然认为1000同时大于和小于1062。（OpenAI在2023.2.2发布了对ChatGPT的更新，据说提高了它的“数学能力”，但据报告，它仍在努力解决基本的文字问题。）

而应该注意的是，有人认为大语言模型在语言方面并不如伊万诺娃和马霍瓦尔德写的那样优秀，它们不过是被美化了的自动填充器，其缺陷和能力一样大。认知科学家和著名的人工智能研究人员盖瑞·马尔库斯表示“语言不仅仅是句法，它还和语义相关。这不仅仅是因为人工智能聊天机器人不懂数学或如何煮鸡蛋，它们也难以理解一个句子是如何从其各部分的结构中衍生出含义的。”

例如，想象三个排成一排的塑料球：绿色球、蓝色球、蓝色球，有人让你抓“第二个蓝色球”，你能够理解他们指的是序列中的最后一个球，但一个聊天机器人可能会将指令理解为指的是第二个球，而它恰好也是蓝色的。马尔库斯说“大语言模型擅长语言的说法是被夸大的。”但是对伊万诺娃而言，像蓝球这样的例子需要的并不只是编译单词，还需要设想一个场景，因此“这并非关于语言本身，而是语言使用。”

无论它们的语言使用多么令人叹服，像ChatGPT这类程序仅通过书籍和维基百科输入数据，关于它们实际上“理解”了多少这个世界，仍然存在着一场有益的辩论*。伊利诺伊大学厄巴纳-香槟分校的计算语言学家罗克珊娜·吉鲁（Roxana Girju）认为“意义不是给出的。意义是在我们的互动和讨论中商定的，不止是和其他人，还有和这个世界的互动。这是我们在参与语言活动的过程中所达到的目标。”如果这是正确的，那么构建一个真正智能的机器将需要一种不同的结合语言和思想的方式，不只是分层不同的算法，还需要设计一个程序，例如同时学习语言和如何处理社会关系。

*译者注

https://arxiv.org/abs/2208.02957

伊万诺娃和马霍瓦尔德并没有彻底否认语言是人类智慧缩影的观点，他们将其复杂化了。人类之所以“擅长”语言，是因为我们将思想与表达结合在了一起。一个能够熟练掌握语言的规则并运用的计算机，必然是智能的；然而另一方面，正是狭隘地模仿人类语言限制了其发展。但在我们用我们的有机体大脑更好的理解硅基大脑前，我们需要新的观点和新的单词来理解语言本身的意义。

后记

阿朔：看到这篇文章后，我的第一反应是《我是谁，或什么》中收录的一篇文章——《马克3型兽的灵魂》，文章描述了机械动物，主人公启动了它之后，它便开始在地板上搜寻，在插座面前停下，伸出一对插头试着插进了电源，并发出了和猫一样的呼噜声——就像在进食。主人公的朋友在用锤子打伤它之后，它流出了红色的液体，并发出了轻柔的哭声，给了那位朋友很大的冲击。

这只机械动物没有任何的语言能力，也没有很高的“智力”，但却让人难以对它下杀手。所以对我来说，认同一个个体，是取决于它的语言能力吗？亦或是身体内的蛋白质？或许重要的是它能否向我传达“意义”，我能否将自我投射于它，马克3型兽虽然简单，却明确的传达了生存的欲望，仿佛是它意识到了自身的处境。

在ChatGPT刚面世时，我便开始思考：“这是我想要的强人工智能吗？”我想，至少暂时，答案是否定的。

Qiumsky：在ChatGPT能说出“语法完美的句子”背后，（至少）有两点需要大家明确：第一，句子的内在结构应该呈现出树状的层级，而不是表面所显现出的线性结构；第二，单词之间的组合并不依靠概率，而是存在一些其他的决定性因素。在更深入探讨ChatGPT如何反映“言说与思考之差”之前，如何让ChatGPT真正地理解语言，同样值得我们去思考。

作者：MATTEO WONG | 译者：阿朔 | 审校：Qiumsky

排版：骐迹 | 封面：Carmela Montanero

原文：

https://www.theatlantic.com/technology/archive/2023/01/chatgpt-ai-language-human-computer-grammar-logic/672902/

标签：人工智能