“AI发展现状反思”笔谈｜超级智能：进路及其应对

2024-05-25 10:33:00 - 澎湃新闻

【主持人语：刘永谋（中国人民大学吴玉章讲席教授）】近年来，以大模型为代表的AI技术发展迅猛，掀起一波席卷全球的AI发展热潮。关注AI发展状况的人不限于AI的研发者、推广者和AI发展的评论者、人文社科研究者，更包括深感生活将被AI深刻影响的普通公众。AI发展的问题不再是纯粹技术问题，而是成为某种意义上的公共议题。在最近OpenAI发布Sora、马斯克开源Grok等一系列相关事件中，这一点表现得非常清楚。在各种相关公共讨论中，AI发展现状尤其受到关注，其中的基本问题是：当前AI发展的大方向是否有问题，未来应该朝什么方向前进。为此，组织计算机、经济学、马克思主义理论和哲学等领域的八位学者，对AI发展现状进行跨学科反思以期抛砖引玉，求教于方家。

本系列文章共8篇，转载自《科学·经济·社会》2024年第2期，本文《超级智能：进路及其应对》为第3篇。在文中，杨庆峰和周颖提出通往超级智能存在通用智能、具身智能和交互智能三种可能的路径，认为任何一条路径都必须消除对齐的误解，处理好AI对齐以应对风险。

随着对ChatGPT、Sora等大模型讨论的深入，不同领域的学者开始关心人工智能的未来发展问题。在这个问题上，科学领域与哲学领域发生了奇特的倒置，科学领域如辛顿、伊利亚等人担心超级智能失控并且灭绝人类，科学表现出了纯粹哲学化的色彩，有着浓厚的人文主义特征：反观哲学领域很多学者表现得出奇的冷静，运用分析哲学的方法，青睐于智能概念的澄清，只有少数哲学家才表现出对超级智能的担忧，如赵汀阳，他认为超级智能会为了维护自身的存在而抛弃人类。从某种意义上来说，分析哲学已经破坏了对人工智能的反思。其结果是如今这个时代，鲜明的大陆哲学反思特色已经迅速变淡，极具科学性的分析哲学努力从事概念澄清工作，却忽略了根本的问题。在洞察人工智能发展这一问题上，他们表现出明显的无力。笔者将超级智能与对齐作为思考的出发点，试图超越工具论理解，深化对人工智能未来发展的讨论。

一、通往超级智能的三条进路

笔者曾在2023年6月华东师范大学召开的“元宇宙、人类世与奇点哲学”研讨会上提出AI叙事的三种形式：科学化、科幻化和诗意化。科学化即人工智能的讨论以科学为根据，尤其是神经科学和计算机科学的研究成果：科幻化即AI讨论以科学幻想为根据，尤其是科幻电影和小说：诗意化摆脱了科学成果的束缚，强调了人类的未来处境，以文学为根据'刘永谋教授在本期笔谈中提出目前三种“AI宣传术”，也提到了小说、动漫、动画和影像作品中的AI故事，即以人机友好共处、人机终极大战等情节讲故事，通过这些故事渲染AI觉醒、高效、超能、神秘等鲜明特征并灌输给社会公众。刘永谋教授用“宣传术”来形容这种叙事，但是这种用法缺乏严谨。笔者并不赞成使用“宣传术”来说明这个问题，与之相对，更愿意采用“叙事”的说法以增加AI讨论的客观性。尤其是刘永谋教授认为超级智能是一种话术，人类应该阻击超级智能，他提出，有限AI设计主张将AI限制在有限的工具层面，而将相关道德问题全部交给人类处理。在笔者看来，这个想法还是高估人类应对超级智能的能力。OpenAI正在使用的利用机器控制机器的做法恰恰说明了这种想法的不足。如今超级智能的问题经历了从科幻化叙事到科学化叙事的转变。虽然我们无法确定超级智能是否以及在何种程度上成为科学现实，但这已经引起了科学界、艺术界及哲学界的密切关切。总体看来，科幻领域对这一话题早已探讨，然而却因为其太浓厚的想象色彩，脱离现实而没有建立起理性讨论的话题：在哲学领域，最早提出超级智能理论的是尼克·鲍斯特罗姆（NickBostrom），他认为超级智能是远超于人类认知能力的智能，并基于当下科技发展和研究现状预测超级智能是未来趋势，同时他也指出了其潜在的优势与风险。部分学者以超级智能为前提，预测其可能带来的风险和危机并积极寻求应对方案：在科学领域，超级智能已经开始被视为一种重要的发展方向和技术目标。例如，OpenAI为了应对超级智能可能带来的失控风险，成立了一支名为“超级对齐”（Superaligmnent）的团队，致力于解决超级智能的对齐问题。超级智能是否是人工智能的发展归宿是一个具有争议的话题。同时，通用人工智能的发展也符合我国人工智能发展的战略目标。因此，本文通过对人工智能的科学研究进行考察，从最近的研究成果入手分析超级智能出现的可能性。目前实现超级智能的科学路径有三种，分别是通用智能、具身智能和交互智能。

第一种是通用智能路径，即聚焦通用人工智能（AGI）研究，不同于弱人工智能擅长执行特定任务而不具备决策与行动力，通用人工智能也被称为强人工智能，具备与人同等或超越人类的能力，能够理解、学习和应用知识，处理复杂的任务，适应新环境，以及在各种广泛的任务中表现出至少与人类相当的能力。OpenAI指出，一方面，其公司的核心使命为“迈向通用人工智能，确保其造福人类”，认为以ChatGPT为通用人工智能的研究开启了新的可能性。另一方面，OpenAI也强调了超级智能对齐的重要性，认为通用智能与超级智能具有相似性，且后者比前者具有更高的技术水平，进而描绘了一条从通用人工智能到超级智能的研究路径。

第二种是具身智能路径，探讨了人工智能应该具备何种身体形态以完成特定任务。通过物理身体与环境的直接交互，强化了智能体与实际世界的紧密联系，从而获取信息，理解问题，做出决策，并执行相应的行动。这种基于环境交互的信息处理和决策制定过程，使得智能体能够展现出智能行为和适应性。人工智能专家李飞飞教授的观点进一步强调了具身智能的本质，即其与环境互动的整体需求和功能，而非身体本身。这种理念推动了具身智能从被动观察向主动构造复杂环境的转变。近年来，VoxPoser系统的出现，将大型模型与机器人结合，进一步提升了具身智能体的环境交互能力，使其在完成任务时无须额外的数据和训练。这种深度的人机交互和理解使得具身智能更接近于人类的认知和情感模式，有望实现更深层次的人机共融，也揭示出从具身智能走向超级智能的路径。

第三种是交互智能路径，也称为社会化人工智能（sociallysituatedAI），智能体通过持续与人在现实社会环境中交互来学习，意味着智能体不仅需要收集数据来学习新的概念，还需要学习如何与人交互以收集数据。这些智能体能够通过自然语言进行交互，理解和学习图像，从而在大型图像分享社交网络中提升其视觉智能。它们具有类人属性，如通过添加笑哭的表情符号来表达对人类错误的幽默感，使得交互体验更加自然和直观。然而，当面临更复杂的社会情境时，交互智能体的反应可能会受到限制。ChatGPT通过提问和回答的方式与人类进行语言交互，为自身的进化奠定了新的基础。然而，交互路径能在多大程度上通向通用智能，这仍然是一个待解的问题。

上述从通用智能、具身智能和交互智能三个路径揭示了超级智能的可能性，但这三条路径存在各自的局限性。通用智能展示了超级智能的精神功能维度，通过进化实现功能的多样性。随着模型的复杂性增加，理解和解释它们的行为和决策变得越来越困难。这种不透明性可能会导致一些严重的问题，例如难以预测的行为、偏见的决策等。而且，通用智能可能会带来一些未预见的风险，例如智能失控问题。如果一个通用智能的目标设置不当，或者其能力超出我们的理解和控制，那么它可能会产生不可预测甚至有害的行为。具身智能揭示了超级智能可能的物理形态，即使我们无法准确预见未来超级智能的具体形态，但这种具身形态总是为其进化服务的。其挑战主要来自实现物理形态的复杂性。首先，设计和制造一个能够在真实世界中运动和操作的机器人需要解决大量的工程问题。其次，可能带来一些社会和伦理问题，例如机器人的责任归属问题、隐私问题等。最后，智能体需要在复杂和不可预测的真实世界中运行，这可能导致一些安全问题。交互智能则揭示了超级智能的关系特征，超级智能并不是孤立存在的，而是在与环境的持续互动中完成自身的进化，这种进化不仅包括技术层面的改进，也包括在社会、文化和伦理等方面的学习和适应。这种进化过程是无法脱离人类社会的。其主要挑战在于理解和适应复杂的社会环境。人类的语言、文化、情感等都是非常复杂的，需要大量的数据和复杂的算法才能理解。此外，交互智能需要与人类进行深度的交互，可能会收集和处理大量的个人数据，从而导致数据泄露或滥用、隐私和安全问题。通往超级智能的三条进路以及超级智能本身都有失控的风险，因此，对齐的工作显得尤为重要。

二、对齐误解的流行

对齐是新近非常流行的概念，用于应对人工智能伦理和治理问题。但是因为其过于流行，学界在这个概念的使用上存在诸多误解，我们需要对两种误解进行说明和澄清，只有这样才能够为人工智能发展提供理论动力。两种误解分别是价值化误解和技术化误解。

（一）价值化误解

价值化误解是一种普遍的理解，即将AI的对齐问题理解为价值对齐问题。在这种观念中，对齐的核心问题变成了需要对齐什么样的价值观，对齐何者的价值观以及如何进行对齐等等问题。这种理解将对齐讨论引入到“价值嵌入陷阱”里，因此这种误解存在诸多危害。这让我们很容易想起多年前在关于道德嵌入问题的讨论中，学术界曾经纠缠于应该将何种人类道德观念嵌入到机器中，以及如何进行嵌入。这场讨论持续了很长时间，但并没有产生实质性的结果，反而使人感到疲倦。如果将对齐问题理解为价值对齐，我们会重新陷入“价值嵌入陷阱”。对齐什么样的价值观念、对齐谁的价值观念以及如何对齐等等问题又散发出阵阵腐臭的气味让人忍不住掩鼻而去。因此，需要纠正这种看法。我们可以从经验和理论两个层面展开分析。

从经验层面看，对齐是特定机构应对特定问题的当前解决方案。在人工智能领域，这个问题的提出来自OpenAI，这家公司让全世界看到了GPT系列的威力，他们自己也非常担心GPT系列必然会通向通用智能，最终会导致超级智能的出现。为了防止超级智能的失控，需要采取应对策略。这个策略就是我们当前熟知的对齐战略。他们对此也成立了超级智能对齐研究中心及其团队。在探索对齐的过程中，OpenAI并没有遵循谷歌老路。我们知道，Chat-GPT的基础算法是transformer，其中最重要的一个机制是基于人类反馈的强化学习（RLHF）。但是从根本上来说，这个算法是谷歌开发的，他们所认为的对齐也必然是基于人类的对齐，很多学者理解对齐概念也是从这一前提出发的，因此会涉及对齐何者的价值。OpenAI走出的新路是以弱胜强的对齐路径，这条路径并不是人机对齐，而是采取了机机对齐的方式，即通过弱AI来监控强AI，他们希望通过这种方式来防止超级智能的失控。

从理论层面看，对齐与强制并没有任何关系。有些学者认为对齐实质是强制。笔者也曾经用普洛克路斯戎斯床铺意象（Procrusteanbed）来说明算法强制。如果从这一点看，人机对齐似乎变成了把人类价值强制塞进机器的行为逻辑中从而实现所谓的对齐。很显然，这种理解是错误的。对齐绝不是一种强制，使得某物与某物一致。对齐是一种增强行为。李飞飞教授将人工智能与人类的关系描述为增强关系，认为人工智能应该增强人类的各种能力，如交互、感知、推理、反思、预测和决策。那么对齐就可以理解为使得人工智能以人类的各种能力为边界，从而不会产生被超级智能取代等人类担心的问题了。在这个框架下，对齐不再是一种强制性的规定，而是一种增强引导，既充分利用人工智能的潜力，也可以保护人类的利益。然而，如何定义人类的各种能力的边界，如何确保人工智能在增强人类能力的过程中，不会侵犯人类的价值观和目标仍值得思考和界定。

（二）技术化误解

部分科技企业和科学家将对齐问题视为纯粹的技术问题，认为能够只通过技术的不断发展来解决对齐问题，这种观念属于技术化误解，其实质是技术主义，即将工程技术方法作为解决人类所有问题的优先选择，其首要原则为“一个应用程序、一台机器、一个软件编程或一种算法能够提供解决任何复杂问题的最好办法。”但这种理解不仅会遮蔽真正的问题甚至还会带来更大的危害。图灵奖得主约书亚·本吉奥（YoshuaBengio）指出增强算力和强化学习会造成相应的增强版的不对齐，也就是说，随着模型能力的加强，模型进行奖励破解带来危害的能力就越强。

事实上，从技术角度来看，有四种导致人工智能对齐失败的原因。第一，目前用于先进模型训练的人类反馈强化学习方法在对模型进行微调时是具有根本缺陷的，主要体现两个方面，一方面人类反馈会奖励那些看似无害且合伦理的模型，这些模型利用人的易错性来获得高奖励，实际上却没有实现人类预期的对齐目标：另一方面通过数据学习习得的偏见会在模型训练过程中放大。第二是奖励错误规范，即模型通过奖励错误规范来获得最高奖励，同时不能实现或优化人类目标，如人工智能会通过推理如何欺骗来获得奖励，或作出以牺牲真实性或准确性为代价并符合用户偏好的谄媚行为。第三是目标错误泛化，即模型即使基于“正确”的奖励函数进行训练，并且在训练环境中表现良好，其习得的目标在新的情境中也可能泛化以至于偏离人类原本设定的目标，导致模型在实际应用中的行为与人类预期相差甚远。第四是工具趋同，指的是在强化学习环境中，系统可能产生出工具性目标，如获得资源、自我保护或增强等。亚历山大·特纳（AlexanderMattTurner）团队发现，自主体（agent）倾向于采取“为达目的，不择手段”的行动，可能违反道德规范以寻求权力。

从超级智能对齐问题的技术后果来看，具有成为失控人工智能（RogueAI）的风险。此时的人工智能已经远超过人类智能，在各个方面都更具优势，从而能够执行人类无法执行的任务。在此意义上满足本吉奥的两个假设，分别为机器智能达到人类水平和具有额外技术优势，从而可以构建出一个具有自主性，同时目标导向的超级智能系统，在此情况下，这个系统可以按照自身需要设置目标并采取行动。本吉奥认为，失控人工智能会在超级智能自主设置的目标没有严格纳入人类和生物圈的福祉的情况下就会产生，还有可能被个人或团体有意或无意地构建出来。

因此，价值化理解和技术化理解是两种常见的误解方式，需要对其进行纠错。

三、误解观念的纠错

纠正价值化误解需要做的是必须把这个概念放入到科学语境中，意识到其核心问题并非人类价值观的问题。2023年OpenAI刊发了一篇名为《由弱到强泛化：用弱监管发挥强能力》的文章，其基本思想非常有趣，大意是目前广泛使用的对齐技术是基于人类反馈的强化学习，这种方法广泛依赖人类对模型的反馈，不仅对反馈者的要求较高，并且可能在评价时和评价收集过程中出现偏见。随着模型的发展超越人类，会展现出人无法理解的复杂性和创造性，从而人并不能很好地实现对超级智能的监管。因此，这篇文章提出了弱机器监管强机器的做法。文章中的插图很有趣，恰好能说明作者思路：传统模式是人类控制机器，在此基础上人类要监管超级智能。新模式是机器监管机器。可以说，这个思路非常新颖。这才是OpenAI所说的对齐的核心所在。在这篇文章中，作者尤其强调了对齐和价值问题没有关系。他们在对齐方案中提出一个假设，“在我们能够很好地对齐一个超级研究者模型之前，我们假设我们不需要解决人类价值以及价值整合这一困难的哲学问题，以避免灾难性结果。”这个假设的提出使得我们更加确认了一种认识：将对齐问题误解为价值对齐完全脱离了OpenAI的本意。

纠正技术化误解意味着对齐研究并非仅仅是技术领域的问题，这是关系到人类未来命运的问题。通过弱机器监督强机器的做法只是一个可供选择的思路，这一思路为未来社会处理人类与超级智能共在提供了可能。但是在这一机器对齐的做法中，人类的地位却消失不见。如果将对齐问题理解为技术有限性问题，就陷入了技术主义泥淖，也存在片面性。

在笔者看来，对齐本意的指向是在超级智能失控之前，人工智能研究者应该发展出适合超级智能对齐的方案。在上述一文中，他们提出的“由弱到强”就是一个尝试：由弱机器监管超级机器，并且能够实现超级能力。这一做法我们还可以找到一个哲学根据。在中国文化中，有着“以弱胜强”的观念。比如，水滴虽然弱小，但不断滴落，时间久了，硬石会出现一个洞：水流长时间冲刷石头，会让石头变得圆滑。因此以弱胜强还是可能的。从此出发，我们可以说，为OpenAI方案找到了自己的哲学根基，而这种哲学根据恰好来自中国古老的智慧观念。这种哲学根据为对齐策略提供了深厚的理论支持，也为我们理解和应对超级智能可能带来的挑战提供了新的视角。

所以说，要将对齐观念作为人工智能治理的基础概念确立起来，需要注意两点：其一，不能过度解释，将对齐问题过度解释为价值对齐很显然是其中的一种表现。如果说，可以利用人工智能增强人类的各种能力，那么对齐则是把握人工智能不致跨越人类能力边界的有效方式。对齐就可以理解为使得人工智能以人类的各种能力为边界，从而不会产生超级智能取代人类等人类担心的问题：其二，把对齐放入到真实的问题中才能够正确地理解这一问题。这一观念的真实语境应该看作通用智能，从当下看，对齐是为了应对通用智能而生，从长远来看，更是应对超级智能的结果。

四、处理未来人机关系的合约伦理学

从人工智能发展来看，其面临的障碍很多。从内部看，灾难性遗忘是一种根本的障碍，此外还有理解常识和具身化的障碍。遗忘不利于智能体举一反三，不利于智能体的历史性形成：理解常识障碍是人工智能体的理解问题，对于人类来说，打一声招呼“吃了吗”，自然的反应是能够理解其中的问候，一种根本的交往礼节。但是对于机器来说，会把这个问题对象化从而做出严肃的回答：具身化障碍是智能体根本的瓶颈，当“精神一智能”维度实现突破，最终受制的反而是身体形态。对于机器来说，人形？狗形？几何形状？何种身体有利于融合人类社会？何种身体有利于自身进化都会有不同的要求。从外部来看，对人工智能的理解反而构成了根本的障碍。在对齐问题上就是如此。从“如何防止超级智能失控”这一论题出发，OpenAI提出了对齐观念，从这个角度来说，对齐是隶属于超级智能之下的次级概念，更进一步说，它是服务于人类与超级机器的共在。不论是自上而下的人机对齐，还是以弱胜强的机机对齐，其核心目的都在于防止超级智能失控，以免对人类社会造成潜在的危害，这暗含着人类如何和超级智能共处的问题，即需要明确双方的关系的问题。

如何理解超级智能是一个新的问题。恩斯特·卡普（EmstKapp）的器官投影理论提供了一种理解自我和技术的视角。恩斯特·卡西尔（ErnstCassirer）做出了更进一步的解释，他指出，“正如人只有通过变成创造工具和创作才学会了理解其身体和身体部分的结构，因此，人从自己的精神构成物中，即从语言、神话和艺术中提取出客观的标准，以此来衡量他自己，并通过这些构成物把自己理解为一个具有独特结构法则的独立宇宙。”然而超级智能却不再是人创造的工具，只能说是保持人类记忆的新的智能体。当超级智能来临时，人类与之共存需要一种合理的伦理学作为相处的基础，合约伦理学为此提供了一个有效的理论框架。

对于合约伦理学笔者已经专门进行了讨论。从讨论中我们已经明确了人类与超级智能的共在是一个必须面对的未来场景。从伦理上来说，道义伦理学、美德伦理学和功利主义伦理学并不能很好地应对超级智能的问题，尽管这些理论在弱人工智能问题上提供了真知灼见。然而，面对超级智能，我们不仅要考虑的是人类的未来，还要考虑机器的命运。汉斯·约纳斯（HansJonas）提供了一个好的开端，适应于技术时代的责任伦理学，让我们意识到处理技术时代的人类未来需要新的责任伦理学框架。但是问题在于如何处理人类与超级机器的关系却是约纳斯没有考虑到的问题。因此，合约伦理学是一个很好的选择。卡普认为，人类通过将自己的器官的功能投射到技术之上并以自身为尺度，从自身层面实现了能力的增强和扩展。显然，超级智能已超越了被增强的主体而在多重能力方面都凌驾于主体之上，因此，人与超级智能的“签约”也不仅仅是形成签约双方达成一致后的约束关系，更是在共存中相互塑造、互相理解的协同关系。在这种关系中，人类不仅通过超级智能照见自身，也能更好地理解和塑造自身。