芮勇：人工智能如何在现实场景落地——混合式人工智能的多维度解析｜ CCCF精选

芮勇：人工智能如何在现实场景落地——混合式人工智能的多维度解析｜ CCCF精选

2024-12-27 20:08

混合式人工智能有很多维度，包括模型、数据、计算和基础设施。本文通过分析人工智能行业现有和即将出现的技术和产品来讨论这些混合维度，并从行业落地的角度讨论如何将人工智能应用于现实世界。

概述

回顾人工智能（AI）的发展历程，在过去大约60年的时间里，经历了两次低谷和三次高潮。仔细观察我们会发现，人工智能在现实世界中落地异常艰难，现实世界远比我们想象得复杂。人工智能的第一次低谷出现于20世纪60年代中期，人脸识别和机器翻译等被认为是简单的问题，但当时的算法难以应对现实中这些问题的复杂性，这使许多人对人工智能失去了信心，认为它只能完成一些简单的任务。人工智能的第二次高潮得益于专家系统的发展，然而专家系统缺乏自主学习能力，不易扩展到广泛的应用场景。虽然那时神经网络算法已初具雏形，但是由于训练数据不足以及算力限制等因素，神经网络未能完全成功，与此同时，人工智能的研究资金也大幅削减。于是，人工智能在20世纪末期再次陷入低谷。当前人工智能的热潮是由深度学习和大模型驱动的。与之前的方法相比，大模型具有更强的任务迁移和领域泛化能力，开始广泛应用于生产和生活。

相信大部分人了解大模型是从ChatGPT开始的。ChatGPT以破纪录的速度，在5天内就拥有了100万注册用户，其受欢迎程度可见一斑。尽管取得了这些成就，人工智能在现实世界中落地仍面临诸多挑战，因为现实世界更为错综复杂。最近，红杉资本（Sequoia Capital）提出了担忧，到今年第4季度，按照现在的投资成本，要保证AI投资产生50%的收益，营收需要达到6000亿美元。高盛集团（Goldman Sachs）也提出了类似的问题。科技巨头及其他公司计划未来几年在人工智能领域投资超过1万亿美元。但到目前为止，这些投资尚未看到明显的回报。所有这些都指向一个核心问题：如何让人工智能在现实世界中更好更快地落地。

人工智能的真正落地，需要场景规模化，需要处理边缘情况，需要产生业务价值。真实场景存在诸多方面的约束，例如计算负载、内存消耗、传输带宽、运营成本、数据安全和用户隐私等。通常，单个算法无法应对多重约束。为了解决这些问题，类似于云计算领域发展出的混合云，人工智能领域逐渐发展出了混合式人工智能。混合式人工智能有很多维度，包括算法、数据、计算和基础设施等，如图1所示。混合式算法可以兼顾传统模型的专用性和大模型的通用性，数据驱动的神经网络可以结合知识驱动的符号推理以弥补其不足。利用先验知识合成的数据与真实数据的混合可以解决训练数据不够用的问题，并针对困难样本和稀缺样本做高效的合成。混合调度通用芯片和专用芯片的异构计算技术可以降低本地设备的任务延迟和提升服务器的吞吐量。云边端混合基础设施可以实现智能应用的负载均衡和多方协作，例如部署在云侧的公共大模型负责通用问题，部署在边缘侧的企业大模型解决业务问题，部署在设备上的个人大模型处理隐私数据。接下来，本文将通过一些例子阐述这些混合模式。

混合式算法

2023年年底，《自然》（Nature）杂志首次将非人类对象ChatGPT列入了年度十大人物榜单。以ChatGPT为代表的大模型无疑是人工智能历史上重要的里程碑。然而认真浏览最近发表的一些文章和研究报告，我们会发现大语言模型仍存在许多局限性。

第一个例子是关于逻辑推理的测试。问题是：爱丽丝有4个姐妹和1个兄弟，爱丽丝的兄弟有几个姐妹？大模型给出了一个错误的答案。对人类来讲这个问题非常容易，答案是5个，但大模型在自行检查过后还是不能得出正确答案，这显然是一个逻辑推理的失败案例。另一个例子是来自微软的一项研究。问题是：150到250之间有多少个质数？最初，大模型给出了一个错误答案13，但如果稍微改变一下提示词，让大模型先列出150~250范围内的所有质数，然后再计算质数的个数，它就会给出正确的答案18。这个例子表明，在使用大语言模型时，如果我们帮助它将问题拆分，并给出适当的提示词，大模型就能够表现出色。此外，大语言模型在理解常识和因果推理方面也存在不足。在Sora的生成视频中，物体的运动违背了物理定律和生活常识。例如在杯子倾倒之前，杯子里面的红色液体就已经出现在桌子上了；再比如，椅子不受重力约束漂浮在空中，人在跑步机上朝反方向跑步，蚂蚁呈现出四条腿，等等。诸如此类的问题还有很多，这些都是大模型需要克服的问题，也是我们实现人工智能落地之前需要解决的问题。

大语言模型的基本工作原理，是将所有问题都转化为一个概率模型，以语言模型的方式进行下一个单词预测。这种单一的机制不太可能从本质上解决逻辑推理和常识推理、任务分解与规划、因果关系理解等复杂问题。最近发表在《自然》杂志上的一篇论文标题是：“语言是交流工具而非思维工具”(Language is primarily a tool for communication rather than thought)。这篇论文通过神经科学实验指出，人类在使用语言进行交流、思考数学问题、决策或推理，或从事社会性活动时，大脑激活的区域各不相同。人脑的语言功能区域与负责思考的区域截然不同，所以语言并不等同于思维。鉴于大语言模型表现出的局限性，目前已经发展出许多辅助方法帮助大模型解决现实问题，这些方法集合在一起，逐渐演化成了今天我们所谈论的“智能体”。

当然，大语言模型仍然至关重要。它是一切发展的基础，但它还需要一些额外的功能。作为一个智能体，它需要认识到自己的角色和能力边界，要有一定的自我认知；它应该具有相应的记忆机制来帮助形成思维闭环，实现短期记忆与长期记忆的相互转换；它应该有能力将复杂的任务拆分，规划成更小、更简单的任务；它还应该具有主动感知能力、调用工具和知识库的能力，如图2所示。所有这些附加功能都与上述大模型的局限性相呼应：知识库扩展了大模型的领域知识，同时避免了幻觉问题，记忆机制帮助它形成闭环反馈以便于纠错，因果推理让它掌握因果关系，复杂任务分解规划赋予大模型理性思维。

以上我们所做的，是在为大模型添加一些额外的能力，使其变得更加强大，但这更像是在大模型的基础上修修补补。这并不是一个完美的解决方案。我们在做研究时，都渴望找到一种优雅精妙且易于理解的解决方案。因此，我提出一个问题供大家思考：与其修修补补，我们能否找到一种更精巧的方法，将不同的算法分支整合到一起完善大模型，甚至让它变得更好？基于神经网络的方法可能远远不够，人工智能还有许多其他分支，各有其功能，我们需要找到一种方法将它们有机地结合起来，实现更好的效果。

混合式数据

大模型使用海量数据进行训练，数据的规模和质量至关重要。一般情况下，我们使用真实数据进行训练，然而合成数据有时或许更为有效。我们面临两个问题，首先是数据不够用。对于大语言模型训练而言，研究机构Epoch AI研究表明，到2026年互联网上的高质量数据将被耗尽。其次，有些重要数据，尤其是极端案例数据，收集起来异常困难。100万条数据中，真正有意义的可能只有几条，比如自动驾驶发生事故之前的那条数据，以及100万个产品中唯一一个次品的数据。这种有用的数据非常难收集。为解决这些问题，我们需要一种真实数据和合成数据的混合模式。

合成数据的作用有时更为强大。以特斯拉为例，其研究人员通过生成合成数据模拟不同的路况和天气条件，从而训练出更安全的自动驾驶算法。特斯拉训练时需要的不同情景，如繁忙的十字路口、极端天气、下雨、浓雾等各种情况都可以模拟。正是这些合成数据，使其能够更高效地训练算法，让自动驾驶汽车实现更加安全的行驶。此外，OpenAI虽然并未公开过使用何种数据训练Sora，但很多研究人员猜测，他们很可能借助了一些游戏引擎产生的合成数据进行训练。

最近，很多大语言模型也开始利用合成数据辅助训练（见图3），并且跨越了大语言模型的三个训练阶段。例如，在预训练阶段（pre-training），微软推出的Phi系列模型利用GPT-4对来源于网络的数据做质量过滤，利用GPT-3.5生成代码类题目的内容，以这种方式生成教科书级别的高质量训练数据。在监督微调阶段（supervised fine-tuning），Llama 3完全没有使用人工标注数据，仅依靠从Llama 2获得的合成数据，它的技术报告里详述了对于代码、数学、多语言以及工具使用等细分问题的不同的数据合成策略。在对齐阶段（alignment），Meta和纽约大学研究团队在今年年初发表了一篇引人注目的论文，他们开发了一个能够自我评价回复质量的模型——自我奖励语言模型（self-rewarding language models）。该模型可以生成新的训练数据，对生成的回复进行质量评分，从而不断改进自己的输出，让大语言模型在迭代训练过程中不断自我改进。

但是这里仍有一个潜在的问题，即这种方式是否会引发类似“疯牛病”的现象？疯牛病的起因是饲料里有疯牛病病毒。上述的整个迭代过程看起来很完美，并且模型性能确实有所提高，但在缺乏人为指导和纠正的情况下，如何确保这个自我评价、自我奖励的过程会朝着正确且合理的方向继续发展？这是一个需要我们思考的问题。

混合式计算

随着深度学习和大模型的发展，异构计算正变得越来越普及，我们已然迈入了一个异构计算的时代。除了CPU之外，还有GPU、TPU、NPU、FPGA等多种计算单元。为了满足不同的计算需求，这些芯片各自具备特定的功能。以前仅靠CPU执行通用计算任务，后来科学计算领域发展出高性能计算（HPC）的工作负载，而现在人工智能的工作负载更为普遍。目前人工智能应用大量依靠神经网络方法，计算主要涉及矩阵乘法和矩阵加法，我们该如何进行优化？中国信息通信研究院预测，从2023年到2030年，通用计算的工作负载将增长8倍，高性能计算的工作负载将增长10倍，而人工智能计算的工作负载将激增近百倍，我们正置身于这种新的异构计算环境中。

我们需要明确如何高效地执行这些计算任务。其实算力并不是人工智能应用的唯一瓶颈。许多大语言模型的训练和推理都受到内存容量以及内存与计算单元之间带宽的限制，导致处理器的利用率不高，我们称之为“内存墙”。为了寻找解决之道，下面将举几个例子来说明可以采取怎样的方法实现高效的异构计算。

如今，许多大模型都是在公有云上运行。它们不可能安装在手机上，手机没有足够的算力和内存。但我们可以设计一种巧妙的方式，让大语言模型能够适配手机等移动设备。为了降低内存占用量，我们利用大模型在推理时稀疏激活的特性，把网络中的神经元分成冷热两种，将近期频繁激活的“热神经元”放置在运行内存中，而“冷神经元”只有在被预测激活的时候，才会被装进内存。对于手机算力不足的问题，我们可以利用预填充阶段（prefill）和解码阶段（decoding）的不同特点高效利用不同计算单元。预填充阶段会一次性处理多个词元（token），并且大部分神经元都处于激活状态，这时可以利用NPU做大矩阵计算。解码阶段每次只生成一个标记，计算具有较高的稀疏性，因此可以利用CPU灵活执行计算。

在服务器方面，联想的团队正在研究为满足企业人工智能和高性能计算工作负载需求的可扩展异构计算平台的架构。该平台的核心是Super POD，它是基本的计算节点。多个Super POD通过多级交换机进一步连接，以扩展出更强的计算能力。Super POD通过汇集一系列异构的领域特定加速器（DSA），为AI/HPC任务建立强大且可扩展的计算基础设施，如图4所示。Super POD内部DSA组合满足了不同AI/HPC工作负载的多样化计算需求。在Super POD内部，所有异构DSA通过高性能的联想DPU增强型互联（LDI）技术相互连接。联想DPU进行智能路由、数据压缩、负载均衡、网络内计算等优化，有效地缓解了随着Super POD规模增加而遇到的互联瓶颈问题。一个典型应用是大规模向量检索，它是搜索引擎、图像检索、人脸识别、推荐系统、大模型的检索增强生成（RAG）中的核心模块。在RAG中，不同性质的计算应该分配到不同的硬件上执行。例如，在GPU中执行大模型推理，在FPGA中执行向量检索，同时将所有向量数据存储在扩展内存池中。所有这些设计都会让服务器端的计算任务更加高效。

在CPU之后，出现了各种各样针对特定领域的专用加速芯片，让计算机体系结构显得庞杂。一个值得我们思考的问题是，为了更好地支持大语言模型的训练和推理，应该如何设计新的计算机体系结构？我们现在使用的个人电脑架构，40年来都没有发生太大的变化，但40年前是通用计算的时代，当下已经进入了人工智能计算时代，是否能找到更高效的计算机体系结构？

混合式架构

混合式系统架构主要涉及云、边、端三者的协同。目前大多数大语言模型系统部署在公有云上。这些大模型规模庞大、功能强大，但同时也有一系列问题和局限性，它们消耗巨大的运行内存，同时能耗问题也日益显著。在云侧，除了高昂的运营成本，数据安全和用户的隐私保护也是我们必须面对的挑战。对此，联想集团采取了一种混合式策略来应对这些问题。我们将大模型划分为三种类型：部署在云侧的大模型利用公开数据训练，进行开放域的知识问答和解决通用任务；部署在边缘侧的大模型利用企业私有数据和业务知识进行训练，为私域业务运营提供定制服务；部署在设备侧的大模型，比如个人电脑或手机上，针对常用个人日常任务进行裁剪，让模型“瘦身”，以便在设备上流畅运行。基于这三类大模型构建相应的智能体，即公共智能体、企业智能体、个人智能体。在这三种智能体之上是用户入口，我们推出了Lenovo AI Now和联想小天，可以与多种智能体协作完成各种用户任务。在大模型和智能体的底层是智算平台，提供异构计算、云边端协同、资源管理等服务，如图5所示。

结论与展望

前面提到的诸多挑战都指向了人工智能的三大核心要素：算法、数据和计算。对于这三者，我们可能需要采用混合方法来应对。而除了这些基础要素外，混合式系统架构同样不可或缺，即云、边、端之间的协同合作。

虽然上述混合方法能够在一定程度上解决人工智能落地的问题，但它并不是万能的。从算法层面看，我们期望算法既准确又稳健。从工程角度看，我们需要工程可行、运行系统可靠。从应用场景的角度看，我们希望解决方案能够根据特定场景灵活调整，以适应实际需求，同时希望方案具有较强的扩展性，能够轻松实现从一种场景到另一种场景的迁移。从道德合规层面，我们希望人工智能负责任、可解释，但当前主流方法神经网络是个黑盒子，工作机理不透明，缺乏可解释性。从商业角度考虑，我们希望人工智能应用能够获得较高的投资回报率。

总结来说，为了让人工智能在现实世界中更好地落地，我们需要采用混合式理念解决算法、数据、计算和架构等方面的挑战。同时，我们还需要关注大模型的准确性、稳健性、可行性、可靠性、可扩展性以及它自身的可解释性和商业回报等方面。基于上述问题，发展人工智能还有很长的路要走。

芮勇

CCF会士。欧洲科学院外籍院士、ACM/IEEE/IAPR/SPIE Fellow。联想集团高级副总裁、联想集团最高决策机构（LEC）成员。主要研究方向为人工智能、多媒体计算、机器学习及应用等。

yongrui@lenovo.com

CCF推荐

【精品文章】

Michael Jordan：关于人工智能的集体主义愿景|CCCF精选
梅宏：对当前人工智能热潮的几点冷思考|CCCF精选

点击“阅读原文”，加入CCF。