端侧大模型综述On-Device Language Models: A Comprehensive Review

浮生若梦ん

1775人浏览 · 2025-04-17 16:51:46

浮生若梦ん · 2025-04-17 16:51:46 发布

此为机器翻译，仅做个人学习使用

(2024-09-14) On-Device Language Models: A Comprehensive Review (设备端语言模型：全面回顾)


作者: Jiajun Xu; Zhiyuan Li; Wei Chen; Qun Wang; Xin Gao; Qi Cai; Ziyuan Ling;
期刊: （发表日期: 2024-09-14）
期刊分区:
本地链接: Xu 等 - 2024 - On-Device Language Models A Comprehensive Review.pdf
DOI: 10.48550/arXiv.2409.00088
摘要: The advent of large language models (LLMs) revolutionized natural language processing applications, and running LLMs on edge devices has become increasingly attractive for reasons including reduced latency, data localization, and personalized user experiences. This comprehensive review examines the challenges of deploying computationally expensive LLMs on resource-constrained devices and explores innovative solutions across multiple domains. The paper investigates the development of on-device language models, their efficient architectures, including parameter sharing and modular designs, as well as state-of-the-art compression techniques like quantization, pruning, and knowledge distillation. Hardware acceleration strategies and collaborative edge-cloud deployment approaches are analyzed, highlighting the intricate balance between performance and resource utilization. Case studies of on-device language models from major mobile manufacturers demonstrate real-world applications and potential benefits. The review also addresses critical aspects such as adaptive learning, multi-modal capabilities, and personalization. By identifying key research directions and open challenges, this paper provides a roadmap for future advancements in on-device language models, emphasizing the need for interdisciplinary efforts to realize the full potential of ubiquitous, intelligent computing while ensuring responsible and ethical deployment. For a comprehensive review of research work and educational resources on on-device large language models (LLMs), please visit https://github.com/NexaAI/Awesome-LLMs-on-device. To download and run on-device LLMs, visit https://www.nexaai.com/models.

1 摘要

大型语言模型（LLM）的出现彻底改变了自然语言处理应用程序，由于减少延迟、数据本地化和个性化用户体验等原因，在边缘设备上运行 LLM 变得越来越有吸引力。本综述探讨了在资源受限的设备上部署计算成本高昂的 LLM 所面临的挑战，并探讨了跨多个领域的创新解决方案。本文研究了设备端语言模型的开发、其高效架构（包括参数共享和模块化设计）以及最先进的压缩技术，如量化、修剪和知识蒸馏。分析了硬件加速策略和协作边缘云部署方法，突出了性能和资源利用率之间的复杂平衡。来自主要移动制造商的设备端语言模型的案例研究展示了实际应用和潜在优势。该审查还涉及自适应学习、多模式功能和个性化等关键方面。通过确定关键研究方向和开放挑战，本文为设备语言模型的未来发展提供了路线图，强调了跨学科努力的必要性，以实现无处不在的智能计算的全部潜力，同时确保负责任和合乎道德的部署。有关设备端大型语言模型（LLM）的研究工作和教育资源的全面回顾，请访问 https://github.com/NexaAI/Awesome-LLMs-On-Device。要下载和运行设备端的 LLM，请访问 https://www.nexaai.com/models。

2 引言

大型语言模型（LLM）的出现催化了自然语言处理（NLP）应用程序的变革性转变。通过利用 transformer 架构（Vaswani et al.， 2017），OpenAI 的 GPT 系列等 LLM（Radford et al.， 2019;Brown et al.， 2020;Achiam等人，2023 年）和 Meta 的 LLaMA 系列（Touvron等人，2023a;b;Meta，2024 年;Dubey et al.， 2024）在理解和生成类似人类的文本方面表现出无与伦比的熟练程度，对从自动化客户支持到高级内容创建等领域产生了深远的影响。这些模型无缝执行各种NLP任务的能力使它们成为现代人工智能驱动应用程序的支柱(Wu et al., 2023b; Ge et al., 2024; Nam et al., 2024; Zheng et al., 2024a; Yang et al., 2024b).

但是，主要在云服务器上部署 LLM 的传统部署存在一些挑战，尤其是在延迟、安全性和持续 Internet 连接的需求方面。这些担忧推动了人们对在边缘设备上部署 LLM 的兴趣日益浓厚，这一转变有望缩短响应时间，并直接在智能手机、汽车系统和个人可穿戴设备等用户设备上提供个性化的用户体验。这种范式转变不仅符合用户对即时和个性化帮助日益增长的需求，而且还降低了与云计算相关的带宽和能源成本。
![[Pasted image 20250416191411.png]]

对设备端 AI 部署的兴趣日益浓厚，这反映在快速扩张的边缘 AI 市场中。如图 1 所示，从 2022 年到 2032 年，边缘 AI 市场将在各个领域出现大幅增长。市场规模预计将从 2022 年的 152 亿美元增加到 2032 年的 1436 亿美元，十年内增长近 10 倍（Market.us，2024 年）。这种增长跨越多个行业，其中制造业、汽车和政府部门做出了重大贡献。预计的市场扩张突显了对边缘 AI 解决方案（包括设备端语言模型）的需求不断增长，这是由于各种应用程序对更快、更私密和高效的 AI 功能的需求所推动的。这一市场趋势与向更本地化的 AI 处理的技术推动相一致，进一步强调了开发高效的设备端 LLM 解决方案的重要性。

尽管具有引人注目的优势，但在边缘设备的约束下集成计算密集型语言模型会带来重大挑战。主要障碍包括计算能力有限、内存容量减少和能源限制，这些因素共同使直接采用基于云的 LLM 架构变得复杂。例如，在智能手机上执行最先进的4050亿个参数模型（Dubey et al., 2024）在模型性能和能源效率方面没有实质性的妥协是不可实现的。
![[Pasted image 20250416191518.png]]

本综述全面探讨了在边缘设备上部署 LLM 的当前策略和进展。我们的目标是批判性地分析为使 LLM 适应边缘计算的约束而开发的各种技术和架构。这包括对模型压缩技术、节能计算策略和新型轻量级模型架构开发的详细研究。此外，本文将深入探讨在边缘场景中有效使用 LLM 的部署策略，重点介绍关键的行业应用和由此产生的好处。通过这篇评论，我们打算阐明从基于云的语言模型过渡到设备端语言模型的途径和挑战，为这种转变如何重新定义应用程序和 AI 可访问性的前景提供见解。该论文的结构如图 2 所示。我们首先探讨了第 2 节的基础和初步内容，包括 LLM 在设备上的演变、架构基础和设备端训练技术。第 3 节深入探讨了设备端语言模型的高效架构，讨论了创新的设计原则、模型压缩和协作方法。第 4 节继续深入研究模型压缩和优化技术，包括量化、修剪、知识蒸馏和低秩分解。第 5 节研究了硬件加速和部署策略，重点介绍了流行的设备端 LLM 框架和特定于硬件的优化。为了将这些进步置于上下文中，在第 6 节中，我们展示了现有的设备端语言模型及其在各个领域的实际应用的示例。最后，第 7 节讨论了该领域的未来方向和公开挑战，第 8 节总结了我们的回顾。通过关注 LLM 能力和边缘计算需求的交叉点，本文为 AI 研究中正在进行的讨论做出了贡献，为在资源受限的环境中实现模型性能和计算效率之间的微妙平衡提供了全面的视角。

3 基础和预备

3.1 设备端 LLM 的演变

设备端 LLM 的演变是一个与技术进步密切相关的过程。图 3 提供了自 2023 年以来设备端语言模型开发的全面时间表，说明了该领域的快速发展。如图所示，对边缘大型语言模型的探索和实验于 2023 年正式开始。我们看到了几个参数低于 10B 的有影响力的模型系列的出现，使 LLM 可以在边缘设备上运行。值得注意的例子包括：
![[Pasted image 20250416191916.png]]

此外，还有 TII 发布的 Falcon（Almazrouei et al.， 2023）和 Mosaic ML 发布的 MPT 模型（MosaicML，2023）等模型都参与了此类模型的竞争。尽管这些小参数模型的性能不如传统的大参数模型，但它们使 LLM 可以在边缘设备上运行。它们的出现标志着语言模型行业对使用 LLM 的边缘设备应用场景的重要性。同时，随着混合专家、量化和压缩等技术的应用，小参数模型的性能在保持参数体积的同时不断取得长足进步。

![[Pasted image 20250416192012.png]]

图 3 还强调了自 2023 年以来多模态模型的出现，例如 LLaVa 系列（Liu et al.， 2024a;b）、QwenVL（Bai等人，2023b）、Gemini Nano（团队等人，2023 年）和 Yi VL（Young等人，2024 年）。这些模型代表了在边缘部署多模式 LLM 的宝贵尝试，以适应移动设备上更复杂和不断变化的用户场景。

进入 2024 年，创新步伐加快，从图最右侧密集的新车型集群中可以明显看出。这一时期引入了：

![[Pasted image 20250416192052.png]]

图 3 清楚地表明，2024 年人们更加关注多模态功能，许多新模型同时提供文本和多模态功能，以应对不同的任务处理场景。正如模型的多样性和发展所表明的那样，设备上的语言模型正在迅速发展和多样化。这一趋势，加上智能硬件和软件技术的不断成熟，使这些模型能够集成到智能手机、联网汽车、计算机、机器人和其他终端设备中，展示其不断增长的应用潜力和价值。

3.2 LLM 架构基础

传统的基于文本的 LLM： 让我们从一切开始的地方开始。Transformer 是一种基于注意力机制的深度学习模型（Vaswani et al.， 2017），广泛用于处理顺序数据，尤其是在自然语言处理任务中。它由两部分组成：编码器和解码器。如今，流行的大型语言模型主要使用纯解码器架构（Fu et al.， 2023），代表GPT（Generative Pre-trained Transformer）、LLaMA（Large Language Model Meta AI）等模型。GPT 模型由多个解码器层组成（Radford等人，2018 年;2019 年;Brown et al.， 2020），每个解码器层都由一个自我注意机制组成。GPT模型还在每个子层之后应用层归一化（Floridi & Chiriatti，2020）。相比之下，LLaMA 应用了归一化（Ioffe & Szegedy，2015 年;Zhang & Sennrich， 2019;Xiong et al.， 2020），这有助于提高训练过程的稳定性（Touvron et al.， 2023a）。在注意力机制的应用方面，GPT 模型使用标准的自注意力机制，允许模型在生成序列时考虑来自输入序列中所有位置的信息，而 LLaMA 使用组查询注意力（GQA）（Ainslie et al.， 2023），这是一种优化技术，可以减少模型的计算和内存占用并提高效率。
MoE （Mix of Expert）概念起源于 1991 年（Jacobs et al.， 1991），在当今的语言模型预训练中起着关键作用。它支持高效的预训练，使用比密集模型所需的计算资源少得多的计算资源。该机制由两个关键组件组成：一个包含许多“专家”的稀疏 MoE 层，每个专家本身就是一个独立的神经网络（Shazeer et al.， 2017;Chen et al.， 2022;Du et al.， 2022）;以及门控网络或路由：该组件用于确定将哪些 tokens 发送到哪个 Expert Model 进行处理。架构用MoE层替换了传统Transformer模型中的每个前馈网络（FFN）层，MoE层由两个核心组件组成：一个门控网络和一些专家（Masoudnia & Ebrahimpour，2014）。
多模态 LLM： 借助 Transformer 强大的学习架构，大型多模态模型可以同时处理多种不同的模态，例如文本、图像、声音、数据表等（Xie et al.， 2024;Wu et al.， 2023a）。其内部作机制如下：
1. 使用标准的交叉注意力层在模型内部层进行多模态输入的深度融合（如 MultiModal-GPT （Gong et al.， 2023））
2. 使用定制设计的层在模型内部层进行多模态输入的深度融合（LLaMA-Adapter （Zhang et al. （2023a））， MoE-LLaVa （Lin et al. （2024a）））
3. 使用特定于模态的编码器（LLaVa （Liu et al.， 2024b）， Qwen-VL （Bai et al.， 2023a））在模型的输入阶段进行多模态输入的早期融合 D）在输入阶段进行早期融合，但使用分词化技术（如分词器）来处理模态（Wadekar et al.， 2024）。

3.3 设备上 LLM 训练

在资源受限的设备上部署大型语言模型（LLM）会带来内存和计算能力受限等挑战（Loukas 等人（2023 年））。为了解决这些问题，协作和分层模型方法通过分配计算负载和利用具有不同功能的模型来提供创新的解决方案。

在资源受限的设备上进行训练的经典方法包括：

量化感知缩放：通过自动缩放不同位精度张量的梯度来稳定训练过程，解决量化图中不同位宽张量梯度尺度不一致的问题，使量化模型的训练精度与浮点模型相当（Nagel et al.， 2022;Huang et al.， 2024a）。
稀疏更新：选择性地更新网络中一部分层的权重，跳过不太重要的层和子张量的梯度计算，从而减少内存使用和计算成本（Liu et al.， 2023;Ansell et al.， 2024）。
微型训练引擎（TTE）：在反向图中包含冗余节点，例如冻结权重的梯度节点，以及重新排序作以实现就地更新（Lin et al.， 2023a;Khouas et al.， 2024）。
贡献分析：自动确定稀疏更新方案，即确定哪些参数（权重/偏差）对下游精度贡献最大，从而选择在有限的内存预算下应该更新张量的哪些层或部分（Lin et al.， 2022;任 et al.， 2024;Zeng et al.， 2023a）。

3.4 基于云的 LLM 推理的局限性和设备端推理的优势

LLM 的边缘-云（本地-远程）协作部署是首选，而现有的纯云（仅远程）（例如 ChatGPT）不是一个被广泛接受的解决方案。如图 4 所示，88% 的参与者更喜欢边缘云协作架构，58.33% 的参与者支持本地部署，81.82% 的参与者对现有的纯云解决方案不满意。他们主要关注的是 1）远程 LLM 服务的高延迟，2）将个人数据传输到云的风险，以及 3）基于云的 LLM 服务的成本（Li et al.， 2024c）。

![[Pasted image 20250416192815.png]]

尽管基于云的 LLM 提供了强大的功能，但它们也存在一些缺点，包括潜在的延迟问题（Wang et al.， 2024b）和由于依赖网络而导致的数据问题。因此，通过边缘计算的设备上部署的概念已经出现，以减少延迟和保护用户数据（Gerganov, 2023）。处理在本地进行，消除了数据传输的需要。此外，移动设备上定制硬件加速器的激增使得直接在设备上运行具有数十亿个参数的大型llm成为可能。

设备上推理为减少延迟提供了一个令人信服的案例，因为它允许模型直接在用户的设备上运行，而无需将数据发送到云服务器。此方法对于需要实时响应的应用程序特别有用。在基于云获取响应的 GPT-4 的情况下，每个token的生成速度约为 200 毫秒，而常见的端侧模型已经可以比这更快地生成token（taivo，2023 年）。

离线运行模型的能力减少了对网络连接的依赖，使应用程序在网络覆盖较差的区域或其他离线环境中更易于访问。例如，Google 基于 Gemini Nano 的 TalkBack 功能使用多模态功能来识别图像内容，为残障人士提供语音广播，即使在完全离线的情况下也可以正常工作（Google，2024b）。设备上推理还通过模型量化等技术优化了有限计算资源的使用，使语言模型即使在内存有限的设备上也能高效运行。

用户友好的界面进一步促进了 LLM 在移动设备上的部署，这些界面抽象了 AI 的复杂性，使没有专业知识的用户也能使用该技术。此外，这些应用程序不仅限于文本生成，还可以通过创新的文本到作功能扩展其功能以与设备功能交互，例如拨打电话、进行网络搜索和管理日历事件。

3.5 设备上的 LLM 的性能指标

延迟是从用户输入请求到系统开始响应所花费的时间。它通常是指从模型收到输入文本到开始生成第一个输出的时间。我们通常使用 TTFT（Time-to-First-Token）来衡量这个指标(Hu et al., 2024a; Agrawal et al., 2024b;a).

推理速度是指 LLM 根据到目前为止看到的所有先前标记对下一个标记进行自回归预测的速度。但是，除了初始提示解码之外，推断下一个 Token 还需要一次解码一个 Token 的逻辑。这是因为每个新 Token 都依赖于之前的 Token，而之前的 Token 无法提前知道。这一步在大型语言模型的推理中占用的时间最多。正因为如此，这一步的速度，主要会决定用户对话模式是否流畅，从而直接影响用户体验（C ̧ ̈oplu ̈ et al.， 2023;Cai et al.， 2024a;Zheng et al.， 2024b）。

使用的 RAM/VRAM 大小也是语言模型运行的性能指标之一。由于语言模型的运行机制，在推理时会根据模型参数的大小消耗相应的 RAM。例如，在个人办公笔记本电脑上部署具有 70B 参数的模型是不切实际的。这对于许多 RAM 大小有限的边缘设备至关重要。工程师必须使用各种模型压缩技术来最大限度地减少语言模型推理占用的内存（Kwon et al.， 2023;Zhao et al.， 2024b;c).

此外，例如，模型占用的存储空间和推理过程中消耗的能量将成为边缘设备上的重要指标。这些指标对于 LLM 是否可以在边缘设备上运行以及它们可以运行多长时间尤为重要。在大多数情况下，LLM 推理将使处理器进入完全加载的工作状态。如果作时间过长，会严重消耗移动设备的电池，从而带来新的问题。例如，一个 7B 参数的 LLM 推理将消耗每个token大约 0.7J。对于电池容量约为 50kJ 的 iPhone，这意味着与模型的对话最多只能持续两个小时。这没有考虑到其他问题，例如模型推理引起的设备发热(Liu et al., 2024c; Stojkovic et al., 2024; Jiang et al., 2024b).

4 设备上 LLM 的高效架构

4.1 设备上 LLM 的架构设计原则和创新

为设备上部署设计语言模型涉及多项架构原则和创新，旨在克服移动和边缘设备典型的资源限制。关键策略包括 1）参数共享（Lin et al.， 2023b;Cao等人，2024 年），这涉及在模型的不同部分重复使用权重以减少整体参数数量;2）模块化架构（Ning et al.， 2023;Ostapenko 等人，2024 年;Shen et al.， 2024），将 LLM 分解为更小的、独立的组件或模块，这些组件或模块可以单独或并行处理;3）紧凑表示，专注于通过量化和权重修剪等技术减少 LLM 的内存占用（Liu et al.， 2024c;Zhang et al.， 2024b;Xu et al.， 2023）。为了对这些架构进行全面比较，我们考虑了它们的性能、计算效率和内存要求，表 1 中总结了这些内容。

![[Pasted image 20250416193157.png]]

4.2 模型压缩和参数共享

在资源受限的设备（如智能手机和边缘设备）上高效部署 LLM 通常需要在不显著牺牲性能的情况下减小模型大小。模型压缩和参数共享技术在实现这种平衡方面起着关键作用。本节回顾了通过创新的压缩和参数共享方法优化sub-billion参数llm的关键研究工作。

Lin et al. （2024b）引入了一种新的仅权重量化方法，该方法侧重于权重在 LLM 中的重要性。AWQ 保护了一小部分关键权重（0.1%-1%），减少了量化损失并保持了 LLM 在不同领域和模态中的泛化能力。与传统方法不同，AWQ 不需要反向传播或重建，因此可以保持效率和性能。拟议的 TinyChat 推理框架实现了 AWQ，在桌面和移动 GPU 上实现了比传统 FP16 实现更快的速度（高达 3×）。

MobileLLM 通过提出一种针对低于1 0 亿个参数计数优化的深度和精简架构，解决了移动设备上对高效 LLM 的需求（Liu et al.， 2024c）。这种方法挑战了模型越宽越好的普遍看法，表明深而薄的结构可以有效地捕获复杂的模式。关键技术包括嵌入共享、分组查询注意力和分块立即权重共享。与以前的先进模型相比，MobileLLM 的精度显著提高（例如，125M 和 350M 模型的精度分别提高了 2.7% 和 4.3%）。增强版 MobileLLM-LS 进一步提高了准确性，同时保持了较小的模型尺寸，使其成为设备端应用的理想选择。

AWQ 和 MobileLLM 都展示了模型压缩和参数共享技术在使 LLM 在移动和边缘设备上部署的可能性。AWQ 专注于权重量化以减小模型大小并提高推理速度，而 MobileLLM 则强调架构优化和权重共享，以创建高效的十亿以下参数模型。这些创新对于在资源受限的环境中提高 LLM 的性能和可访问性至关重要，在不影响准确性或效率的情况下在个人设备上实现高级 AI 功能。

4.3 协作和分层模型方法

在资源受限的设备上部署语言模型面临重大挑战，例如内存和计算能力有限。协作和分层模型方法提供了创新的解决方案，通过分配计算负载和利用具有不同功能的多个模型来克服这些限制。本小节回顾了实施协作和分层策略以提高设备上 LLM 的效率和可扩展性的关键研究工作。

EdgeShard 引入了 EdgeShard 框架，该框架将大型 LLM 划分为较小的段（分片），并战略性地将它们分布在边缘设备和云服务器之间（Zhang et al.， 2024b）。此方法通过同时利用多个设备的计算能力来减少延迟并提高吞吐量。动态编程算法可优化分片放置，平衡计算负载并最大限度地减少通信开销。实验结果表明，与传统的基于云的方法相比，延迟降低（高达 50%）和吞吐量增强（高达 2×）都有显著改善。

LLMCad 提出了一种新颖的推理引擎，它将更小、驻留在内存中的 LLM 与更大、更准确的 LLM 相结合（Xu et al.， 2023）。较小的 LLM 生成候选token，而较大的 LLM 验证和更正这些token。这种“先生成后验证”的方法利用了较小模型的效率，并保持了较大模型的准确性。LLMCad 引入了多种技术，包括token树生成和验证、自适应回退策略和推测生成管道。这些创新使 LLMCad 能够在不影响准确性的情况下实现高达 9.3× 的token生成速度，使其适用于移动设备上的实时应用程序。

WDMoE 提出了一种在无线通信系统中部署 LLM 的新范式（Xue et al.， 2024a）。通过执行 MoE 层分解，可以部署基站的门控网络，并在移动设备上分配专家网络，以优化性能并减少延迟。此外，提出了专家选择策略，根据无线信道条件动态调整专家选择，以保证性能最优。

协作和分层模型方法（例如 EdgeShard 和 LLMCad 中提出的方法）为在资源受限的设备上部署 LLM 的挑战提供了有效的解决方案。通过在多个设备之间分配计算负载并使用较小的模型进行初步任务，这些方法提高了 LLM 推理的可扩展性和效率。EdgeShard 框架展示了协作边缘云计算的优势，而 LLMCad 展示了分层模型协作在保持准确性和提高推理速度方面的潜力。这些方法对于在移动和边缘设备上启用高级 AI 功能、提供实时性能和高效资源利用率至关重要。

4.4 内存和计算效率

高效的内存和计算资源利用率对于在移动设备和边缘设备上部署大型语言模型（LLM）至关重要。各种技术和创新旨在优化有限资源的使用，以确保 LLM 能够有效执行而不会压倒设备的功能。本小节回顾了专注于提高设备上 LLM 的内存和计算效率的关键研究工作。

三星电子的研究人员提出了创新的内存解决方案，以解决 LLM 部署中的内存瓶颈（Kim et al.， 2024c）。作者介绍了Processing-in-Memory (PIM) and Processing-near-Memory (PNM) 技术：

Aquabolt-XL （Kim et al.， 2021）和 LPDDR-PIM （Kim et al.， 2024a）：这些 PIM 器件将逻辑嵌入到内存内核中，从而提高内部内存带宽并支持高性能计算任务，包括 LLM 加速。AXDIMM （Ke et al.， 2021）和 CXL-PNM：这些 PNM 解决方案将计算逻辑放置在内存内核附近，从而提高了内存带宽和容量。CXL-PNM 将计算逻辑集成到 CXL 内存控制器中，显著提高了内存容量和性能。实验结果表明，与传统内存架构相比，这些内存解决方案的性能提高了 4.5×，能耗降低了 71%，非常适合在资源受限的设备上进行 LLM 推理。

MELTing Point 引入了 MELT 基础设施，旨在促进在移动设备上执行和基准测试 LLM（Laskaridis 等人，2024 年）。MELT 框架支持 Android、iOS 和 Nvidia Jetson 设备，并提供详细的性能和能源指标。MELT 系统地评估设备上的 LLM 执行情况，从而深入了解各种模型的性能、能效和内存使用情况。该论文研究了模型量化对性能和准确性的影响，表明虽然量化降低了内存需求，但它会产生准确性成本。结果强调了平衡内存和计算效率与性能的重要性，以使 LLM 适用于移动应用程序。

内存和计算效率对于在移动和边缘设备上部署 LLM 至关重要。本小节回顾的研究工作提出了克服内存墙和优化资源使用的创新解决方案。三星的内存解决方案（如 PIM 和 PNM）显著提高了内存带宽和容量，从而实现了高效的 LLM 推理。MELT 基础设施提供了一个全面的评估框架，为性能、能效和内存使用之间的权衡提供了有价值的见解。这些进步对于确保 LLM 能够在资源受限的设备上有效运行至关重要，为移动和边缘环境中更实用、更高效的 AI 应用铺平了道路。

4.5 混合专家（MoE）架构

Mixture-of-Experts （MoE）架构通过利用稀疏激活和动态路由来提高效率，为在边缘设备上部署 LLM 提供了一种很有前途的方法。本小节回顾了主要研究工作，重点关注基于 MoE 的模型，这些模型旨在优化设备部署中的性能和资源利用率。

EdgeMoE 引入了一个框架，旨在在边缘设备上高效执行 MoE 模型（Yi et al.， 2023）。作者提出了 Expert-wise Bitwidth Adaptation，以使用每通道线性量化来减小专家权重的大小，同时将精度损失降至最低。通过利用新颖的专家管理方法，他们将专家权重预加载到计算 I/O 管道中，以减少 I/O 交换开销。实验结果表明，与基线解决方案相比，内存节省和性能显著提高，推理速度提高了 2.78×。

LocMoE 引入了路由策略和通信优化方案，以提高训练基于 MoE 的 LLM 的效率（Li et al.， 2024b）。采用 Orthogonal Gating Weights 方法降低计算成本并促进显式布线决策。此外，他们还引入了基于地方的专家正规化，以鼓励当地专家参与竞争，减少沟通时间并避免培训不足。它们还包括 Group-Wise All-to-All 和 Communication Overlap，通过将计算与通信重叠来掩盖延迟，从而优化 All-to-All作。

Yin et al. （2024）提出了 LLMaaS 范式，将大型语言模型作为系统服务集成到移动设备上。在他们提议的设计中，Stateful Execution 允许系统在多次调用中维护持久状态（KV 缓存）以提高性能。统一接口通过将 LLM 及其基础结构作为系统功能公开给移动应用程序来帮助减少内存使用量。他们还引入了分块 KV 缓存压缩和交换等技术，以最大限度地减少上下文切换开销。

JetMoE 提出了一种使用稀疏门控混合专家（SMoE）架构进行大型语言模型训练的有效方法（Shen et al.， 2024）。作者将稀疏激活应用于注意力层和前馈层，在保持高性能的同时显著降低了计算成本。JetMoE-8B 使用 1.25T token和 30000 个 H100 GPU 小时以不到 10 万美元的成本进行训练，其性能优于 Llama2-7B，而 JetMoE-8BChat 超过了 Llama2-13B-Chat。与 Llama2-7B 相比，该模型的 8B 总参数（每个输入标记仅激活 2B）将推理计算减少了约 70%。

MoE 架构为在边缘设备上部署 LLM 的挑战提供了创新的解决方案。这些方法利用稀疏激活和动态路由来提高计算效率和资源利用率。

4.6 一般效率和性能改进

在边缘设备上实现 LLM 的高效部署涉及一系列策略，旨在提高整体性能，同时管理计算和内存限制。本小节回顾了引入创新方法以提高设备端 LLM 的效率和有效性的关键研究工作。

Any-Precision LLM 提出了一种新颖的方法，以节省内存的方式部署具有不同精度的各种 LLM（Park et al.， 2024）。Any-Precision 模型将 any-precision 深度神经网络扩展到 LLM，允许单个 n 位量化模型支持多个低至 3 位的较低位宽模型。这减少了内存使用量，而不会显著降低性能。训练后量化（PTQ）创建低位模型，并逐步将其放大到更高的位宽。这避免了每个精度的多个训练阶段，从而节省了时间和资源。针对任意精度支持优化的新软件引擎可管理内存带宽并提高服务效率，从而确保在边缘设备上实际部署 LLM。实验结果表明，它可以节省大量内存并提高服务效率，使任意精度 LLM 适用于各种设备端应用。

Yan et al. （2023）探讨了 LLM 在软硬件协同设计中的应用，以优化内存计算（CiM）深度神经网络（DNN）加速器的开发。LCDA 框架将 LLM 集成到硬件和软件的设计过程中，利用它们对各种数据集的广泛培训来加快协同设计。通过结合来自预训练llm的启发式知识，该框架绕过了冷启动问题，能够更快地收敛到最优解。与最先进的方法相比，该框架在设计过程中加速了25倍，同时在设计高效的DNN模型和硬件架构时保持了相当的性能水平。这种方法凸显了法学硕士在增强协同设计过程、提高高级人工智能应用软件和硬件效率方面的潜力。

一般效率和性能改进对于在边缘设备上实际部署 LLM 至关重要。本小节回顾的研究工作介绍了提高内存效率、计算速度和整体性能的创新方法。Any-Precision LLM 方法为部署具有不同精度的多个 LLM 提供了一种灵活且节省内存的解决方案，而 LCDA 框架展示了将 LLM 集成到协同设计过程中以优化软件和硬件的优势。这些进步有助于使 LLM 在资源受限的环境中更易于访问和有效，从而在移动和边缘设备上实现更广泛的 AI 应用程序。

5 设备上 LLM 的模型压缩和优化技术

在 LLM 领域，在保持性能的同时优化计算效率至关重要，尤其是在边缘设备上部署时。本节将介绍四种关键的模型压缩技术：量化、修剪、知识蒸馏和低秩分解。这些方法提高了 LLM 的运行效率，通过平衡性能、内存占用和推理速度来确保它们在设备上应用程序的可行性。

5.1 量化

神经网络中的量化是指将高精度（浮点）权重和激活转换为较低位宽（整数）的过程。这种技术大大减少了模型大小和计算需求，实现了更快的推理并减少了内存消耗，同时保持了准确性。

训练后量化（PTQ）：PTQ 在模型训练后应用，不需要重新训练，因此比量化感知训练（QAT）更快、资源密集度更低。有一些值得注意的 PTQ 方法。GPTQ （Frantar et al.， 2022）利用二阶信息进行误差补偿，有效地将位宽减少到每个权重 3 或 4 位。这种方法保持了高精度，并且困惑度的增加最小，使 OPT-175B 等语言模型能够在单个高端 GPU 上运行。激活感知权重量化（AWQ）（Lin et al.， 2024c）基于以下观察结果：一小部分（0.1%-1%）权重对 LLM 的性能至关重要。通过选择性地跳过这些显著权重的量化，AWQ 显著减少了量化损失。
1. 仅权重量化：在仅权重量化中，仅量化神经网络的权重。这种方法简化了量化过程，当激活范围没有显着变化或计算资源严重受限时，这种方法可能特别有效。（
2. 权重激活共量化：权重和激活都被量化，从而进一步降低了计算复杂性。由于高效的矩阵乘法（Dettmers et al.， 2022），这种方法在硬件实现中是有利的，这在神经计算中至关重要。BitNet b1.58（马 et al.， 2024）对每个参数使用三元量化 -1、0、1，显着增强了延迟、内存、吞吐量和能耗指标。
量化感知训练（QAT）： QAT 将量化直接整合到训练过程中，使模型能够从本质上适应降低的精度约束。这种集成通常会产生更高的后量化精度，因为模型在其训练阶段主动学习补偿潜在的量化误差。

5.2 剪枝

神经网络中的剪枝涉及选择性地删除权重或神经元，以降低复杂性并提高计算效率，而不会显著影响性能。此过程针对模型中不太重要的组件，侧重于效率和功能完整性。

结构化修剪：这种方法删除了整个参数子集，如层、通道或滤波器，由于更规则的内存访问模式和简化的计算，这对硬件优化有益。“LLM-Pruner”（Kaddour等人，2023 年）采用结构化修剪来消除基于梯度数据的非必要组，从而保持关键功能。它还通过 LoRA 等技术促进性能恢复，从而允许以最少的数据进行高效恢复。
非结构化修剪：与结构化修剪不同，非结构化修剪去除了整个模型中的单个权重，从而提供更精细的粒度和可能更高的压缩率（Li et al.， 2023a）。但是，这种方法通常会导致稀疏矩阵，这可能与传统硬件架构的兼容性较差，从而影响计算效率。它最适用于需要最大压缩而不受结构保护限制的情况。
上下文修剪：这种高级方法根据模型的作环境进行修剪，针对仅在特定条件或特定任务下相关的权重或神经元。上下文修剪可确保缩减与模型的运营需求动态一致，从而在最重要的地方保持性能。

5.3 知识蒸馏

知识蒸馏（KD）是一种将知识从大型计算密集型模型（教师）转移到更小、更高效的模型（学生）的技术。此方法对于将大型语言模型（LLM）的功能压缩为更易于管理的形式而不会显著影响性能至关重要。

黑盒知识蒸馏：这种方法涉及学生模型仅从教师模型的输出中学习，而无法访问其内部机制或参数。当教师模型的细节是专有的，或者当教师和学生模型的架构明显不同时，这一点尤其有利。例如，Gu 等人（2023 年）证明，黑盒 KD 可以仅使用 ChatGPT 等 LLM API 的输出数据有效地训练模型。学生模型训练以根据输入-输出对模拟教师的输出分配，这一过程虽然有效，但将学习限制在外部行为上，而不会挖掘教师更深层次的内心状态。
白盒知识蒸馏：相比之下，白盒知识蒸馏允许学生模型访问教师的内部状态和工作，从而促进更深入、更精确的学习过程。这种方法使学生不仅可以模仿输出，还可以模仿教师的内部状态分布，从而提高学习效率和深度。增加对教师详细工作的访问权限有助于指导学生的学习，从而产生更准确和强大的模型。但是，这种技术需要仔细调整模型架构，以确保有效的知识传递，并且通常实现起来更复杂。

5.4 低秩分解

低秩分解（Low-Rank Factorization：LRF）是一种用于将矩阵分解为较小组件的技术，可在不严重影响模型准确性的情况下显著降低计算复杂性。利用许多现实世界矩阵中普遍存在的固有低秩结构，LRF通过低秩因子的乘积促进了这些矩阵的逼近，这在图像处理、机器学习模型中的降维和数据压缩等应用中被证明是不可或缺的（Saha等人，2023）。这种方法不仅保持了基本的数据特性，还确保了高效的存储和处理，突出了它在现代计算任务中的关键作用。Yao 等人（2024b）的一项研究进一步扩展了其应用，将 LRF 与大型语言模型中的训练后量化（PTQ）相结合。这种创新方法称为低秩补偿（LoRC），通过显著减小模型大小和保持准确性来提高模型效率，从而有效减轻激活量化的不利影响。LRF 和 PTQ 的这种综合表明，在优化计算效率的同时，在复杂模型中保持性能完整性方面取得了重大进步。

6 硬件加速和部署策略

GPU、TPU 和专用 AI 芯片等硬件加速器通过提供强大的计算能力和高内存带宽，在实现 LLM 的高效设备端推理方面发挥着至关重要的作用。在 GPU、TPU、FPGA 和其他 AI 专用芯片之间进行选择时，需要仔细考虑涉及性能、功耗和成本的权衡。例如，GPU 因其并行处理能力而受到青睐，TPU 因其专门的矩阵运算而受到青睐，而 FPGA 因其针对特定任务量身定制的可定制硬件而受到青睐，这些硬件可以更加节能。软件-硬件协同设计方法（包括量化感知训练和模型压缩）进一步提高了效率，使 LLM 在从高功率服务器到低功耗边缘设备的一系列设备上都可行。参数共享和高级内存管理技术等优化策略对于减少 LLM 的占用空间至关重要，可确保在不同的计算环境中更快、更经济高效地进行部署。这些策略共同改进了 LLM 的部署和执行，满足各种应用程序需求和硬件限制。

6.1 流行的设备上 LLM 框架

LLM 的部署策略可能会因使用案例和可用基础设施的不同而有很大差异，从完全基于云的解决方案到仅边缘部署。

Edge-only
1. Llama.cpp
  - 描述： Llama.cpp （Gerganov， 2023）是一个 C/C++ 库，旨在在各种硬件平台上对大型语言模型进行高效推理。它支持整数量化、 GPU 加速和 CPU+GPU 混合推理。
  - 训练：支持在设备上微调 LORA 适配器。
  - 推理：支持跨 ARM 和 x86 架构的 CPU 和 CPU+GPU 混合推理。
2. MNN
  - 描述：MNN（阿里巴巴，2024 年）利用移动神经网络技术在各种平台上进行高效的 LLM 推理，并针对具有动态输入和多模态交互的移动设备进行了优化。
  - 训练：支持在设备上进行全尺寸微调和 LORA 微调。
  - 推理：支持跨不同后端（包括 CPU、CUDA 和 OpenCL）部署 ONNX 和 MNN 格式的模型。
3. PowerInfer
  - 描述：PowerInfer （Song et al.， 2023）和 PowerInfer2 （Xue et al.， 2024b）是一种高速推理引擎，利用以位置为中心的设计，针对在具有消费级 GPU 的 PC 上部署 LLM 进行了优化。
  - 训练：没有内置的培训功能。
  - 推理：支持各种计算平台，包括 x86-64 CPU 和 Apple M 芯片，针对 Windows 和 Linux 进行了优化。
4. ExecuTorch
  - 描述：ExecuTorch （PyTorch， 2024）是 PyTorch Edge 生态系统的一部分，旨在在手机和可穿戴设备等边缘设备上高效部署 PyTorch 模型。
  - 训练：没有内置的培训功能。
  - 推理：在各种计算平台上利用 CPU、NPU 和 DSP 等完整硬件功能。
5. MediaPipe
  - 描述：MediaPipe（AI，2024b）由 Google 开发，是一个框架，用于构建和部署涉及视频、音频和其他时间序列数据的多模态机器学习管道。
  - 训练：没有内置的培训功能。
  - 推理：支持多种平台，包括 Android、iOS、macOS、Windows 和 Linux，利用 CPU 和 GPU 资源。
Edge-cloud
1. MLC-LLM
  - 描述：MLC-LLM（团队，2023 年）是一个机器学习编译器和高性能部署引擎，支持在边缘设备和云环境中进行通用 LLM 部署。
  - 训练：没有内置的培训功能。
  - 推理：支持在各种平台上进行推理，包括跨 ARM 和 x86 架构的 CPU 和 GPU。
2. VLLM
  - 描述：VLLM（团队，2024 年）针对边缘云环境进行了优化，支持高级量化方法，可在推理过程中实现高效的键和值内存管理。
  - 训练：没有内置的培训功能。
  - 推理：支持多个 GPU 平台，并与 Vulkan、CUDA、Metal 和 WebGPU 技术集成。
3. BentoML 的 OpenLLM
  - 描述：OpenLLM（BentoML，2024 年）支持将各种开源 LLM 部署为与 OpenAI 兼容的 API 端点，针对高吞吐量和简化的云部署进行了优化。
  - 训练：没有内置的培训功能。
  - 推理：与各种模型架构和后端实现兼容，以便在生产环境中高效部署。

6.2 硬件加速

硬件技术的持续进步对设备上 LLM 的部署和性能产生了重大影响。

GPU：图形处理单元（GPU）由于其大规模并行性和高内存带宽，已成为训练和加速大型语言模型的标准。NVIDIA 的 Tensor Core 在 Volta 架构中引入并在后续几代中得到改进，为混合精度矩阵乘法累加运算提供专用硬件，这对于基于 transformer 的模型至关重要。最近的进展，如具有 80GB HBM2e 内存的 NVIDIA A100 GPU，支持在单个设备上训练具有数十亿个参数的模型。在 Megatron-LM 等框架中实现的张量并行和管道并行等技术允许跨多个 GPU 高效扩展 LLM 。使用混合精度训练，尤其是 FP16 和 BF16 格式，可显著减少内存占用并提高现代 GPU 的计算吞吐量。
NPU：神经处理单元（NPU），也称为人工智能加速器，是专为机器学习工作负载设计的专用芯片。b谷歌的张量处理单元（tpu）就是一个突出的例子，最新的v4提供了每片BF16性能的275 TFLOPS。tpu利用收缩阵列架构进行有效的矩阵乘法，这特别适合llm中的变压器层。TPU Pod配置允许扩展到数千个芯片，从而可以训练GPT-3和PaLM等模型。华为的Ascend AI处理器和苹果的Neural Engine是npu的其他例子，它们为小型llm的推理提供设备上的加速，利用量化和修剪等技术来减少模型尺寸和计算需求。
FPGA：现场可编程门阵列（FPGA）为加速 LLM 提供了一个灵活的硬件平台，特别是用于推理。最近的工作展示了 Transformer 层在 FPGA 上的高效实现，利用稀疏矩阵乘法和量化等技术。例如，Microsoft 的 Project Brainwave 使用英特尔 Stratix 10 FPGA 来加速 BERT 推理，实现低延迟和高吞吐量。FPGA 在能效方面表现出色，可以针对特定模型架构进行优化，使其适用于较小 LLM 的边缘部署。然而，与 GPU 和 ASIC 相比，它们的计算密度较低，限制了它们在训练大规模模型中的应用。

7 示例和应用

在过去几年中，人工智能技术的快速发展和移动设备硬件的不断升级，使在边缘设备上部署大型语言模型成为现实。智能手机是人们日常生活中最常用的设备之一，其上的语言模型尤为引人注目。目前，全球主要的手机品牌厂商已经开发并发布了多款部署在设备端或采用端云协同策略的先进机型，如表 2 所示。这些模型不仅标志着移动计算的重大飞跃，还为用户带来了传统云部署无法比拟的一系列优势。

![[Pasted image 20250416202523.png]]

7.1 设备端语言模型示例

Gemini Nano：移动作系统将 LLM 及其推理基础设施作为系统功能公开给移动应用程序，例如位置或通知服务。用户可以通过 Google AI Edge SDK 访问 AI 核心。在 AI Core 内部，谷歌提供了一个 Gemini Nano 模型，该模型比其他在云中运行推理的 Gemini 模型要小，但速度更快，推理速度更低。AI 核心负责 Gemini Nano 模型的分发，因此可以很好地管理内存。此外，AI Core 可以以最佳速度运行，因为它利用设备上的硬件来加速推理。Gemini Nano 模型是通过从较大的 Gemini 模型中提取来训练的。它是 4 位量化的部署，并提供一流的性能（Team et al.， 2023）。
Nexa AI Octopus 系列模型：在边缘设备上运行的 20 亿参数模型在准确性和延迟方面超过了 GPT-4，并将上下文长度减少了 95%。通过对核心函数的名称进行标记并使用函数标记微调模型，模型可以理解软件应用程序的功能并学习将函数描述映射到特定标记。章鱼模型在移动设备上的部署证明了快速的响应时间，即使在标准的Android手机上，对于20到30个token的典型查询，在1.1到1.7秒内完成函数调用(Chen et al., 2024b；陈和李，20024a;b;c)。
Apple OpenELM 和 Ferret-v2：Apple 开发了 OpenELM（Mehta et al.， 2024），这是一个集成在 iOS 中的大型语言模型，用于增强应用程序功能，类似于位置跟踪等基本系统服务。OpenELM 采用逐层扩展架构，有效部署其 11 亿个参数，与以前的模型相比，准确率提高了 2.36%，而只需要一半的预训练token。此外，它与 MLX 库兼容，便于在 Apple 设备上直接微调。同时，Ferret-v2 （Zhang et al.， 2024a）标志着对其前身的重大升级，结合了任意分辨率接地、通过集成 DINOv2 编码器实现的多粒度视觉编码以及复杂的三阶段训练方案等功能。这些增强功能通过推进高分辨率图像处理和丰富视觉理解来显著提高性能，从而确保为 iOS 用户提供强大的设备功能。
Microsoft Phi 系列：Microsoft 最新的 Phi-3-mini（Abdin 等人，2024 年）是一个紧凑但强大的 38 亿参数语言模型，在广泛的 3.3 万亿个token数据集上进行训练。尽管体积小，适合移动部署，但 Phi-3mini 的性能与 Mixtral 8x7B 和 GPT-3.5 等大型型号相比具有竞争力，在 MMLU 上实现 69%，在 MT 工作台上实现 8.38。该模型受益于独特的训练数据集，该数据集是用于 Phi-2 的扩展版本，它将经过严格过滤的公开可用 Web 数据与合成数据相结合，增强了稳健性、安全性和聊天功能。此外，我们还展示了我们的缩放模型 Phi-3-small 和 Phi-3-medium 的初步结果，这些模型分别在 4.8 万亿个代币上进行了训练，分别具有 70 亿和 140 亿个参数，显示出卓越的功能（MMLU 为 75% 和 78%，MTbench 得分为 8.7 和 8.9）。进一步扩展，我们引入了 Phi-3-vision，这是一个源自 Phi-3-mini 的 42 亿个参数模型，旨在增强图像和文本提示的推理能力。
MiniCPM：MiniCPM-Llama3-V 2.5 是清华大学和 ModelBest 合作打造的开源 MiniCPM-V 系列的最新成员，拥有 85 亿个参数（清华大学，2024 年）。该模型在 OpenCompass 评估平台中展示了卓越的性能，该平台包含 11 个多模式基准。MiniCPM-Llama3-V 2.5 的平均得分为 65.1，超过了领先的行业型号，包括 GPT-4V-1106 的 63.5、Gemini Pro 的 62.9、Claude 3 和 Qwen-VL-Max，尽管它只拥有这些型号的一小部分参数。在专注于光学字符识别（OCR）和场景文本理解的具体评估中，MiniCPM-Llama3-V 2.5 表现出色，在 OCRBench 上获得了超过 700 分的分数，从而超越了 GPT-4 和 Gemini Pro 等同类产品。此外，它在 TextVQA 基准测试中取得了 76.6% 的显着准确率，在 DocVQA 上取得了令人印象深刻的 84.8%，有效地为这些领域的开源模型的性能建立了新标准。
Gemma2-9B：Gemma 是 Google 提供的轻量级、最先进的开放模型系列。Gemma2 是 Google 的 Gemma 升级版，有两种不同的尺寸可供选择，9B 和 27B。对于 9B 版本，Gemma2 的 Web 数据、代码和数学数据的训练数据量为 8 TB Token。作者采取了一种新颖的方法将注意力结合起来，即一层滑动窗口注意力和一层全局注意力。还使用了知识蒸馏、模型合并等技术。Gemma2-9B 模型在其等效体积类别中也表现良好，在推理、数学和代码等多个领域优于 Llama 3-8B 和其他类似的开放模型。该模型还与 HuggingFace 等主要 AI 框架以及 Keras 3.0、vLLM、Gemma.cpp 和 Llama.cpp 具有良好的兼容性（Google，2024a）。
Qwen2-0.5B：Qwen 团队，阿里云已将 Qwen 模型系列升级为 Qwen2，并将该系列提升至五个尺寸。其中，Qwen2-0.5B 是参数数量最少的，上下文长度为 32K 的。在多次测试中，Qwen2-0.5B 的性能与 Gemma-2B 和 Phi-2 相似（Qwen Team，2024），但参数数量较少，这使得它有可能在未来的智能家居行业中发挥重要作用。此外，针对上下文长度短的问题，Qwen-Agent 框架采用了 Agentic RAG 的思想，可以将处理上下文扩展到 1M，从而实现长文本理解（Bai et al.， 2023a）。

7.2 设备端 LLM 的应用

设备上的语言模型正在开创智能、响应式和个性化应用程序的新时代。通过将高级自然语言处理的强大功能直接引入最终用户设备，这些模型正在改变我们在日常生活和专业工作中与技术交互的方式。从即时消息建议到实时语言翻译，从保密医疗咨询到尖端的自动驾驶汽车，设备上的 LLM 被证明是具有深远影响的多功能工具。如图 5 所示，以下示例说明了设备上 LLM 应用程序的广度和深度，展示了这项技术如何不仅增强现有服务，而且在不同领域实现全新类别的智能、响应式和安全应用程序。

![[Pasted image 20250416202800.png]]

消息文本生成：过去，基于云 LLM 的快速回复功能受生成速度和网络延迟的限制，因此为用户生成回复会很慢。这在快节奏的即时对话中效率低下。借助设备上的 LLM，Gboard（Google 的键盘应用程序）可以使用 Gemini Nano，这是 Google 的设备端 LLM（AI，2024a）。当检测到用户正在在线聊天时，Gemini Nano 可以根据聊天内容快速生成对话感知的快速回复，供用户选择。由于使用的语言模型不需要连接到Internet等待服务器响应，因此该功能可以反映真实的响应速度。
翻译： LLM 已广泛应用于语言翻译领域。这种方法可以使用适合特定领域的术语和样式进行翻译，这在传统的机器翻译方法中是不可能的。但是，基于云的 LLM 仍然存在响应速度慢和需要上传信息等问题。设备上的 LLM 更好地解决了这些问题，参数更小，响应速度更快，也可以在离线环境中运行。这也为许多场景提供了数据安全性。在翻译质量方面，使用小尺寸模型不会显著降低翻译的准确性。使用 T5 小模型生成的标记精度仅比 T5 语言模型低 4%（Xu et al.， 2023）。此外，更快的响应速度意味着设备端模型将更适合更直接的翻译情况，例如同声传译。
会议总结：Distill-CLI 是 Amazon 首席技术官发布的基于云的解决方案，它使用 Anthropic 的 Claude 3 Sonnet 模型和 Amazon Transcribe 技术来生成实时会议摘要（Vogels，2024 年）。类似的应用程序，例如带有 GPT-4o 模型的 Plaud Note（Plaud，2024 年）、Zoom-IQ（Zoom，2024 年）等。但是，使用基于云的模型的缺点是会产生订阅服务费，以及网络导致的网络延迟问题。通过采用设备端模型，数据将保持本地化状态，无需上传到基于云的服务器。
医疗保健应用：当前的医疗模型，如 Med-Palm 多模态（Tu et al.，2024）可以组合和分析患者陈述、电子记录信息、X 射线和其他医学图像，以生成高精度的长格式响应。边缘部署可以帮助患者离线回答问题，从而保证模型的紧急可用性，并保持患者病情的本地化。令人兴奋的是，在专业医疗领域出现了基于预训练模型进行微调的模型，例如 BioMistral-7B（Labrak et al.， 2024）、HuatuoGPT-7B-II（Chen et al.， 2023）等。这些低参数模型有可能部署在终端设备上。
科研支持：像 GatorTronGPT （Peng et al.， 2023）这样的传统研究支持 LLM 使用大量某些专业数据进行训练。这使他们能够生成高质量的专业文本，从而加速科学研究的进步，尤其是在数据稀缺或敏感的研究领域。改为端端 LLM 后，可以降低使用语言模型辅助科研任务的硬件成本，获得更快的响应，保护科研信息的机密性。
伴侣机器人：已经有一些研究案例使用语言模型来增强机器人或物联网（IoT）设备的能力（Ahn et al.， 2022;Xu et al.， 2024a）。LLM 强大的规划和推理能力可以将人类指令分解成一系列的文本子任务，让机器人更好地理解自然语言指令（Zeng et al.， 2023b）。例如，基于 Open AI 多模态语言模型的 Figure 01 机器人可以与人进行深度交流，并根据对话内容做出独立的决策和行动（AI，2024c）。随着小型模型的兴起，部署设备端语言模型的机器人在相应的生成速度上可以胜过传统的云端模型机器人。同时，客户端模型可以保证机器人在离线时仍能保持其智能能力。
残障人士支持：对于视障用户来说，将图片转换为文本是一项非常基本且重要的功能。目前，有许多设备上的大型多模态模型，如Octopus v3 （Chen & Li， 2024b）， MiniCPM-Llama3-V 2.5 （清华大学， 2024）可以通过多模型能力实现此功能。有了它们，盲人也可以轻松了解对话中的图片和视频信息。Google 即将推出基于 Gemini Nano 的 Talkback 功能，帮助盲人或视力低下的人更丰富、更清晰地描述图像中发生的事情（Google，2024b）。由于 Gemini Nano 是部署在边缘的模型，因此即使没有网络连接，这些描述也会快速出现并正常工作。类似的功能也可以用于手语识别，有些项目使用 ChatGPT 模型进行手语翻译（Sincan et al.， 2024）。相比之下，端模型可以生成与手语对应的文本翻译，延迟时间更低，并确保其离线可用性。
自动驾驶汽车：使用语言模型驾驶自动驾驶汽车可能是一个理想的未来，但我们今天已经有这样的例子。DriveVLM Dual 是一个将自动驾驶技术与大规模视觉语言模型（VLM）相结合的系统，以提高对城市环境中复杂和长尾场景的理解。该系统使用语言来描述驾驶环境并识别场景中的关键物体。它逐渐制定从元作和决策描述到航点的计划。DriveVLM 在公共基准测试和研究人员自己的基准测试中都超越了现有的最先进方法，尤其是在处理复杂和动态场景方面。令人兴奋的是，DriveVLM 可以本地部署在汽车上，这也为其即时响应提供了便利（Tian et al.， 2024）。

8 未来方向和开放挑战

![[Pasted image 20250416203019.png]]

随着设备端 LLM 的不断发展，几个重要领域成为有前途的未来研发方向。在对 1）数据安全、2）低延迟和 3）边缘设备上个性化 AI 体验的需求不断增长的推动下，设备上 LLM 领域正在迅速发展。这一进步体现在最近的发展，如TinyLlama (Zhang et al., 2024c), MobileVLM (Murthy et al., 2024；Chu等人，2024)，以及像OpenELM这样的新方法（Mehta等人，2024）。然而，在资源受限的设备上部署llm面临着与传统的基于云的实现截然不同的独特挑战。这些挑战涉及多个领域，包括模型压缩、高效推理、安全性、能源效率以及与各种硬件平台的无缝集成。此外，边缘环境的动态性质和持续适应的需求引入了必须考虑的额外复杂性。我们概述了在推动设备 LLM 领域的最紧迫的挑战和机遇。通过确定这些关键领域并激发创新，开发功能更强大、更高效、更可靠的设备端语言模型，我们的目标是为未来的研究工作提供见解。我们应该注意到，这里讨论的挑战和机遇是相互关联的：一个领域的进展往往会对其他领域产生影响。因此，考虑设备上 LLM 部署不同方面之间相互作用的整体方法对于在该领域取得重大进步至关重要。我们深入研究了研究的现状，确定了关键挑战并为未来的工作提出了潜在的方向，如图 6 所示。通过应对这些挑战，研究人员和从业者可以突破设备上 LLM 的界限，最终在各种应用程序和领域中实现更智能、更高效和以用户为中心的计算体验。

8.1 数据安全技术

设备上的语言模型可能提供固有的数据安全优势，因为所有数据都可以保持本地化。未来的工作应侧重于：

开发高效的隐私技术技术，包括查询混淆（Yuan et al.， 2024）、prompt tuning （Li et al.， 2023b）和高级随机化技术（Zhang et al.， 2024e），以平衡数据安全保证与模型效用和计算约束。
通过创建复杂的基准系统（Yuan 等人，2024 年）、实施实时监控（Das 等人，2024 年）以及设计系统来检测和减少推理过程中潜在的 PII 泄漏（Kim 等人，2024 年d），加强风险评估和监控。
优化模型架构和通信策略，专注于高效的模型分片（Yang et al.， 2024a）、安全性增强架构（Yao et al.， 2024a）和最小化数据传输（Wang et al.， 2023）。
通过安全的多方计算（Das et al.， 2024）、长时间对话的数据保护（Yuan et al.， 2024）以及扩展 PFID 等框架以支持更广泛的 LLM 架构和任务（Yang et al.， 2024a），解决协作和分布式学习场景中的安全挑战。

8.2 自适应边云协作

随着设备上语言模型的不断发展，边缘计算和云基础设施之间的协同作用既带来了机遇，也带来了挑战。设备上 LLM 的自适应边缘-云协作的未来研究应探索：

发明先进的缓存和请求分析技术，包括复杂的矢量数据库缓存策略、针对不同 LLM 请求的特征提取模型（Yao et al.， 2024c）以及不确定性引导的token采样方法，以优化边缘设备和云服务器之间的数据传输（Wang et al.， 2024a）。
设计智能调度和资源分配算法，结合个性化推理调度（Yao et al.， 2024c）、异构基础设施的自适应资源分配（Yang et al.， 2024c）和批量大小感知优化技术，以跨边缘云环境高效分配 LLM 组件和工作负载（Zhang et al.， 2024b）。
创建高效的知识传递和模型压缩方法，例如针对多模态 LLM 的基于适配器的知识蒸馏（Zhang et al.， 2024f）、用于各种 LLM 架构的动态量化技术以及自适应权重更新压缩策略，以实现语言模型在资源受限的设备上的有效部署（Wang et al.， 2024a）。
通过开发用于代币级协作的自适应控制机制（Yang et al.， 2024c）、用于实时决策的高效约束满足算法以及减少延迟和改善混合边缘云系统中管道执行的创新技术（Hao et al.， 2024;Zhang et al.， 2024b）。

8.3 多模态和跨模态学习

随着 LLM 扩展到包含多种模式，对适用于设备部署的高效多模式架构的需求越来越大（Carreira 等人，2023 年;Liu et al.， 2024c）。主要研究方向包括：

开发高效的多模态处理和压缩技术，包括先进的不确定性引导token采样方法、用于云到设备模型更新的动态权重更新压缩策略（Wang et al.， 2024a;McKinzie等人，2024 年），以及为设备上模型有效组合音频、文本和视频等多种模式的创新方法（Wagner 等人，2024 年）。
增强知识传递和适应能力，例如探索先进的基于适配器的知识蒸馏方法，将知识从较大的云模型转移到较小的设备端模型，提高跨模态的少发和零发能力（Chen et al.， 2024a;Han et al.， 2024;McKinzie等人，2024 年），并研究结合生成和基于检索的方法进行多模态内容生成的混合方法（Wu 等人，2023c）。
通过为非图像模态开发大规模数据集，设计新的编码器以对高分辨率图像、长视频序列和复杂音频输入进行细粒度的多模态理解（Han et al.， 2024），以及整合对网页、3D 视觉、热图和表格/数字等其他模态和任务的支持（Wu et al.， 2023c）。
通过研究包含先前交互特征的较长上下文窗口，开发复杂的技术来处理和理解跨模态的时间和顺序信息，并探索在与虚拟助手交互期间有用的任务，例如音频字幕和声学场景分类，从而提高时间和上下文处理能力（Wagner et al.， 2024）。

8.4 资源节约型解决方案

在边缘设备上部署 LLM 引发了对能耗和环境影响的担忧。未来的研究应优先考虑：

创建高效的模型压缩和执行算法：为 LLM 开发高级修剪、量化和知识蒸馏技术。探索优化大于内存的模型执行的方法。研究动态和自适应推理技术，以根据输入和可用资源调整模型复杂性（Bai et al.， 2024）。
利用模型稀疏性：研究利用语言模型的运行时激活稀疏性的技术，其中只有一小部分模型为给定任务激活。这可能会导致推理时间和内存占用的显著减少，从而更有效地扩展模型大小（Xu et al.， 2024b）。
开发节能培训和部署策略，包括节能算法和运行时优化（Bai et al.， 2024）。探索在边缘设备上平衡安全性、能效和性能的自适应参数高效微调方法（He et al.， 2024）。

8.5 软硬件协同设计

硬件和软件开发之间的更紧密集成对于优化设备上的 LLM 性能至关重要。未来的研究方向包括：

推进各种内存类型的 PIM/PNM 架构，包括针对基于 CXL 的系统的优化和针对边缘设备的低功耗解决方案（Kim et al.， 2024b）。
开发硬件感知优化技术，例如修剪感知量化、上下文稀疏性开发（Wan et al.， 2024）和动态稀疏注意力优化（Kachris， 2024）。
增强特定于 AI 的编译器和运行时系统，以自动识别和优化 PIM/PNM 硬件的作（Huang et al.， 2024b），同时考虑图形级和特定于硬件的优化（Kim et al.， 2024b;Wan et al.， 2024）。
为边缘计算和多设备系统设计有效的策略，包括动态稀疏树优化（Luk et al.， 2024）、自适应位宽技术和能量感知协同设计方法。

8.6 稳健性和可靠性

确保设备上语言模型在各种作条件下的稳健性和可靠性对于其广泛采用至关重要。未来的工作应解决：

研究检测和减轻设备上 LLM 输出中潜在偏差和幻觉的方法，特别是在安全关键应用中（Ailem 等人，2024 年）。
探索形式化验证和确认框架，以评估设备端语言模型在真实场景中的可靠性（Zhang et al.， 2023b）。
利用集成方法减少方差和偏差（Xu & Sen，2023;2024）。探索概率推理方法，通过 LLM 管道量化和传播不确定性。

8.7 可扩展性和部署优化

有效地扩展设备上的 LLM 以支持越来越多的用户和应用程序是一项重大挑战。未来的研究应探索：

为跨异构边缘设备的分布式 LLM 推理开发动态资源分配和负载平衡技术（Yang et al.， 2024c;Wilkins et al.， 2024）。
研究在协作边缘计算场景中减少延迟和提高吞吐量的优化策略，可能利用模型分片和流水线推理等技术（Zhang et al.， 2024b;Dhar et al.， 2024）。
探索跨不同边缘设备管理和更新多个 LLM 版本的有效方法，同时考虑网络限制和设备功能等因素。构建网络基础设施以提高模型和数据集的可重用性和可重复性（Wolf et al.， 2019;Lhoest等人，2021 年;邓等人，2019 年）。

8.8 持续学习和个性化

设备上 LLM 的部署为个性化 AI 体验提供了前所未有的机会。然而，它也在保持模型相关性和随着时间的推移适应新信息和用户偏好方面带来了独特的挑战。未来的研究应侧重于：

实现可控的知识保留和遗忘，例如当模型遇到新的数据流时选择性地保留或忘记信息。这对于管理错误信息和确保持续的准确性至关重要。增强模型自主学习新技能的能力，并根据用户交互和本地数据改进现有能力（Li et al.， 2024d）。开发有效的历史跟踪机制，以了解 LLM 在各个学习阶段的演变（Qi et al.， 2024）。
通过开发强大的理论基础来理解和预测在设备上持续学习 LLM 的行为，推进理论基础和实践优化。这还包括进行大规模的用户研究，以完善个性化框架并确定跨不同用户群和场景的有效服务交付（Zhang等人，2024d），以及改进密钥生成和检索过程，以更好地表示向量空间中的任务分布（Peng et al.，2024）。
开发高效的持续学习机制，包括复杂的数据混合策略和高效的重放样本选择（Shi et al.， 2024）。这包括探索可控记忆系统和设计用于连续模型适应的自适应微调机制（Wu et al.， 2024;Li et al.， 2024d）。

展望这些未来的道路和未解决的问题（Gao et al.， 2024;Su et al.， 2024;Schwartz 等人，2023 年;Mahmood et al.， 2023;Zhao et al.， 2024a），研究人员和从业者有机会将设备上的 LLM 推向新的高度，并改变边缘计算的格局。这些技术的有效发展和集成有可能为智能和定制应用程序解锁创新框架，同时解决围绕安全性、效率和可靠性的关键问题。这些进步的影响远远超出了理论上的增强，为广泛领域的重大变革提供了潜力。在移动计算领域，增强的基于设备LLM的AI代理（Chen & Li，2024c）有可能促进高级自然语言界面和上下文感知服务，从而显著提升用户体验。在 IoT 应用程序的上下文中，这些进步使更加自主和适应性更强的系统能够实时处理复杂的语言输入，即使在资源受限的环境中也是如此。在汽车行业，改进的设备上 LLM 可以提升自动驾驶汽车中的人机交互。此外，这些技术可以在医疗保健领域实现更加个性化和响应迅速的 AI 辅助患者护理。

实现这些进步是为了使对复杂 AI 功能的访问民主化，使其在各种设备和用例中更易于访问和高效。因此，该领域的持续研究和开发在技术上势在必行且具有社会意义，有望预示着一个更易访问、更高效、更可靠的人工智能应用程序的新时代，有望对社会和行业的各个方面产生积极影响。

9 结论

这篇全面的综述阐明了设备上语言模型的最新进展。本文提供的广泛分析突出了模型压缩技术、高效架构设计和软硬件协同优化策略方面的重大进步，所有这些都共同促进了在资源受限的边缘设备上部署复杂的语言模型。这些改进的潜在影响是广泛的，可以提高数据保护水平，减少延迟，并在不同行业和应用中平等地获得高级 AI 功能。

从以云为中心的 LLM 部署过渡到基于边缘的 LLM 部署不仅仅意味着技术进步;它代表了人机交互范式的转变。通过将高级自然语言处理功能直接引入最终用户设备，这种转型为个性化、上下文感知和即时 AI 体验开辟了新途径。设备上的 LLM 将彻底改变用户交互，并促进从移动电话和 IoT 到医疗保健和自主系统的更智能、响应更迅速的技术。

然而，向无处不在的设备端 LLM 发展的轨迹面临着重大挑战。在模型性能和边缘设备固有的资源限制之间取得最佳平衡仍然是一个关键的研究问题。确保模型在异构作条件下的鲁棒性并开发有效的持续学习机制是额外的障碍。此外，随着设备端 AI 的界限不断突破，有关能源效率、可持续性和负责任部署的问题变得越来越突出，因此需要创新的解决方案和谨慎的道德考虑。

要充分发挥设备端语言模型的潜力，需要多学科的共同努力。研究界必须继续推进模型压缩技术和高效架构设计的前沿，同时解决数据安全性和系统可靠性的潜在问题。该领域的从业者应该探索新颖的软硬件协同设计方法和自适应边缘-云协作策略，以优化实际部署。行业利益相关者在开发专用硬件加速器和促进设备上 AI 部署的开放标准方面发挥着关键作用。

随着该领域研究的发展，设备端语言模型被置于即将发生的技术突破的最前沿。越来越高效的模型、更强大的边缘硬件和创新部署策略的融合有望在人机交互中释放前所未有的可能性。通过应对挑战并利用本次调查中的机遇，研究界可以努力实现一个将复杂的 AI 功能无缝集成到日常生活中的未来，在尊重个性化和个性的同时增强人类的能力。迈向无处不在的智能计算的旅程正在顺利进行，设备上的 LLM 已准备好在塑造这一激动人心的未来方面发挥关键作用。

总之，这篇综述为研究人员和从业者提供了全面的资源，彻底分析了设备上 LLM 的现状，并阐明了未来研发的关键领域。随着设备上 LLM 领域的持续快速发展，研究界必须继续致力于应对挑战并抓住这项变革性技术带来的机遇。