
在机密计算环境中评估DeepSeek模型的性能
大型语言模型(LLMs)在云环境中的广泛应用引发了重要的安全问题,特别是在模型保密性和数据隐私方面。通过可信执行环境(TEEs)实现的机密计算提供了一种有前景的解决方案来缓解这些风险。然而,现有的主要基于CPU的TEE实现难以高效支持资源密集型的LLM推理和训练。在这项工作中,我们首次在启用TEE的机密计算环境中对DeepSeek模型进行了评估,具体使用了Intel Trust Domain Ex
董本
加州大学默塞德分校,默塞德,美国
cdong12@ucmerced.edu
王倩
加州大学默塞德分校,默塞德,美国
qianwang@ucmerced.edu
摘要
大型语言模型(LLMs)在云环境中的广泛应用引发了重要的安全问题,特别是在模型保密性和数据隐私方面。通过可信执行环境(TEEs)实现的机密计算提供了一种有前景的解决方案来缓解这些风险。然而,现有的主要基于CPU的TEE实现难以高效支持资源密集型的LLM推理和训练。在这项工作中,我们首次在启用TEE的机密计算环境中对DeepSeek模型进行了评估,具体使用了Intel Trust Domain Extensions (TDX)。我们的研究对DeepSeek在仅CPU、CPU-GPU混合以及基于TEE的实现中的性能进行了基准测试。对于较小的参数集,如DeepSeek-R1-1.5B,TDX实现在安全环境中执行计算时优于CPU版本。这突显了在资源受限系统上高效部署LLM模型的同时确保安全性的潜力。总体而言,不同模型大小下的GPU与CPU性能比平均为12,较小的模型表现出较低的比例。此外,我们提供了优化CPU-GPU机密计算解决方案的基础见解和指导,以实现可扩展且安全的AI部署。我们的发现有助于推进隐私保护AI的发展,为在机密计算环境中进行高效且安全的LLM推理铺平了道路。
CCS概念
• 安全与隐私 → 可信计算
关键词
机密计算,可信执行环境,大型语言模型,性能优化
1 引言
云计算为计算任务提供了可扩展性和灵活性,特别是在机器学习应用中。然而,在云基础设施中部署ML模型和处理敏感数据会引入重大的安全风险。例如,未经授权访问机密用户数据可能会在云环境中危及数据安全 [11] [12]。这在医疗保健等关键领域尤为重要,因为患者的记录可能被泄露;或者在金融领域,未经授权访问银行交易可能导致欺诈和身份盗窃。此外,最先进的机器学习模型,如大型语言模型,需要大量的资金投入进行训练和开发。当它们在云环境中部署时,容易在不受信任的云基础设施中被盗取。
在这项工作中,我们考虑了一个威胁模型,其中用户数据和机器学习模型在共享云环境中处理时都面临泄漏的风险。包括个人照片、健康记录和专有数据集在内的敏感信息可能通过反向数据推断攻击而暴露。此外,传输并在云中执行的ML模型的完整性也容易受到对抗性操纵,包括模型逆向和中毒攻击 [3]。因此,保护数据和模型的机密性至关重要。
特别是通过可信执行环境实现的机密计算,为保护数据和模型提供了一种有前景的解决方案。TEE为计算提供了一个安全的飞地,保护数据和模型,同时减轻云计算环境中的风险。先前的研究利用了诸如Intel的软件防护扩展(SGX) [6] 等TEE,通过将敏感计算隔离在安全飞地中来保护ML工作负载 [8]。尽管SGX提供了强大的保护,但其有限的内存容量(约1 GB)和复杂的接口对大规模ML应用提出了挑战 [9] [10]。为了克服这些限制,Intel的信任域扩展(TDX) [7] 引入了安全虚拟机(VM),可以在保持强大安全保证的同时处理更大的ML模型。
尽管TDX相比其前身显著扩展了内存容量,但在机密计算环境中部署先进的大型语言模型,如GPT [2] 和Gemini [4],仍然存在额外的挑战。首先,这些模型相对较大,通常至少从10亿个参数开始,并达到超过1000亿或更多。即使本地托管这些模型也因其高内存需求而构成重大挑战。此外,这些模型需要大量的计算资源,包括高性能GPU用于训练和推理。在基于TEE的环境中确保安全的同时保持效率,需要对硬件和软件组件进行仔细优化。
在这些大型语言模型中,DeepSeek是一种先进的AI驱动模型,针对高效的资源利用和高性能计算进行了优化 [1]。它与其他模型的主要区别在于能够使用尖端算法智能地分配资源,以确保卓越的计算效率。它还增强了可扩展性,特别是在像TDX这样的安全环境中。例如,DeepSeek模型的精简版本通过减小模型大小和内存占用,提供了显著的优势,即使在受限环境中也能实现智能资源分配以获得最佳性能 [5]。这在像TDX这样的安全环境中尤为重要,因为效率和安全性都是关键因素。在TDX中探索DeepSeek使我们能够利用其能力进行安全且高性能的计算,从而加快数据处理速度。这种集成不仅保护模型免受各种安全威胁,还推动了安全计算环境中的创新。此外,它为有效解决安全与性能之间的权衡提供了见解,确保在保护和效率之间达到最佳平衡。
贡献
本文的主要贡献总结如下:
- 首次评估了DeepSeek模型在TEE中的性能。通过在安全飞地中部署DeepSeek,我们分析了TEE如何影响计算效率、资源利用和推理性能。我们的研究提供了对DeepSeek在机密计算环境中的行为的基本理解,为其在安全AI推理中的可行性提供了重要见解。
- 对基于TEE、仅CPU和CPU-GPU实现的DeepSeek性能进行了比较分析。这种基准测试使我们能够识别关键性能瓶颈,并突出安全性和计算效率之间的权衡。我们的发现还有助于机密计算技术供应商优化CPU-GPU集成,并解决安全AI工作负载中的可扩展性挑战。
- 除了性能评估外,本研究还为更广泛的研究社区提供了采用CPU-GPU机密计算解决方案的基础见解。通过建立在TEE中评估大规模AI模型的框架,我们为隐私保护AI技术的发展做出了贡献。
2 在TEE上实现LLM模型
2.1 机密计算
高级LLM由于其高计算和资源需求而训练和微调成本高昂。例如,最先进的模型如ChatGPT-4需要数千个GPU(例如超过25,000个NVIDIA A100 GPU)和数月的训练,估计成本超过1亿美元。因此,训练和微调后的模型,特别是它们的权重,是高度敏感的知识产权(IP),必须防止未经授权的访问和滥用。此外,在推理过程中,用户输入可能包含机密或个人身份信息(PII),必须保护这些信息免受潜在的安全威胁和恶意行为者的侵害,以确保数据隐私和完整性。
机密计算通过确保所有数据和工作负载都在安全飞地中执行来提供强大的解决方案,在该飞地中输入输出通信被加密,如图1所示。虚拟机容器在可信飞地中得到保护,确保了一个具有独占访问分配私有内存的机密执行环境。所有明文计算都在这个隔离域内安全地进行。飞地与共享内存之间的数据交换经过加密和解密。此外,系统通过PCI连接的设备接口,促进CPU和GPU之间的协作处理,以优化LLM计算的工作负载分布。这防止了未经授权的访问并减轻了提取私人数据的攻击。
公式代码示例 \text{公式代码示例} 公式代码示例这种限制在安全性和性能之间造成了权衡,因为安全执行环境难以高效地处理大规模AI模型的计算需求。
为了评估不同计算平台之间的性能权衡,我们对比了基于CPU的机密计算(CPU-TDX)、标准CPU执行(仅CPU)和GPU加速平台(CPU-GPU)。我们的研究为在部署机密推理工作负载时选择安全性和计算效率之间的最佳平衡提供了有价值的见解。
2.2 LLM模型
为了进行此次评估,我们使用了最先进的推理导向大型语言模型DeepSeek R1,并测试了三种不同的参数配置:15亿(1.5B)、70亿(7B)和140亿(14B)。DeepSeek R1旨在实现高效的逻辑推理和问题解决,使其非常适合需要推理和逻辑的关键工作负载。在机密计算环境中运行本地化的LLM推理提供了增强的安全保证,确保模型权重和用户输入免受未经授权的访问或泄露。这对于处理敏感数据的企业和组织尤为重要,因为它减轻了与模型逆向攻击、数据泄露和侧信道攻击相关的风险。通过利用Intel TDX,我们分析了在可信执行环境中部署DeepSeek R1时安全性和计算性能之间的权衡,为安全且高效的AI推理的可行性提供了见解。
3 实验结果
3.1 评估平台
评估是在一台高性能主机上进行的,该主机配备了两颗Intel Xeon Gold 6530 CPU,每颗CPU具有32个核心和512 GB的DDR5内存,运行频率为4800 MHz。测试环境部署在一个按照Canonical Ubuntu官方安装指南配置的Intel Trust Domain Extensions虚拟机中。主机系统的BIOS设置进行了调整以启用TDX支持,确保正确的硬件配置以实现安全执行。为了基准测试LLM推理性能,Ollama直接在TDX VM中运行。使用Docker容器进行了比较评估,以模拟不同的执行环境。具体来说,从Ollama的官方镜像启动了一个具有CPU和内存限制的容器,模拟TDX VM配置。此外,还创建了一个使用NVIDIA容器工具包访问GPU的单独容器,以评估基于CPU执行和GPU加速之间的性能差异。所有性能数据均使用Ollama内置的日志机制收集,确保测试条件的一致性。这种设置使我们能够全面分析机密计算环境中的推理效率,同时突出安全性和计算性能之间的权衡。
图2:有无TDX的CPU上的模型性能。
3.2 推理工作负载
在TEE中进行LLM推理涉及执行训练好的机器学习模型,根据用户输入提示生成输出,同时确保数据保密性和模型完整性。在此基准测试中,我们评估了不同配置下由CPU或CPU-GPU组合处理工作负载的情况。通常,在标准LLM推理中,CPU负责数据加载、预处理和后处理,而GPU加速核心计算。然而,在机密计算模式下,飞地-CPU承担了额外的安全数据处理责任,以维护模型完整性和数据隐私。推理工作流程从将训练好的机器学习模型加载到分配给可信域(TD)的内存开始。一旦进入TD,计算将在一个隔离环境中进行,不与不受信任的外部环境直接通信,从而确保敏感数据和模型参数免受潜在威胁。此评估提供了在TEE中运行LLM推理对性能影响的见解,并突出了不同硬件配置下的安全性和计算效率之间的权衡。
模型大小 | 性能 (tokens/s) | 计算比率 | |||
---|---|---|---|---|---|
GPU-CPU | 仅CPU | TDX | 𝐺𝑃𝑈 𝑇 𝐷𝑋 |
𝐶𝑃𝑈 𝑇 𝐷𝑋 |
|
1.5B | 202.88 | 10.25 | 25.67 | 7.9 | 0.4 |
7B | 117.02 | 8.53 | 6.42 | 18.2 | 1.3 |
14B | 69.14 | 7.13 | 3.44 | 9.7 | 2 |
表1:不同模型在GPU加速下的性能对比 (Tokens/s):GPU-CPU表示在启用了GPU加速的主机上直接运行推理。仅CPU表示在未启用GPU加速的主机上运行。TDX在TD容器中运行,并限制为32个CPU核心和100GB DRAM。
3.3 结果分析
从图2和表1中的结果可以看出,基于Docker的CPU执行与Intel TDX之间的性能差异表明,TDX针对安全计算的优化在某些情况下也可能提升CPU性能。在仅使用CPU的配置中(如图2所示),具有62个核心和510GB DRAM的TDX环境对于最小模型(1.5B)达到了最高的评估速率,约为25.71 tokens/s——这比基于Docker的CPU测试中观察到的性能高出两倍多。这种显著的改进可能归因于TDX优化的CPU执行,减少了软件引起的效率低下问题。然而,随着模型规模的增加,性能差距逐渐缩小,在14B模型中,TDX和基于Docker的CPU环境都显示出显著的减速,评估速率限制在大约3.33 tokens/s左右。这表明虽然TDX可以有效地利用高核心配置来处理较小的模型,但较大的模型需要更高的内存带宽和计算资源,从而限制了TDX CPU优化的优势。
相比之下,表1显示GPU加速极大地提高了所有配置下的推理速度,远超仅使用CPU的性能。即使在资源受限的情况下,基于GPU的推理在1.5B模型上也能达到超过202 tokens/s的速度,显著优于任何CPU配置。7B和14B模型也保持了高性能,分别达到了约117和69 tokens/s。这些结果强调了GPU加速在大型LLM高效部署中的关键作用。然而,当前的TDX实现并不完全支持在安全飞地中使用GPU,这在平衡安全性和性能方面是一个关键限制。未来的研究应集中在将GPU加速集成到TDX中,同时保持其安全保证,使机密AI推理能够同时实现高安全性和计算效率。
我们对DeepSeek模型在TEE中的评估突显了安全部署LLM所涉及的复杂性和权衡。尽管像Intel-TDX这样的TEE提供了强大的保护以防止未经授权的访问,但依赖基于CPU的飞地引入了性能限制,特别是在计算密集型工作负载和较大模型的情况下。GPU加速对于高效的模型执行至关重要,但目前的机密计算框架并不完全支持在安全飞地中进行基于GPU的处理。然而,随着机密计算技术的发展,诸如安全GPU虚拟化和混合执行模型等新兴解决方案可能会帮助减轻这些开销。未来的研究应专注于改进这些技术,以实现高效、安全的AI处理而不牺牲性能。
5 结论
本文首次在机密计算环境中对DeepSeek模型进行了性能评估,比较了基于CPU的TEE、标准CPU执行和GPU加速平台。我们的发现为安全运行LLM推理的可行性提供了重要见解,强调了平衡安全性和计算效率的必要性。虽然基于CPU的TEE确保了强大的模型完整性和数据保密性,但其性能限制需要进一步改进机密计算框架,特别是在启用GPU加速方面。总之,这项工作为未来研究奠定了基础,指导开发可扩展且高效的机密计算解决方案,用于AI应用。
参考文献
-
[1] 肖斌、陈德利、陈冠廷、陈山煌、戴大迈、邓成琪、丁洪辉、董凯、杜秋实、傅哲等。2024. Deepseek LLM:用长期主义扩展开源语言模型。arXiv预印本 arXiv:2401.02954 (2024)。
-
[2] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell等。2020. 语言模型是少样本学习者。神经信息处理系统进展 (NeurIPS) 33 (2020), 1877–1901. https://arxiv.org/abs/2005. 14165
-
[3] Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ulfar Erlingsson, Alina Oprea, 和 Colin Raffel. 2020. 从大型语言模型中提取训练数据。arXiv预印本 arXiv:2012.07805 (2020)。
-
[4] Google DeepMind. 2023. 引入Gemini:我们最强大的AI模型。https: //www.deepmind.com/blog/introducing-gemini
-
[5] 郭达亚、朱启豪、杨德健、谢振达、董凯、张文涛、陈冠廷、肖斌、吴宇、李YK等。2024. DeepSeek-Coder:当大型语言模型遇到编程——代码智能的崛起。arXiv预印本 arXiv:2401.14196 (2024)。
-
[6] 英特尔公司。2019. 英特尔®软件保护扩展(英特尔® SGX)飞地的签名和白名单概述。https: //www.intel.com/content/dam/develop/external/us/en/documents/overviewsigning-whitelisting-intel-sgx-enclaves.pdf.
-
[7] 英特尔公司。2022. 英特尔®信任域扩展。com/690419/TDX-Whitepaper-February2022.pdf](https://cdrdv2-public.intel.com/690419/TDX-Whitepaper-February2022.pdf)
-
[8] Krishna Giri Narra, Zhifeng Lin, Yongqin Wang, Keshav Balasubramaniam, 和 Murali Annavaram. 2019. 使用可信执行环境在机器学习服务中进行隐私保护推理。arXiv预印本 arXiv:1912.03485 (2019)。
-
[9] 沈天翔、齐吉、姜建宇、王显、文思远、陈旭升、赵世雄、王森、陈丽、罗夏普等。2022. SOTER:在边缘设备上为通用神经网络提供黑盒推理保护。2022 USENIX年度技术会议 (USENIX ATC 22),723–738。
-
[10] 孙志创、孙瑞敏、刘长明、Amrita Roy Chowdhury、Long Lu 和 Somesh Jha. 2023. ShadowNet:一种安全高效的卷积神经网络设备端推理系统。2023 IEEE安全与隐私研讨会 (SP)。IEEE,1596–1612。
-
[11] Florian Tramèr, Fan Zhang, Ari Juels, Michael K Reiter, 和 Thomas Ristenpart. 2016. 通过预测API窃取机器学习模型。第25届USENIX安全研讨会 (USENIX Security 16),601–618。
-
[12] Eric Wallace, Shi Feng, Nikhil Kandpal, Sameer Singh, 和 Matt Gardner. 2020. 对NLP模型的隐蔽数据投毒攻击。2020年自然语言处理经验方法会议论文集 (EMNLP),139–149。
这些文献涵盖了从英特尔的信任域扩展技术到使用可信执行环境进行隐私保护推理的各种主题。此外,还探讨了针对机器学习模型的安全威胁,包括通过预测API窃取模型和对NLP模型的数据投毒攻击。这些研究为理解和解决现代计算环境中面临的复杂安全挑战提供了重要的见解。
更多推荐
所有评论(0)