DeepSeek 绕开 CUDA ？一文搞懂 CUDA 为何是英伟达的“护城河”

最近，DeepSeek 的技术路线引发了热议，有人甚至认为它绕开了英伟达的 CUDA。今天，就让我们深入探讨一下，DeepSeek 究竟有没有绕开 CUDA ，以及 CUDA 为何是英伟达的核心壁垒。这不仅关乎技术的突破，更关乎整个 GPU 编程生态的未来走向。

努力的光头强

2077人浏览 · 2025-02-18 11:24:11

努力的光头强 · 2025-02-18 11:24:11 发布

导读

最近，DeepSeek 的技术路线引发了热议，有人甚至认为它绕开了英伟达的 CUDA 。今天，就让我们深入探讨一下，DeepSeek 究竟有没有绕开 CUDA ，以及 CUDA 为何是英伟达的核心壁垒。这不仅关乎技术的突破，更关乎整个 GPU 编程生态的未来走向。

1. DeepSeek与CUDA的关系

unsetunset1.1 DeepSeek是否绕开CUDA？unsetunset

DeepSeek在技术实现上并非完全绕开了CUDA。根据公开资料，DeepSeek在开发过程中使用了英伟达的PTX（Parallel Thread Execution）语言进行底层优化，这是一种类似于汇编语言的中间表示，用于连接CUDA高级语言代码和GPU底层硬件指令。

PTX是英伟达CUDA编程模型中的中间表示，它在CUDA代码和GPU底层硬件指令之间起到了桥梁的作用。CUDA代码首先被编译为PTX代码，PTX代码再被编译为目标GPU架构的机器码（SASS）。这种两步编译流程不仅使得CUDA程序具有跨架构的兼容性和可移植性，还为开发者提供了在不同层次上进行优化的可能性。

虽然PTX允许开发者进行更细粒度的优化，如寄存器分配和Thread/Warp级别的调整，但CUDA仍然是英伟达GPU架构中的重要组成部分，PTX代码需要通过CUDA的编译流程才能运行。

从技术角度来看，DeepSeek的优化手段更多是基于PTX层面的深度定制，而非完全脱离CUDA生态。这种优化方式虽然复杂且难以维护，但确实能够针对特定硬件和应用场景实现更高的性能。例如，在使用英伟达H800 GPU训练DeepSeek-V3时，DeepSeek团队通过修改部分流式多处理器（SMs）的用途，将其中20个SMs用于服务器间的通信，而非计算任务，从而绕开了硬件对通信速度的限制。这种操作虽然提升了硬件效率，但仍然依赖于CUDA的底层架构。

从行业角度来看，DeepSeek的这种优化方式并不意味着CUDA的生态壁垒被打破。CUDA作为英伟达提供的高级编程接口和工具链，极大地简化了开发者的工作，使得大多数开发者能够高效地利用GPU资源。而PTX的使用门槛极高，需要开发者具备深厚的硬件知识和编程经验，这使得大多数开发者仍然依赖于CUDA。

2. CUDA技术原理

unsetunset2.1 CUDA架构与编程模型unsetunset

CUDA（Compute Unified Device Architecture）是英伟达推出的一种并行计算平台和编程模型，旨在充分利用GPU的强大并行计算能力。其架构与编程模型紧密相连，共同构成了英伟达在并行计算领域的核心技术。

架构组成：CUDA架构的核心是GPU，它包含多个流处理器（Streaming Multiprocessors，SMs）。每个SM包含多个CUDA核心、共享内存、寄存器等组件。例如，英伟达的A100 GPU拥有8个GPC（Graphic Processing Cluster），每个GPC包含多个TPC（Texture Processing Cluster），而每个TPC又包含多个SM。这种层次化的架构设计使得GPU能够高效地执行大规模并行计算任务。
编程模型：CUDA编程模型将GPU视为一个设备（device），而CPU作为主机（host）。主机负责任务调度和数据传输，设备则负责执行并行计算任务。CUDA程序通常包含主机代码和设备代码，主机代码运行在CPU上，设备代码运行在GPU上。
线程层次结构：CUDA的线程层次结构包括网格（grid）、块（block）和线程（thread）。一个网格包含多个块，每个块包含多个线程。这些线程在GPU上并行执行，以完成计算任务。开发者可以通过调整网格、块和线程的大小和数量来优化并行计算性能。

unsetunset2.2 CUDA的编译流程unsetunset

CUDA的编译流程是一个多阶段的过程，主要包括以下几个步骤：

源代码编写：开发者使用CUDA C/C++等语言编写源代码，这些代码既包含主机代码，也包含设备代码。
预处理：预处理器对源代码进行预处理，处理宏定义、头文件包含等操作。
编译为PTX代码：CUDA编译器（nvcc）将主机代码编译为标准的C/C++代码，然后调用宿主编译器（如gcc）进行编译。设备代码则被编译为PTX（Parallel Thread Execution）代码，PTX是一种类似于汇编语言的中间表示，用于连接CUDA高级语言代码和GPU底层硬件指令。
PTX到SASS的转换：PTX代码在运行时被进一步编译为目标GPU架构的机器码（SASS，Streaming Assembly）。这个过程由CUDA运行时完成，它根据具体的GPU型号和架构，将PTX代码转换为GPU能够直接执行的SASS代码。
链接与加载：最后，编译生成的可执行文件被链接到一起，并在运行时加载到GPU中执行。

这种两步编译流程不仅使得CUDA程序具有跨架构的兼容性和可移植性，还为开发者提供了在不同层次上进行优化的可能性。例如，开发者可以在CUDA源代码层面进行算法优化，也可以在PTX层面进行更细粒度的优化，如寄存器分配和线程调度。

3. CUDA作为NVIDIA核心壁垒的原因

unsetunset3.1 降低开发门槛unsetunset

CUDA极大地降低了GPU编程的难度，使得更多的开发者能够轻松进入并行计算领域。在CUDA出现之前，开发者需要使用复杂的GPU编程语言，如OpenGL或DirectX等，这些语言的学习曲线陡峭，且开发效率低下。CUDA的出现改变了这一局面，它提供了一套类似于C语言的高级编程接口，开发者可以使用熟悉的编程语言和工具来编写GPU加速的代码。

易用性：CUDA的编程模型简单直观，开发者只需掌握基本的C语言知识和并行计算概念，就可以快速上手。例如，CUDA提供了丰富的库函数和API，使得开发者可以方便地进行内存管理、线程调度和数据传输等操作。
丰富的开发工具：英伟达为CUDA开发者提供了完整的工具链，包括编译器（nvcc）、调试器（cuda-gdb）、性能分析工具（Nsight）等。这些工具极大地提高了开发效率，帮助开发者快速定位和解决问题。
跨平台兼容性：CUDA程序具有良好的跨平台兼容性，开发者可以在不同的操作系统（如Windows、Linux、macOS）和硬件架构（如不同型号的NVIDIA GPU）上运行相同的代码。

这些特性使得CUDA成为了开发者进入GPU计算领域的首选工具，极大地降低了开发门槛，吸引了大量的开发者加入NVIDIA的生态系统。

unsetunset3.2 推动AI和深度学习发展unsetunset

CUDA在AI和深度学习领域发挥了至关重要的作用，它为这些领域的发展提供了强大的计算支持。随着深度学习的兴起，对计算资源的需求呈爆发式增长，CUDA的并行计算能力正好满足了这一需求。

加速深度学习框架：CUDA为众多深度学习框架提供了强大的加速支持，如TensorFlow、PyTorch等。这些框架通过CUDA接口，能够充分利用GPU的并行计算能力，显著提高训练和推理的速度。例如，使用CUDA加速的TensorFlow在训练大规模神经网络时，速度比仅使用CPU的版本快了数倍。
推动AI应用的普及：CUDA的高效计算能力使得AI应用能够更快地部署和运行，从而推动了AI技术在各个行业的广泛应用。例如，在医疗影像分析、自动驾驶、智能语音助手等领域，CUDA加速的AI模型能够实时处理大量数据，提供快速准确的结果。
促进学术研究和技术创新：CUDA的易用性和高效性吸引了大量的研究人员和开发者，他们基于CUDA平台进行了大量的创新研究。例如，许多学术机构和研究团队使用CUDA开发了新的算法和模型，推动了深度学习领域的技术进步。

正是由于CUDA在AI和深度学习领域的卓越表现，它成为了NVIDIA在高性能计算领域的重要核心壁垒，巩固了NVIDIA在这一领域的领先地位。

4. DeepSeek优化策略分析

unsetunset4.1 针对H800 GPU的定制化改造unsetunset

DeepSeek在使用英伟达H800 GPU训练其V3模型时，对GPU进行了深度定制化改造。具体而言，DeepSeek团队将H800 GPU中的132个流式多处理器（SMs）中的20个专门划分用于服务器间的通信任务，而非传统的计算任务。这种改造方式突破了硬件对通信速度的限制，显著提升了数据传输效率，进而优化了整个训练过程的性能。

这种定制化改造的实施基于PTX（Parallel Thread Execution）语言，PTX是英伟达GPU的低级指令集，运行在接近汇编语言的层面，能够实现寄存器分配和线程/线程束级别调整等细粒度优化。通过这种方式，DeepSeek能够针对特定硬件架构进行深度优化，充分发挥GPU的性能潜力。

从实际效果来看，这种定制化改造使得DeepSeek在训练大规模模型时的硬件效率比Meta等顶尖AI公司高出10倍。例如，在2,048个H800 GPU集群上，DeepSeek仅用两个月时间就训练出了6710亿参数的MoE语言模型，这一效率的提升在AI领域具有重要意义。

然而，这种定制化改造也面临着一些挑战。首先，PTX编程的复杂性极高，需要开发者具备深厚的硬件知识和编程经验。其次，针对特定型号GPU优化的代码难以移植到其他型号的GPU上，这限制了其在不同硬件环境中的通用性。此外，这种深度定制化改造的维护难度也很大，需要持续投入大量的人力和物力。

unsetunset4.2 PTX优化的优势与挑战unsetunset

PTX优化为DeepSeek带来了显著的性能提升，同时也带来了诸多挑战。从优势方面来看，PTX作为一种接近底层的指令集架构，能够实现寄存器分配、线程/线程束级别调整等细粒度优化。这些优化是CUDA C/C++等高级语言无法实现的，能够帮助开发者将GPU的性能发挥到极致。

例如，DeepSeek通过PTX优化实现了先进的流水线算法，进一步提升了训练效率。在实际应用中，这种优化能够显著减少不必要的计算开销，提高计算效率。此外，PTX优化还能够针对特定的模型和算法进行定制化调整，更好地满足特定应用场景的需求。

然而，PTX优化也面临着诸多挑战。首先，PTX编程的复杂性极高，需要开发者对GPU的工作机制有深入的理解。这种编程方式不仅开发难度大，而且维护成本也很高。其次，PTX代码的可移植性较差，针对特定型号GPU优化的代码可能难以在其他型号的GPU上运行。这使得开发者在不同硬件环境之间迁移代码时面临诸多困难。

此外，PTX优化需要大量的时间和精力投入，开发者需要对每一行代码进行精细调整。这种优化方式虽然能够带来性能的提升，但并不适用于大多数开发者。大多数开发者仍然依赖于CUDA提供的高级编程接口和工具链，这些工具能够简化开发过程，提高开发效率。

综上所述，DeepSeek通过PTX优化实现了对H800 GPU的深度定制化改造，显著提升了硬件效率和训练性能。然而，这种优化方式也面临着开发复杂性高、维护难度大、可移植性差等挑战。尽管如此，DeepSeek的这种优化策略仍然展示了其在硬件层面的深度定制能力和技术实力。

5. 对NVIDIA生态的影响

unsetunset5.1 对CUDA生态的冲击unsetunset

DeepSeek的技术策略引发了对CUDA生态可能受到冲击的讨论。从技术层面来看，DeepSeek通过PTX进行深度优化，实现了在特定场景下的极致性能，这似乎为绕开CUDA提供了一种可能性。然而，这种优化方式并不具有普遍性，CUDA生态的根基依然稳固。

CUDA的不可替代性：CUDA作为英伟达提供的高级编程接口和工具链，极大地简化了开发者的工作。对于大多数开发者而言，CUDA仍然是进入GPU计算领域的首选工具。其易用性、丰富的开发工具以及良好的跨平台兼容性，使得开发者能够高效地利用GPU资源。例如，CUDA提供了丰富的库函数和API，使得开发者可以方便地进行内存管理、线程调度和数据传输等操作。这些特性使得CUDA生态具有强大的吸引力，难以被轻易替代。
PTX的局限性：PTX虽然能够实现更细粒度的优化，但其编程复杂性极高，需要开发者具备深厚的硬件知识和编程经验。此外，PTX代码的可移植性较差，针对特定型号GPU优化的代码可能难以在其他型号的GPU上运行。这使得PTX更多地被用于特定场景下的极致优化，而非通用的开发工具。例如，DeepSeek针对H800 GPU的优化代码难以直接迁移到其他型号的GPU上。
生态粘性与开发者社区：CUDA的广泛应用使得开发者社区不断壮大，进一步增强了其生态的粘性。英伟达通过不断更新CUDA版本、优化工具链以及提供丰富的开发者资源，持续巩固其在GPU计算领域的领先地位。这种强大的生态粘性使得开发者更倾向于使用CUDA，而非转向其他复杂的底层优化方式。

unsetunset5.2 对NVIDIA硬件的依赖与适配unsetunset

尽管DeepSeek通过PTX优化实现了对英伟达H800 GPU的深度定制化改造，但这并不意味着其技术能够脱离英伟达硬件生态。相反，这种优化方式进一步证明了英伟达硬件的灵活性和可扩展性。

硬件依赖性：DeepSeek的技术优化仍然依赖于英伟达的GPU架构。PTX作为英伟达CUDA编程模型中的中间表示，是连接CUDA高级语言代码和GPU底层硬件指令的桥梁。这意味着，即使DeepSeek在PTX层面进行了深度优化，其技术仍然无法脱离英伟达的硬件生态。例如，DeepSeek在H800 GPU上的优化策略无法直接应用于其他非英伟达硬件。
适配挑战：针对特定型号GPU的优化代码难以移植到其他型号的GPU上，这限制了DeepSeek技术在不同硬件环境中的通用性。例如，DeepSeek对H800 GPU的定制化改造虽然提升了性能，但这种改造方式难以直接应用于其他型号的GPU，如A100或V100。这表明，尽管DeepSeek在特定硬件上实现了优化，但其技术的适配性仍然面临挑战。
生态合作与拓展：DeepSeek的技术优化策略也促使英伟达进一步完善其硬件生态。英伟达通过不断优化GPU架构和CUDA工具链，为开发者提供了更强大的硬件支持和更灵活的开发环境。例如，英伟达的Hopper架构在性能和灵活性方面都进行了显著提升，为类似DeepSeek的深度优化提供了更好的硬件基础。这种生态合作与拓展不仅提升了英伟达硬件的竞争力，也为开发者提供了更广阔的发展空间。

综上所述，DeepSeek的技术优化虽然在特定场景下实现了显著的性能提升，但其对CUDA生态的冲击有限。CUDA的易用性、生态粘性和开发者社区的强大吸引力，使得其在GPU计算领域仍然占据主导地位。同时，DeepSeek的技术优化进一步证明了英伟达硬件的灵活性和可扩展性，促使英伟达不断完善其硬件生态，以更好地支持开发者的需求。

6. 未来趋势展望

unsetunset6.1 PTX优化的可持续性unsetunset

PTX优化在短期内为DeepSeek带来了显著的性能提升，但从长期来看，其可持续性面临诸多挑战。

开发与维护成本：PTX编程复杂性极高，需要开发者具备深厚的硬件知识和编程经验。这种复杂性导致开发周期长、成本高，且维护难度大。例如，针对H800 GPU的PTX优化代码，可能需要数月甚至数年的时间进行开发和调试。此外，随着硬件架构的不断更新，PTX代码也需要持续更新和优化，这进一步增加了维护成本。
可移植性问题：PTX代码的可移植性较差，针对特定型号GPU优化的代码难以在其他型号的GPU上运行。这限制了PTX优化在不同硬件环境中的通用性。例如，DeepSeek针对H800 GPU的优化策略难以直接应用于A100或V100等其他型号的GPU。这种可移植性问题使得PTX优化难以大规模推广。
技术门槛与人才稀缺：PTX优化需要开发者对GPU的工作机制有深入的理解，这种技术门槛较高，导致能够从事PTX优化的开发者数量有限。相比之下，CUDA的易用性使得更多的开发者能够轻松进入GPU计算领域，开发者社区不断壮大。这种人才稀缺问题进一步限制了PTX优化的可持续性。
硬件架构的快速迭代：英伟达的GPU架构不断更新，例如从Ampere架构到Hopper架构，硬件性能和功能都有显著提升。这种快速迭代使得PTX优化需要不断适应新的硬件架构，增加了优化的难度和复杂性。例如，DeepSeek在H800 GPU上的优化策略可能需要重新调整以适应未来的GPU架构。

尽管PTX优化在特定场景下能够实现极致性能，但从长期来看，其开发与维护成本高、可移植性差、技术门槛高以及硬件架构快速迭代等因素，限制了其可持续性。未来，PTX优化可能更多地被用于特定的高性能计算场景，而非大规模的通用开发。

unsetunset6.2 对NVIDIA技术路线的启示unsetunset

DeepSeek的PTX优化策略对NVIDIA的技术路线提出了新的启示，促使NVIDIA在技术发展和生态建设方面进行进一步优化。

硬件架构的灵活性与可扩展性：DeepSeek的PTX优化展示了对硬件架构进行深度定制的可能性，这表明未来GPU架构需要更加灵活和可扩展。例如，英伟达的Hopper架构在性能和灵活性方面进行了显著提升，为类似DeepSeek的深度优化提供了更好的硬件基础。未来，NVIDIA可能会进一步优化GPU架构，使其能够更好地支持底层优化和定制化开发。
CUDA工具链的优化与创新：DeepSeek的PTX优化虽然绕开了CUDA的高级编程接口，但仍然依赖于CUDA的底层架构。这表明CUDA工具链需要不断优化和创新，以更好地支持开发者进行底层优化。例如，NVIDIA可以进一步改进CUDA编译器（nvcc），提供更高效的PTX生成和优化工具。此外，NVIDIA还可以开发新的工具链组件，帮助开发者更轻松地进行底层优化。
生态合作与开放性：DeepSeek的技术优化策略也促使NVIDIA进一步完善其硬件生态，加强与开发者和研究机构的合作。例如，NVIDIA可以与DeepSeek等公司合作，共同探索新的优化策略和技术方向。此外，NVIDIA还可以通过开放更多的硬件接口和底层API，吸引更多的开发者参与GPU优化和创新。
AI与硬件的深度融合：DeepSeek的PTX优化展示了AI技术与硬件的深度融合，这表明未来NVIDIA需要进一步加强AI技术与硬件的协同设计。例如，NVIDIA可以开发专门针对AI应用的GPU架构和优化工具，提升AI模型的训练和推理效率。此外，NVIDIA还可以与AI研究机构合作，共同推动AI技术的发展和应用。
应对竞争与创新：DeepSeek的PTX优化策略也对NVIDIA的市场竞争力提出了挑战。未来，NVIDIA需要不断创新，保持技术领先优势。例如，NVIDIA可以加快GPU架构的更新速度，推出更具竞争力的产品。此外，NVIDIA还可以通过优化CUDA生态，提升开发者体验，吸引更多开发者加入其生态系统。

DeepSeek的PTX优化策略对NVIDIA的技术路线提出了新的启示，促使NVIDIA在硬件架构、工具链优化、生态合作、AI融合等方面进行进一步改进和创新。未来，NVIDIA需要不断优化其技术路线，以应对新的挑战和机遇，保持其在GPU计算领域的领先地位。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
在这里插入图片描述

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（全套教程文末领取哈）

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）

在这里插入图片描述
👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
在这里插入图片描述

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

2025年程序员转行大模型全攻略：职业前景、热门岗位与选择策略解析！

DeepSeek技术社区

一文搞懂 Deepseek

DeepSeek技术社区

HAproxy服务器带日志

我现在有两台WindowsAD域控 10.10.10.1 和10.10.10.2，我现在有一个准入系统10.10.11.100需要提供ldap认证，我现在想搭建一个haproxy服务器IP 10.10.10.200做ldap业务的负载均衡，这样在准入系统上只要填haproxy服务器地址即可，所有通过haproxy服务器获取ladp的信息在haproxy需要有日志，haproxy服务已经安装，配置