三大开源模型技术对决：GPT_OSS、通义千问3与DeepSeek！从入门到精通，一篇就够，建议收藏！

本文详细对比了三大主流开源大模型架构：OpenAI的GPT-OSS、阿里的通义千问3和DeepSeek的V3。分析显示，GPT-OSS采用专家混合模型与Yarn技术实现13.1万token长上下文；通义千问3提供密集和稀疏两种架构，通过多阶段训练提升性能；DeepSeek V3则创新性地使用多头潜在注意力优化内存。文章指出，尽管这些模型在基准测试上表现相似，但技术实现各异，且数据集工程是各实验室的

再不会python就不礼貌了

1653人浏览 · 2025-09-10 14:03:26

再不会python就不礼貌了 · 2025-09-10 14:03:26 发布

⚠️ 本文为翻译内容，原文来自 YouTube 频道【Y Combinator】，视频标题为《OpenAI vs. Deepseek vs. Qwen： Comparing Open Source LLM Architectures》。本译文仅供学习交流使用，版权归原作者所有。

主流开源大模型架构对比：GPT OSS、通义千问3与深度求索V3

OpenAI 最近发布了 GPT-OSS，这是自 2019 年 GPT-2 以来其首个开源权重模型。这也是自今年一月 DeepSeek R1 引起轰动以来，最受瞩目的开源模型发布之一。但从架构上看，GPT-OSS 与其他顶级开源模型相比究竟如何？我们一起来看看。

[音乐]

GPT-OSS 是 OpenAI 近期最受期待的发布之一，这是一款由顶尖的美国人工智能实验室推出的完全开源权重的大模型。让我们深入研究一下它的论文，看看它究竟是如何设计和训练的。

GPT-OSS 是一款专家混合模型，提供两种规模：1200 亿参数和 200 亿参数。每个 token 会激活排名前四的专家，这意味着在任何给定时间，只有总参数的一部分被使用。这使得模型在不牺牲大模型优势的前提下，实现了高效的推理。

作为一款仅解码器 (decoder-only) 的 Transformer 模型，GPT-OSS 集成了许多现代大语言模型的典型特性。这包括分组查询注意力，一种改进的注意力机制，允许多个查询头共享同一组键值对，从而减少内存占用并加速推理。它还在前馈网络层中包含了 SwiGLU 激活函数，相比像 ReLU 这样更简单的激活函数，它能实现更精细的变换；此外还有旋转位置编码 (RoPE)，它将 token 的位置信息直接编码到注意力机制中，以支持更长的上下文。最后，该模型还使用了带预归一化 (pre-normalization) 的均方根归一化 (RMS Norm)，这是一种通过输入的均方根来缩放输入，从而实现更稳定训练的归一化方法。

该模型一个突出的能力是其 131,000 token 的上下文窗口，这是通过在预训练阶段应用 Yarn 缩放技术实现的，而不是在推理时才进行调整。关于这一点，我们稍后会在视频里详细解释。

对于 GPT-OSS，OpenAI 使用了他们开源的 0200K Harmony 分词器。这款字节对编码 (Byte Pair Encoding) 分词器拥有超过 20 万个 token，并建立在像 GPT-4o 这类模型所使用的 O200K 分词器的基础之上。

至于 GPT-OSS 的训练数据集，OpenAI 只透露了大概情况。该模型在一个数万亿 token 规模的纯文本语料库上进行训练，重点关注 STEM、编程和通用知识。为了安全，有害内容被过滤掉了，但除此之外，公开的信息就很少了。

训练完成后，该模型默认以量化格式发布，使其足够轻量，可以部署在配置不高的硬件上。这使得它可以在消费级 GPU、笔记本电脑或其他资源受限的硬件上运行。但是，官方没有提供非量化版本。GPT-OSS 为了安全性和对齐，也进行了大量的训练后处理，塑造其默认行为，以实现更可控的输出。值得一提的是，开源社区中的一些人正在尝试减少或移除这些层，以探索原始模型的能力。

在更广阔的开源人工智能领域，GPT-OSS 作为一款功能完备、开箱即用的长上下文模型登场。然而，尽管它令人印象深刻，但在迅速扩张的开源大语言模型领域，它也只是众多模型中的一员。

通义千问3 是阿里云开发的最新模型家族，于今年四月发布，引起了巨大反响，其基准测试分数可与 DeepSeek V3 或 Llama 4 等顶尖的开源模型相媲美。通义千问3 家族既包括密集模型（每次查询都会激活所有参数），也包括专家混合模型（每次查询只激活一小部分参数）。密集模型有七种不同规模的版本，其中包括一款 60 亿参数的模型，是当前这一代最小的开源权重模型之一；而专家混合模型则有两种不同规模的版本。

在架构上，通义千问3 的密集模型与阿里巴巴之前发布的通义千问2.5 模型非常相似。和通义千问2.5 及 GPT-OSS 一样，通义千问3 也集成了分组查询注意力、SwiGLU、旋转位置编码和均方根归一化等特性。通义千问3 的稀疏模型共享相同的基础架构，但增加了一个专家混合模型层，该层共有 128 个专家，每个 token 会激活其中的八个。所有通义千问3 模型也都使用了与之前通义千问模型相同的分词器，该分词器实现了字节级的字节对编码，使其能够处理任何文本或符号，而无需特殊预处理，这与基于词或字符的分词器不同。

通义千问3 与之前的通义千问模型的一个主要区别在于，它控制键、查询和值投影的规模，以在规模扩大时保持注意力分数的稳定。它用 QK 归一化 (QK norm) 取代了 QKV 偏置 (QKV bias)——后者是先前模型中用于调整 KQV 投影的静态偏移量。QK 归一化是一个归一化步骤，它能动态地重新缩放查询和键向量，以保持其大小恒定。

在数据集方面，通义千问3 在 36 万亿的预训练 token 上进行了训练，是通义千问2.5 模型的两倍。除了从多语言文本、STEM 和编程资源以及推理任务中提取数据外，通义千问3 还使用通义千问2.5 模型生成了数万亿 token 的合成数据，这些数据以教科书、指令和代码片段等不同格式呈现。

通义千问3 的预训练分为三个阶段。第一阶段是通用阶段，模型在超过 30 万亿 token 上进行训练，覆盖 119 种语言，序列长度为 4096 token。第二阶段是推理阶段，模型在额外的 5 万亿更高质量的 token 上进行训练，其中包含更多 STEM、推理和编程问题。在第三阶段，通义千问团队称之为长上下文阶段，通过一系列巧妙的算法优化，上下文长度被扩展到超过 32,000 token，这些优化包括：ABF，一种调整旋转位置编码的技术，确保位置信号在更长序列上保持准确；Yarn 技术进一步扩展以适应更长的输入；以及双块注意力 (Dual Chunk Attention) 来高效处理序列。所有这些优化共同作用，使模型能够在推理时对更长的输入进行推理。

最后，通义千问使用了一个四步的训练后处理流程，旨在实现两个目标：让用户能更好地控制对特定查询使用多少推理能力，以及高效地将大模型的能力蒸馏到小模型中。

训练后处理流程的第一步是一个长思维链冷启动阶段 (long chain of thought cold start stage)，包括给模型喂入一个包含数学、逻辑和 STEM 领域有挑战性的推理问题且附带可验证参考答案的精选数据集，然后过滤输出以确保质量。接下来是推理强化学习阶段，使用 GRPO——一种最初由 DeepSeek 研究人员开发的强化学习算法，在大约 4000 个查询-验证对上进行训练，以增强复杂问题的解决能力。我个人觉得很有意思的是，只需要 4000 个数据对就能取得这么好的效果。

训练后处理流程的第三步，思维模式融合，是通义千问3 的一项关键创新，它将推理和非推理模式整合到单个模型中，让用户无需切换模型就能更换模式。基本上，开发者在这一步所做的就是，用混合了包含中间推理步骤的“思考”数据和省略了这些步骤的“非思考”数据的数据集对模型进行微调，然后构建一个聊天界面让用户可以切换模式。尽管在通义千问刚发布时这是其独有的功能，但现在 GPT-5 也有了类似的切换开关。

最后一步是通用强化学习，扩展了模型在指令遵循、格式化、偏好对齐、工具使用和特定场景下的能力。然后，通义千问的开发者使用强模型到弱模型的蒸馏 (strong-to-weak distillation) 技术，可以将大模型的能力迁移到小模型上进行训练。

总的来说，通义千问3 的性能非常出色，特别是考虑到它相对较小的尺寸。但就在几个月前，另一款模型早已提高了开源领域的竞争门槛。

去年 12 月发布的 DeepSeek V3 模型是近年来主流实验室推出的最具雄心壮志的开源大语言模型之一。“这个在中国开发的聊天机器人叫 DeepSeek。”“DeepSeek 对当前行业的经济格局带来了根本性的改变。”“美国下载量最高的免费应用。”“这刷新了人们对可能性边界的认知。”它拥有 6710 亿参数，是一个巨大的通用基础模型，在设计上兼顾了效率与能力，为后续专注于推理的 R1 模型奠定了基础。

关于 V3 的架构或训练流程，我们这里不会深入探讨过多细节，因为我们在二月份已经发布过一篇全面的深度解析。但总的来说，关于 V3 你需要知道的是，它是一款专家混合模型，并带有多项硬件和算法上的优化，包括以原生 8-bit 而非 16 或 32-bit 格式进行训练，这对于削减训练成本来说是一项巨大的突破。

就在最近，DeepSeek 发布了一个更新版本，对 V3 进行了进一步升级。新发布的 V3.1 直接基于原始的 V3 基础检查点构建，通过一个两阶段的长上下文训练方法对其进行扩展，并增加了一个混合思维模式，让同一个模型可以在重推理和轻量级推理之间切换。得益于更先进的训练后处理，它也提升了工具使用和智能体 (agent) 的性能。实际上，这意味着 V3.1 保留了与 V3 相同的核心架构，但提供了更强的推理能力、更智能的工具使用和更卓越的性能。

V3 的一个与众不同之处在于它使用了与 GPT-OSS 和通义千问3 不同的注意力机制。在现代大语言模型中，大量的计算和内存资源都被 KV 缓存占用，因此 V3 使用了多头潜在注意力 (MLA)，它在缓存键和值之前，将它们压缩到一个更小的潜在空间中，然后在推理时再进行解压。尽管 MLA 实现起来要复杂一些，但之前的 DeepSeek V2 论文发现，相比分组查询注意力 (GQA)，它能节省更多内存并带来更好的建模性能，尤其是在像这样巨大的长上下文模型中。而这只是 DeepSeek V3 采取不同路径的几个领域之一。

了解了这些之后，让我们从 V3、通义千问再回到 GPT-OSS，退一步来看。我们应该如何从宏观层面看待这些模型之间的差异呢？

一个很大的区别在于模型规模。通义千问3 模型家族是三者中唯一一个同时提供密集模型和专家混合模型变体的，其密集模型参数范围从 60 亿到 320 亿，专家混合模型系列则包括一个 300 亿参数和一个 2350 亿参数的模型。值得注意的是，其专家混合模型基础版仅用五分之一的激活参数就达到了密集模型的性能水平。另一方面，DeepSeek V3 仅提供专家混合模型架构，总参数量为 6710 亿，每次 token 预测会激活其中的 370 亿。因此，它甚至比最大的通义千问3 模型还要大得多。GPT-OSS 则介于两者之间。它提供了两款专家混合模型：一款拥有 1170 亿参数，每次 token 激活 51 亿；另一款较小的拥有 210 亿参数，每次 token 激活 36 亿。

最有趣的技术差异之一在于每个模型扩展其上下文长度的方式。Yarn，即“又一种旋转位置编码扩展”(Yet Another RoPE Extension) 的缩写，是一种扩展模型的旋转位置编码的技术，使其能够处理比原始训练时更长的序列。通常情况下，当你输入的 token 数量超过其设定的基准频率时，旋转位置编码就会失效，但 Yarn 技术调整了这个频率，这样，同一个嵌入空间就能覆盖更长的范围。有趣的是，这三个模型使用它的方式各不相同。GPT-OSS 从预训练阶段就开始应用 Yarn，所以其权重天生就能处理 131,000 token 的上下文。DeepSeek 则采用分阶段的方法，在预训练后先进行微调达到 32,000 token，然后再进一步训练以达到 128,000。通义千问同样微调到 32,000，但跳过了额外的再训练步骤；而是在推理时，再次应用 Yarn 缩放技术，将旋转位置编码的基频提高四倍，从而在没有额外再训练的情况下达到 128,000 token。换句话说，GPT-OSS 是天生具备长上下文能力；DeepSeek 是通过逐步训练获得的；而通义千问则是在不进行更多长上下文训练的情况下，将一个 32,000 token 训练模型的潜力推向了极限。

我个人认为，关于这些论文，或者更广泛地说，是当前深度学习领域的最新进展，最有趣的事情之一是，很多内容读起来都像是经验性的发现。每个实验室都描述了对他们来说行之有效的工具组合，但几乎没有人从第一性原理出发，来论证为什么某个工具就一定比另一个更好。比如说，为什么多头潜在注意力就绝对优于分组查询注意力。这与数学或理论物理等领域截然不同，后者的核心就是提供第一性原理的解释，从公理或定律推导出结果。

此外，同样有趣的是，尽管这些模型大多拥有相似的顶级基准测试数据，并且广泛使用着相似的工具，比如注意力机制、激活函数、位置编码等等，但它们达成这些相似结果所用的技术却常常大相径庭。这一点非常令人惊讶。你可能会预期，截然不同的训练方法会导致截然不同的结果。

还有，所有主流模型都在其训练后处理以及模型训练的推理部分大量使用了强化学习。令人着迷且相当惊讶的是，其中一些强化学习的工作所需的数据量非常小——比如在通义千问的案例中，只需要 4000 个数据对。

另一点是，各个实验室之间在数据集上的差异非常不透明。从论文中可以清楚地看到，在数据集工程方面，幕后有大量的工作正在进行。这项工作很可能是这些公司敢于发布其模型的重要护城河之一，因为要复现他们发布的东西是非常困难的。

所以，阅读这些论文时最大的启示是，你不应该只关注基准测试性能或上下文长度这类顶层数据。而应该去关注这些实验室为达成这些结果所使用的具体方法。视频里还有很多高性能的开源模型我们没有讨论，比如 Kim K2 或谷歌的 Gemma 3。但当你深入了解其中许多模型的内部机制时，你会发现一些我个人觉得非常有意思的细微差别。

希望这能为你提供一个理解最新开源发布的框架，并给你一套工具包，让你能开始自己动手去实践。感谢观看，我们下期再见。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。
在这里插入图片描述

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型实战项目&项目源码👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战项目来学习。（全套教程文末领取哈）
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）
在这里插入图片描述

为什么分享这些资料?

只要你是真心想学AI大模型，我这份资料就可以无偿分享给你学习，我国在这方面的相关人才比较紧缺，大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述