详解DeepSeek-V3：大模型训练加速神器，MoE焕发新生丨智源深度

来源：智源社区在当前人工智能发展的主要议题中，可扩展且高效的AI模型占据了重要的位置。这不仅涉及到模型的性能，也涉及到如何在有限的计算资源下完成高效的运算。我国科技企业在过去的几年里，始终坚持着开发出能够解决更为复杂问题并处理更大数据量的模型的目标，而这一切并不需要依赖过多的计算能力。在众多的人工智能技术中，大语言模型（LLM）以其强大的功能和广泛的应用，赢得了广大科技人员的喜爱。然而，这些模型的

人工智能学家

593人浏览 · 2025-01-17 16:13:20

人工智能学家 · 2025-01-17 16:13:20 发布

来源：智源社区

在当前人工智能发展的主要议题中，可扩展且高效的AI模型占据了重要的位置。这不仅涉及到模型的性能，也涉及到如何在有限的计算资源下完成高效的运算。我国科技企业在过去的几年里，始终坚持着开发出能够解决更为复杂问题并处理更大数据量的模型的目标，而这一切并不需要依赖过多的计算能力。

在众多的人工智能技术中，大语言模型（LLM）以其强大的功能和广泛的应用，赢得了广大科技人员的喜爱。然而，这些模型的计算成本相对较高，特别是在资源受限的情况下，相对更难以应用。因此，如何在保证模型性能的同时，降低其计算成本，是我们当前面临的重要挑战之一。

作为解决此类问题的最优策略之一，一种名为Mixture-of-Experts（MoE，混合专家）的AI模型应运而生。MoE模型的独特之处在于，它将一个大模型划分为多个专注于特定任务的较小子网络，这些子网络被称为“专家”。这一机制使得模型能够在不增加计算成本的前提下，显著提升其处理和解决问题的能力。

MoE模型的这种设计理念，突破了传统的模型设计思维，实现了在有限的计算资源下，通过分割和组合的方式，实现了模型性能的显著提升。这种设计理念，不仅提供了一种全新的解决方案，同时也为研究者提供了全新的思考方式。

图1：Deepseek网站最新界面

DeepSeek-V3，作为语言建模领域的最新突破，便是MoE技术在大语言模型领域的成功应用。这个系统的设计理念是，对于任何特定的任务，只激活和使用最相关的“专家”，以此大幅度降低计算成本，同时保持高性能。这是一种颠覆性的创新，它将计算成本和模型性能的矛盾，转化为了可以并行解决的问题。

具体来说，DeepSeek-V3拥有惊人的6710亿参数，但在实际运行过程中，每个输入只会触发370亿参数，这使得它在维持高性能的同时，实现了计算效率和计算能力之间无与伦比的平衡。

这就好比在一座巨大的图书馆中，只去找自己需要的那几本书，而不是把所有的书都翻遍，既节省了时间，又保证了找到所需的信息。近期基于该模型上线的app带给了大家不小的震撼。接下来本文会介绍Deepseek-V3的主要特点、技术原理和未来前景。

▊Deepseek-V3主要特点

DeepSeek-V3通过应用其MoE（混合专家）架构，成功地实现了一系列的关键优势，其中效率的提升最为显著。它采用了一种独特的方法，即通过Mixture-of-Experts（MoE）模式，仅激活部分参数（例如，在总共6710亿参数中仅激活370亿），来应对任何输入。这种选择性激活的方式大大降低了计算成本，从而使DeepSeek-V3在保持高性能的同时，也能在计算资源的使用上保持高效。这种方法的优点在于，它在不牺牲性能的基础上，降低了对计算资源的需求。

换句话说，DeepSeek-V3的设计理念是，通过智能地选择激活哪些参数，而不是盲目地激活所有参数，从而实现了在有限的计算资源下，实现最优的表现。这种方法不仅提高了计算效率，也使得DeepSeek-V3能够在处理复杂任务时，表现出更高的性能。

在此基础上，DeepSeek-V3的MoE设计还具有出色的可扩展性。这一设计通过整合不同领域的“专家”，实现了模型的灵活扩展，无需将所有模型紧密集成在一起。通过这种模块化的设计，DeepSeek-V3能轻松地进行规模扩展，同时还能灵活地适应新的需求和挑战。这种模块化的设计方式，使得DeepSeek-V3能够根据需要，快速增加或减少“专家”，以适应不同的任务和环境。

这不仅大大提高了模型的灵活性，也使得模型能够更好地适应未来的改变和发展。此外，这种模块化的设计方式，还使得DeepSeek-V3能够轻松地整合新的评估方式，以适应新的需求，而无需进行新的训练过程。换句话说，通过对模型的“专家”进行灵活的组合和调整，我们可以在不改变现有训练结果的情况下，对模型进行进一步的优化和改进。

专业化是MoE架构的另一大优势，它允许各个“专家”被训练以执行特定领域的任务，以提升在特定领域的性能。这种专业化的策略使得DeepSeek-V3在处理某些专业任务，如编码和数学等领域时，能表现出超越其他模型的优秀性能。在MoE架构中，每一个“专家”都是针对特定任务进行优化的，这使得DeepSeek-V3在面对这些特定任务时，能够展现出卓越的性能。例如，对于编码任务，编码“专家”可以利用其深度学习的编码知识，有效地解决各种编码问题；对于数学任务，数学“专家”可以利用其深度学习的数学知识，有效地解决各种数学问题。

图2：DeepSeek-V3 基本架构示意图。团队采用了多头潜在注意力（MLA）和 DeepSeekMoE 架构，以实现高效推理和经济的训练。

同时，DeepSeek-V3在提高推理速度方面表现出色，这得益于其独特的选择性激活策略。在处理特定问题时，只有网络中的一部分“专家”会被激活，这极大地加快了推理速度。这种选择性激活策略有效地消除了处理响应的延迟，使得系统的交互更为迅速。这种快速响应的特性对于实时服务具有极其重要的意义。在许多情况下，如自动驾驶、在线游戏、实时翻译等应用场景中，系统需要在极短的时间内对输入做出反应，这就要求模型具有快速的推理能力。DeepSeek-V3通过其选择性激活策略，成功地满足了这一需求。

DeepSeek-V3通过其多功能和灵活的MoE架构，实现了多种潜在的功能和用途。首先是增强的代码生成和调试：DeepSeek-V3的MoE架构使得在专门的编程语言和编码风格上生成专家变得更为简单和直接。这种针对性的方法使得代码生成更为精确和高效，因为每一个特定的“专家”都专注于一个特定的任务，从而增强了代码的质量和效率。与此同时，相比于通用模型可能存在的随机性错误，这种有目标的编码会大大减少上下文错误，因为每个“专家”都对其专业领域有深入的理解和掌握。

其次是高级数学问题的解决：MoE架构使得DeepSeek-V3能够利用专门训练的数学专家来准确地解决高级数学问题。这些专家可以解决复杂的方程、逻辑证明以及大部分的定性数学问题。模型中的数学“专家”可以提升对数学的掌握能力，因为他们专门负责处理与数学相关的任务。这种专门化的方法使得模型在处理数学问题时，无论是在内容的理解还是解决方法上都能表现出更高的质量和准确性。

最后是下一代AI助手的发展：DeepSeek-V3系统集成了各个阶段的“专家”，这推动了下一代AI助手的发展。这些AI助手能够提供平衡且情境驱动的解决方案，覆盖了推理、编码和数学推理等各个领域。MoE的架构设计使得这些AI助手能够灵活地适应各种领域的变化，从而提供更好的服务给用户。

总的来说，DeepSeek-V3通过其强大的MoE架构，为我们提供了一种全新的解决方案，无论是在代码生成、高级数学问题的解决，还是在下一代AI助手的发展，它都展示出了强大的潜力和前景。

图3：Deepseek-V3在数学问题、代码生成上均取得不错的效果

▊Deepseek-V3的技术原理

DeepSeek-V3的核心是一个被称为DeepSeekMoE的结构，它为计算资源的管理提供了一种全新的方法。在这个系统中，根据当前任务的需要，系统会动态地激活其“专家”子集，以使系统能够更有效地扩展，而不会过载计算资源。这种架构的一个显著特点是其动态冗余策略。通过调整专家的分配，DeepSeek-V3可以在推理和训练过程中保持最佳的负载平衡。这就好比在一支足球队中，根据比赛的进程和对手的策略，动态调整队员的位置和任务，以保持最佳的攻防平衡。

总的来说，DeepSeek-V3是一种结合了效率和尖端技术的先进语言建模系统。它以全新的方式处理计算资源，通过动态激活相关的“专家”，使得在保持高性能的同时，大幅度降低了计算成本。具体来说，他的技术创新主要体现在如下方面：

首先是共享专家和路由专家。DeepSeek-V3 引入了两种利用其专家的创新方法：共享专家是指这些是处理常见任务的通用专家，可以跨多个请求共享。共享专家确保模型具有可靠的知识基础，可用于日常查询。路由专家是指根据任务的具体要求动态激活的路由专家。这些专家专注于特定或复杂问题，确保模型提供高度准确和上下文特定的结果。通过将共享和路由专家与动态冗余和统计负载调整相结合，DeepSeek-V3 确保了平衡的计算开销，而不影响性能。

其次是多头潜在注意力（MLA）。在传统的模型中，关键-值对通常会占用大量的内存空间，这在处理大规模数据或复杂任务时，往往会造成内存的过度消耗，甚至导致模型运行效率的大幅下降。而MLA通过将关键-值对压缩为紧凑的潜在向量，有效地解决了这个问题。这种压缩不仅大大降低了内存的需求，也使得模型在运行过程中更加流畅和高效。MLA 将关键-值缓存压缩为紧凑的潜在向量。这降低了运行模型的内存需求，确保在处理复杂任务时仍然保持高效。

DeepSeek-V3的另一个显著特点是其在专家间的工作负载平衡能力，这大大简化了模型的操作。通过直观地分配任务给各个“专家”，DeepSeek-V3避免了需要额外校正机制的需求。这种设计不仅简化了训练过程，还提高了模型的运行效率，使得DeepSeek-V3更适合处理大规模的应用。

在传统的模型中，往往需要额外的校正机制来平衡各个部分的工作负载，这不仅增加了模型的复杂性，也降低了模型的运行效率。而DeepSeek-V3通过直观地在其“专家”之间平衡工作负载，成功地避免了这一问题。这种设计使得模型在处理复杂任务时，仍能保持出色的性能和高效的运行。

此外，DeepSeek-V3在训练和推理过程中，保持了无令牌丢失。这是一个重大的进步，因为在传统的模型中，令牌丢失是一个常见的问题，它会导致模型在处理连续任务时，出现断层和错误。而DeepSeek-V3的这一设计，确保了模型在处理连续任务时，能够保持连续的处理，从而提高了模型的性能和稳定性。

图4：8 个 PP 排位和 20 个微批次在两个方向上的双管道调度示例。反向方向的微批次与前向方向的微批次对称，因此为简化说明，省略了反向微批次的批次 ID。两个由共享黑色边框围住的单元存在相互重叠的计算和通信。

DeepSeek-V3的另一项创新技术是引入了多令牌预测（Multi-Token Prediction，简称MTP）。这是一种新的预测模式，让模型能够同时预测多个令牌，而非传统的逐个预测。这种改变极大地提升了文本生成的流畅性、连贯性和速度。在这些应用中，快速和准确的文本生成是非常关键的。传统的逐令牌预测方式往往会导致生成的文本断断续续，影响了生成文本的流畅度和连贯性。

而DeepSeek-V3通过MTP，实现了快速且流畅的文本生成，大大提升了用户体验。值得一提的是，MTP不仅可以预测多个令牌，还能在顺序预测的过程中，保留每个深度的完整因果链。这意味着，即使在同时预测多个令牌时，DeepSeek-V3也能确保生成的输出在语义上的连贯性和完整性。这一特性使得DeepSeek-V3在处理复杂的文本任务时，能够生成高质量且连贯的文本。

图5：Deepseek-V3多令牌实施示意图（Multi-Token Prediction，MTP）

最后，DeepSeek-V3的效率优化还在于其融合了混合精度框架，这是一种结合了16位和32位浮点计算的策略，旨在在训练和推理过程中优化计算效率。通过巧妙地在不同的计算过程中切换使用16位和32位浮点数，DeepSeek-V3成功地减少了内存的使用，加快了计算速度，同时并未对模型的准确性产生负面影响。

在训练和推理的过程中，部分计算过程需要高精度的32位浮点数来确保准确性，而部分计算过程则可以使用精度稍低的16位浮点数来进行，从而节省内存，提高效率。DeepSeek-V3通过精确地识别和划分这两种计算过程，实现了在不损失准确性的前提下，优化内存使用和计算效率。

图6：带有 FP8 数据格式的整体混合精度框架。为清晰起见，仅展示了线性算子。

▊Deepseek-V3的前景分析

开发者们通过与其他强大的语言模型进行严格比较，已经令人信服地展示了DeepSeek-V3的出色性能。使用不同的基准测试来比较DeepSeek-V3与开源竞争对手（如Qwen2.5和LLaMA-3.1）以及闭源竞争对手（如GPT-4o和Claude-3.5-Sonnet）在英语和必要的中文语言任务方面的表现。

这些基准测试涵盖了各种关键领域：一般事实和知识（MMLU，MMLU-Pro），逻辑和理性（DROP，LongBench v2），编码（HumanEval-Mul，LiveCodeBench）和数学计算（AIME，MATH-500）。

分析结果显示，DeepSeek-V3在大多数时候也是最佳变体之一，与其他开源对手持平甚至在某些情况下表现更好，同时几乎总是与闭源基准持平或更好。除了这些比较标准外，还进行了其他一些测试和实验来评估DeepSeek-V3的能力。其中，例如，消融研究揭示了模型特定架构组件和训练策略的贡献。集成参考识别和顺序回忆的测试评估了DeepSeek-V3的性能，该模型可以处理文本序列的理解。更具体地说，编码和数学推理任务被特别强调从DeepSeek-V3的新架构中受益，同时报告认为从DeepSeek-R1进行的知识蒸馏尤其有益。

图7：Deepseek-V3与其他模型性能对比

具体来说，DeepSeek-V3、Phi-4和Llama 3.3作为大型语言模型进行比较具有各自的优势。由于DeepSeek-V3的架构是Mixture-of-Experts，并且使用了大量数据进行训练，在数学、编码和中文语言等特定基准测试中甚至能够击败闭源版本，但在其他方面表现明显不足，例如在英语的事实知识方面表现较差。

Phi-4是在合成和有机数据的混合上进行训练，更侧重于推理，在STEM问答和编码方面表现出色，有时甚至比其教师模型GPT-4o提供更准确的结果。其局限性包括较小的上下文窗口和易受幻觉影响。Llama 3.3优先考虑多语言对话和一般语言理解，具有更大的上下文窗口，适合处理扩展文本。尽管在多语言任务中表现良好，但它不具有Phi-4在STEM方面或DeepSeek-V3在中文方面的专注优势。

图8：英文开放式对话评估。在 AlpacaEval 2.0 中，V3使用“长度控制胜率”作为核心评估指标，以衡量模型在对话生成中的表现。

而他最大的优势在于快速且免费。DeepSeek-V3的快速性体现在其优秀的计算效率和高速的响应时间上。无论是处理复杂的任务，还是执行大规模的操作，DeepSeek-V3都能在短时间内给出准确的结果。这种快速的特性对于用户来说非常重要，因为在今天的快节奏社会中，时间就是效率，效率就是金钱。

而DeepSeek-V3的免费性则打破了AI技术的门槛，让更多的人能够接触并使用到这项先进的技术。在许多情况下，高昂的使用费用往往会阻碍普通用户使用AI产品。而DeepSeek-V3的免费策略，让更多的人能够享受到AI带来的便利和乐趣。

DeepSeek-V3在很多方面都表现出优异的性能，例如它的高测试准确性、低时间复杂度，以及在各种任务上的高效表现，这都赢得了广大用户和研究人员的赞誉。然而，尽管有这些优点，该研究仍存在一些潜在的缺陷。首先，该模型建议的大规模部署可能会给资源有限的团队带来挑战。DeepSeek-V3具有丰富的功能和复杂的架构，这意味着它需要相应的资源来支持。对于那些精简的团队来说，他们可能会在资源和技术上遇到困难，这可能会限制他们充分利用DeepSeek-V3的能力。

其次，尽管DeepSeek-V3在生成速度方面优于其前身，但在实践中，仍有提升空间。特别是在大规模并行处理和实时响应方面，DeepSeek-V3仍需进一步优化以提高其处理速度。这将非常关键，因为在许多实际应用中，例如在线聊天机器人或实时翻译工具，快速响应是至关重要的。

未来的研究工作将集中在进一步优化DeepSeek-V3的架构上，以增强其在训练和推理过程中的性能。这可能涉及对当前模型的根本性改变，例如放弃现有的Transformer架构。

Transformer架构虽然有其优点，但在某些情况下可能存在效率低下或资源消耗大的问题。通过寻找新的架构，有可能发现更高效、更节省资源的解决方案。另一个重要的研究方向是确定无限的理想上下文大小。在现有模型中，上下文大小往往受到限制，这可能会对模型的性能产生影响。

如果我们能确定一个理想的上下文大小，那么模型就能更好地理解和处理长篇的文本，从而提高其性能。同时，研究者们还可以专注于增强少样本学习的能力和稳定的对齐方法和更有效的强化学习奖励信号。少样本学习是一种重要的学习策略，它能使模型在只有少量样本的情况下也能进行有效的学习。

通过改进这方面的技术，我们可以让DeepSeek-V3在数据稀缺的情况下也能表现得很好。而对齐方法对于保证生成文本的质量至关重要，而强化学习奖励信号则是驱动模型学习的关键因素。通过优化这些技术，我们可以进一步提高DeepSeek-V3的性能。

▊小结

DeepSeek-V3的出现，是MoE框架在大语言模型领域一次很成功的实践。他的多样性和灵活性使得各类人群都可以从中受益。

首先，对于AI专家和研究者来说，DeepSeek-V3的混合专家（MoE）架构和训练方案提供了一种研究和实现大规模语言模型（LLM）的有力工具。这些先进的技术和方法为他们提供了深入探索AI和机器学习领域的可能性。对于各种组织和企业，DeepSeek-V3的灵活性和效率使其成为实施复杂自然语言处理（NLP）功能的理想选择。

无论是会话代理、代码生成模型，还是其他高级NLP功能，DeepSeek-V3都能提供出色的性能和稳定的结果。这使得组织可以更容易地将AI技术引入他们的工作流程，从而提高效率和效果。

对于广大公众，DeepSeek-V3提供了一种先进且适应性强的AI工具。它能提供更好的搜索、翻译和虚拟助手功能，有效改善信息处理流程，简化日常任务。无论是在工作中还是在日常生活中，DeepSeek-V3都能提供实用和便捷的帮助，从而提高生活的品质和效率。而这样一款产品的出现，也给我们做国产自主研发大模型注入了一针强心剂，也期待着我们未来的国产大模型越做越好！

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。

截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告

2024 美国众议院人工智能报告：指导原则、前瞻性建议和政策提案
未来今日研究所：2024 技术趋势报告 - 移动性，机器人与无人机篇
Deepmind：AI 加速科学创新发现的黄金时代报告
Continental 大陆集团：2024 未来出行趋势调研报告
埃森哲：未来生活趋势 2025
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
哈尔滨工业大学：2024 具身大模型关键技术与应用报告
爱思唯尔（Elsevier）：洞察 2024：科研人员对人工智能的态度报告
李飞飞、谢赛宁新作「空间智能」等探索多模态大模型性能
欧洲议会：2024 欧盟人工智能伦理指南：背景和实施
通往人工超智能的道路：超级对齐的全面综述
清华大学：理解世界还是预测未来？世界模型综合综述
Transformer 发明人最新论文：利用基础模型自动搜索人工生命
兰德公司：新兴技术监督框架发展的现状和未来趋势的技术监督报告
麦肯锡全球研究院：2024 年全球前沿动态（数据）图表呈现
兰德公司：新兴技术领域的全球态势综述
前瞻：2025 年人形机器人产业发展蓝皮书 - 人形机器人量产及商业化关键挑战
美国国家标准技术研究院（NIST）：2024 年度美国制造业统计数据报告（英文版）
罗戈研究：2024 决策智能：值得关注的决策革命研究报告
美国航空航天专家委员会：2024 十字路口的 NASA 研究报告
中国电子技术标准化研究院 2024 扩展现实 XR 产业和标准化研究报告
GenAI 引领全球科技变革关注 AI 应用的持续探索
国家低空经济融创中心中国上市及新三板挂牌公司低空经济发展报告
2025 年计算机行业年度策略从 Infra 到 AgentAI 创新的无尽前沿
多模态可解释人工智能综述：过去、现在与未来
【斯坦福博士论文】探索自监督学习中对比学习的理论基础
《机器智能体的混合认知模型》最新 128 页
Open AI 管理 AI 智能体的实践
未来生命研究院 FLI2024 年 AI 安全指数报告英文版
兰德公司 2024 人工智能项目失败的五大根本原因及其成功之道 - 避免 AI 的反模式英文版
Linux 基金会 2024 去中心化与人工智能报告英文版
脑机接口报告脑机接口机器人中的人机交换
联合国贸发会议 2024 年全球科技创新合作促发展研究报告英文版
Linux 基金会 2024 年世界开源大会报告塑造人工智能安全和数字公共产品合作的未来英文版
Gartner2025 年重要战略技术趋势报告英文版
Fastdata 极数 2024 全球人工智能简史
中电科：低空航行系统白皮书，拥抱低空经济
迈向科学发现的生成式人工智能研究报告：进展、机遇与挑战
哈佛博士论文：构建深度学习的理论基础：实证研究方法
Science 论文：面对 “镜像生物” 的风险
镜面细菌技术报告：可行性和风险
Neurocomputing 不受限制地超越人类智能的人工智能可能性
166 页 - 麦肯锡：中国与世界 - 理解变化中的经济联系（完整版）
未来生命研究所：《2024 人工智能安全指数报告》
德勤：2025 技术趋势报告空间计算、人工智能、IT 升级。
2024 世界智能产业大脑演化趋势报告（12 月上）公开版
联邦学习中的成员推断攻击与防御：综述
兰德公司 2024 人工智能和机器学习在太空领域感知中的应用 - 基于两项人工智能案例英文版
Wavestone2024 年法国工业 4.0 晴雨表市场趋势与经验反馈英文版
Salesforce2024 年制造业趋势报告 - 来自全球 800 多位行业决策者对运营和数字化转型的洞察英文版
MicrosoftAzure2024 推动应用创新的九大 AI 趋势报告
DeepMind：Gemini，一个高性能多模态模型家族分析报告
模仿、探索和自我提升：慢思维推理系统的复现报告
自我发现：大型语言模型自我组成推理结构
2025 年 101 项将 (或不会) 塑造未来的技术趋势白皮书
《自然杂志》2024 年 10 大科学人物推荐报告
量子位智库：2024 年度 AI 十大趋势报告
华为：鸿蒙 2030 愿景白皮书（更新版）
电子行业专题报告：2025 年万物 AI 面临的十大待解难题 - 241209
中国信通院《人工智能发展报告（2024 年）》
美国安全与新兴技术中心：《追踪美国人工智能并购案》报告
Nature 研究报告：AI 革命的数据正在枯竭，研究人员该怎么办？
NeurIPS 2024 论文：智能体不够聪明怎么办？让它像学徒一样持续学习
LangChain 人工智能代理（AI agent）现状报告
普华永道：2024 半导体行业状况报告发展趋势与驱动因素
觅途咨询：2024 全球人形机器人企业画像与能力评估报告
美国化学会 (ACS)：2024 年纳米材料领域新兴趋势与研发进展报告
GWEC：2024 年全球风能报告英文版
Chainalysis：2024 年加密货币地理报告加密货币采用的区域趋势分析
2024 光刻机产业竞争格局国产替代空间及产业链相关公司分析报告
世界经济论坛：智能时代，各国对未来制造业和供应链的准备程度
兰德：《保护人工智能模型权重：防止盗窃和滥用前沿模型》-128 页报告
经合组织成年人是否具备在不断变化的世界中生存所需的技能 199 页报告
医学应用中的可解释人工智能：综述
复旦最新《智能体模拟社会》综述
《全球导航卫星系统（GNSS）软件定义无线电：历史、当前发展和标准化工作》最新综述
《基础研究，致命影响：军事人工智能研究资助》报告
欧洲科学的未来 - 100 亿地平线研究计划
Nature：欧盟正在形成一项科学大型计划
Nature 欧洲科学的未来
欧盟科学 —— 下一个 1000 亿欧元
欧盟向世界呼吁加入我们价值 1000 亿欧元的研究计划
DARPA 主动社会工程防御计划（ASED）《防止删除信息和捕捉有害行为者（PIRANHA）》技术报告
兰德《人工智能和机器学习用于太空域感知》72 页报告
构建通用机器人生成范式：基础设施、扩展性与策略学习（CMU 博士论文）
世界贸易组织 2024 智能贸易报告 AI 和贸易活动如何双向塑造英文版
人工智能行业应用建设发展参考架构
波士顿咨询 2024 年欧洲天使投资状况报告英文版
2024 美国制造业计划战略规划
【新书】大规模语言模型的隐私与安全
人工智能行业海外市场寻找 2025 爆款 AI 应用 - 241204
美国环保署 EPA2024 年版汽车趋势报告英文版
经济学人智库 EIU2025 年行业展望报告 6 大行业的挑战机遇与发展趋势英文版
华为 2024 迈向智能世界系列工业网络全连接研究报告
华为迈向智能世界白皮书 2024 - 计算
华为迈向智能世界白皮书 2024 - 全光网络
华为迈向智能世界白皮书 2024 - 数据通信
华为迈向智能世界白皮书 2024 - 无线网络
安全牛 AI 时代深度伪造和合成媒体的安全威胁与对策 2024 版
2024 人形机器人在工业领域发展机遇行业壁垒及国产替代空间分析报告
《2024 年 AI 现状分析报告》2-1-3 页.zip
万物智能演化理论，智能科学基础理论的新探索 - newv2
世界经济论坛智能时代的食物和水系统研究报告
生成式 AI 时代的深伪媒体生成与检测：综述与展望
科尔尼 2024 年全球人工智能评估 AIA 报告追求更高层次的成熟度规模化和影响力英文版
计算机行业专题报告 AI 操作系统时代已至 - 241201
Nature 人工智能距离人类水平智能有多近？
Nature 开放的人工智能系统实际上是封闭的
斯坦福《统计学与信息论》讲义，668 页 pdf
国家信息中心华为城市一张网 2.0 研究报告 2024 年
国际清算银行 2024 生成式 AI 的崛起对美国劳动力市场的影响分析报告渗透度替代效应及对不平等状况英文版
大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战
毕马威 2024 年全球半导体行业展望报告
MR 行业专题报告 AIMR 空间计算定义新一代超级个人终端 - 241119
DeepMind 36 页 AI4Science 报告：全球实验室被「AI 科学家」指数级接管
《人工智能和机器学习对网络安全的影响》最新 273 页
2024 量子计算与人工智能无声的革命报告
未来今日研究所：2024 技术趋势报告 - 广义计算篇
科睿唯安中国科学院 2024 研究前沿热度指数报告
文本到图像合成：十年回顾
《以人为中心的大型语言模型（LLM）研究综述》
经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版
波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告英文版
理解世界还是预测未来？世界模型的综合综述
GoogleCloudCSA2024AI 与安全状况调研报告英文版
英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施
花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告
国际可再生能源署 IRENA2024 年全球气候行动报告
Cell: 物理学和化学、人工智能知识领域的融合
智次方 2025 中国 5G 产业全景图谱报告

上下滑动查看更多

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

一文搞懂 Deepseek

DeepSeek技术社区

2025年程序员转行大模型全攻略：职业前景、热门岗位与选择策略解析！

DeepSeek技术社区

Deepseek记录 HAproxy服务器带日志

我现在有两台WindowsAD域控 10.10.10.1 和10.10.10.2，我现在有一个准入系统10.10.11.100需要提供ldap认证，我现在想搭建一个haproxy服务器IP 10.10.10.200做ldap业务的负载均衡，这样在准入系统上只要填haproxy服务器地址即可，所有通过haproxy服务器获取ladp的信息在haproxy需要有日志，haproxy服务已经安装，配置