导 读INTRODUCTION

图片

   在人工智能领域,大型语言模型的发展一直备受关注。浙江大学计算机科学与技术学院的朱强教授在浙江大学DeepSeek系列专题线上公开课第二季《DeepSeek技术溯源及前沿探索》专题讲座中,深入探讨了DeepSeek技术的溯源及前沿探索,为听众揭示了这项技术在AI领域的巨大潜力和应用前景。

如果感兴趣的话,根据下方提示可以自取哈。

点击下载→浙江大学朱强教授:《DeepSeek技术溯源及前沿探索》

开启你的 DeepSeek 之旅吧!

后续会陆续分享DeepSeek讲座视频,关注我们不迷路哦!

以下是对这些核心内容的简要概述:

图片

       朱强教授首先介绍了语言模型的基本概念及其终极目标——计算任意词序列作为一句话的概率。他通过生动的例子解释了语言模型是如何通过编码让计算机理解人类语言的,并指出了One-hot Encoding和Word Embedding等方法的优缺点。

图片

图片

      接着,朱教授详细讲解了Transformer架构的创新之处,特别是自注意力机制和多头注意力机制如何从多个角度捕捉复杂的语义关系,从而极大地提高了模型的并行计算能力和全局上下文理解能力。

图片

图片

图片

       在ChatGPT部分,朱教授阐述了其技术背景和特点,特别是如何通过人类反馈的强化学习进行指令微调,以及ChatGPT在多模态能力、逻辑推理能力和安全性方面的显著提升。

图片

图片

      讲座重点之一是DeepSeek技术。朱教授介绍了DeepSeek模型的技术全景图,包括其混合专家模型、多头潜在注意力机制(MLA)以及如何通过极致的工程优化提升训练效率。此外,他还详细解释了DeepSeek如何通过强化学习和知识蒸馏等方法提升模型的推理性能。

图片

       最后,朱教授展望了新一代智能体的发展方向,即结合语言模型和智能体,利用“系统2”的逻辑推理能力进行任务规划和工具选择,从而实现更智能的自主化服务。

图片

图片

图片

       朱强教授的讲座不仅深入浅出地解析了DeepSeek技术的核心原理和发展历程,还展示了其在实际应用中的巨大潜力,为在场听众提供了一场精彩绝伦的AI科技盛宴。

图片

图片

篇幅有限以上只是部分内容概览

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐