deepseek-R1介绍

deepseek R1是由国内幻方量化推出的大预言模型,目前在各大评测榜单中都名列前茅。性能对标OpenAI o1,要知道o1是需要每月付费20美金才可以进行使用,但是deepseek完全免费!更重要的是deepseek所使用的训练成本和推理成本都远低于openai,而且代码也进行了开源。

img

那么deepseek-R1是如何做到这一切的呢?

deepseek-R1结合了一小部分冷启动数据和多阶段训练流程:微调 → RL → 微调 → RL。

  1. 首先收集了数千个冷启动数据来微调 DeepSeek-V3-Base 模型
  2. 随后,进行类似 DeepSeek-R1-Zero 的面向推理的强化学习
  3. 当强化学习过程接近收敛时,通过对 RL 检查点进行拒绝采样,结合 DeepSeek-V3 在写作、事实问答和自我认知等领域的监督数据,创建新的 SFT 数据,然后重新训练DeepSeek-V3-Base 模型
  4. 在用新数据微调后,检查点会经历额外的 RL 过程——且会考虑到所有场景的提示。

经过这些步骤后,最终一个称为 DeepSeek-R1 的checkpoint,其性能可以与 OpenAI-o1-1217 相媲美。

如何使用

目前deepseek使用非常简单,首先进入deepseek官网:https://chat.deepseek.com/,

img

然后点击深度思考。

写作能力

我们这里先让他创造一个剧本来进行测试。img

img

我们可以清晰的看到deepseek的思考过程,这非常有趣,可以看到deepseek在进行猜测用户可能需要什么内容,然后自主进行思考输出,自己思考需要注意的点,哪里需要设计的更加详细。

编程能力

下面我们来看看deepseek在编程方面的能力,这里我让deepseek R1设计一个俄罗斯方块游戏。

img

img

img
实测运行下来,玩起来都正常,编程能力也非常不错。也思考的非常快,只思考了14秒。

推理能力

我们这里发给他一篇高数题看看img

img我们可以清楚的看见AI的解题过程,这也很好的抨击了那些觉得AI是一个查询知识库的人,AI是经过学习知识然后进行推理后得出的答案。我们可以清晰的看到每一个选项的推理过程。

API接入

deepseek目前也开放了api接入,可以直接在官网右上角的API入口进入将其接入到自己的应用中。

img

不足之处

  1. 目前deepseek暂时还没有开放视觉模型,也没有画图模型,还没有画图功能、语音功能。
  2. 有时候对于文字的理解还没有那么到位,不过这也是大模型的通病。

但是这些问题都是小问题,最重要的是它开源,并且非常强,训练成本也低。预估在2025年,全球的AI基础模型水平都会有所提升。

使用建议

如果你还没有用过deepseek,那么我建议你一定要去尝试。

之前我是oenai plus深度用户,每月都续费。

目前已经很久没有使用过gpt了,不论是日常写作还是编程等等,deepseek都能轻松胜任。

最后的话

作为一名AI深度用户,很久没有这么令人鼓舞的AI出现了,上一次还是openai发布gpt4的时候。

Deepseek的开源精神和实力都让我眼前一亮,这会极大提升国产AI水平快速赶上国际水平,甚至我们可以弯道超车了。

最后,它是免费的!他也证明了中国团队的实力,在AI领域,中国团队也是可以做出世界级产品,而不是简单套壳,简单做应用。

2025!中国AI未来可期。

我的DeepSeek部署资料已打包好(自取↓)
https://pan.quark.cn/s/7e0fa45596e4

但如果你想知道这个工具为什么能“听懂人话”、写出代码 甚至预测市场趋势——答案就藏在大模型技术里!

❗️为什么你必须了解大模型?

1️⃣ 薪资爆炸:应届大模型工程师年薪40万起步,懂“Prompt调教”的带货主播收入翻3倍

2️⃣ 行业重构:金融、医疗、教育正在被AI重塑,不用大模型的公司3年内必淘汰

3️⃣ 零门槛上车:90%的进阶技巧不需写代码!会说话就能指挥AI

(附深度求索BOSS招聘信息)
在这里插入图片描述

⚠️警惕:当同事用DeepSeek 3小时干完你3天的工作时,淘汰倒计时就开始了。

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?老师啊,我自学没有方向怎么办?老师,这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!当然这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐