📝 面试求职: 「面试试题小程序」 ,内容涵盖 测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试,命中率杠杠的。(大家刷起来…)

📝 职场经验干货:

软件测试工程师简历上如何编写个人信息(一周8个面试)

软件测试工程师简历上如何编写专业技能(一周8个面试)

软件测试工程师简历上如何编写项目经验(一周8个面试)

软件测试工程师简历上如何编写个人荣誉(一周8个面试)

软件测试行情分享(这些都不了解就别贸然冲了.)

软件测试面试重点,搞清楚这些轻松拿到年薪30W+

软件测试面试刷题小程序免费使用(永久使用)


家人们,AI圈又出大事了!就在2025年5月28日,Deepseek那个号称“小升级”的R1 0528版本,实测性能几乎是捅破了开源模型的天花板,部分关键指标已经可以和OpenAI O3、谷歌的Gemini 2.5 Pro这些业界巨头掰手腕了!

你是否也对动辄天价的API望而却步?是否也渴望在本地拥有一颗强大的“AI心脏”,让数据和创意真正掌握在自己手中?那么,今天的Deepseek R1 0528,你绝对不能错过!它不仅性能炸裂,关键是它开源,而且我们普通人的电脑也能跑起来!

本文将为你带来全方位解读:

  • 它到底有多强?(基准测试成绩解读)

  • “小升级”背后藏着什么黑科技?(技术创新与新增功能)

  • 相比自家前辈,进步有多大?

  • 在国内众多模型中,它有何独特优势?

  • 硬刚国际大厂,底气何在?

  • 最最关键的:普通电脑如何本地部署?(LMStudio保姆级教程)

  • Cline 能否带飞本地R1?(实战踩坑)

准备好了吗?发车!


1. 石破天惊:Deepseek R1 0528 基准测试成绩有多亮眼?

话不多说,先上成绩单!根据您提供的最新评测数据,Deepseek R1 0528 的表现确实令人惊艳:

Category

DeepSeek-R1-0528 (Accuracy %)

OpenAI-o3 (Accuracy %)

Gemini-2.5-Pro-0506 (Accuracy %)

Qwen3-235B (Accuracy %)

DeepSeek-R1 (Previous, Accuracy %)

AIME 2024 (Pass@1)

91.4

91.6

90.8

85.7

79.8

AIME 2025 (Pass@1)

87.3

88.9

83.0

81.5

70.0

GPQA Diamond (Pass@1)

81.0

83.3

83.0

71.7

71.5

LiveCodeBench (Pass@1)

73.3

77.3

71.8

66.5

63.5

Aider (Pass@1)

71.6

79.6

76.9

65.0

57.0

Humanity's Last Exam (Pass@1)

17.7

20.6

18.4

11.8

8.5

名词小贴士:

  • AIME (American Invitational Mathematics Examination):美国数学邀请赛,可以理解为衡量模型数学推理和解题能力的重要指标。

  • LiveCodeBench:评估模型编程能力的基准测试。

  • Pass@1:指模型一次生成代码或答案即通过测试的准确率,这个指标越高,说明模型越“能打”,实用性越强。

  • Token (令牌):可以简单理解为模型处理文本时的基本单元,一个词可能由一个或多个token组成。

从数据可以看出,Deepseek R1 0528 在数学推理(如AIME 2025的87.3%)和代码生成(如LiveCodeBench的73.3%)等核心能力上,相较于自家旧版有了巨大飞跃,并且已经与业界顶尖模型看齐。特别是在AIME 2025测试上,87.3%的准确率,已经非常接近OpenAI O3的88.9%,并超越了此表中的Gemini 2.5 Pro 0506版本。

这对我们开发者/普通用户意味着什么?意味着我们能以更低的成本,接触到接近SOTA(State-of-the-art,当前最佳水平)的AI能力,尤其在需要复杂逻辑推理和编程辅助的场景下,它将是得力助手。

2. “小升级”的大内涵:技术上有哪些创新突破?

这次升级绝非简单的参数调整,背后蕴含着深厚的技术积累和创新:

  • 增强的推理能力:模型在处理复杂问题时,能够进行更深层次、更细致的思考。据称,其在复杂任务上使用的令牌数量(从约12K增加到23K)几乎翻倍,这意味着推理过程更加周密。

  • 显著减少幻觉:大模型一本正经胡说八道的“幻觉”问题一直是痛点。R1 0528 版本在这方面进行了优化,输出结果更加可靠。

  • 算法与后训练优化:通过在后训练阶段引入更先进的算法和优化机制,显著提升了模型的整体性能。

  • 计算资源投入增加:更多的计算资源投入,为模型能力的提升提供了坚实的基础。

2.1 新增功能及其作用:

Deepseek R1 0528 还带来了一些实用的新功能,极大地增强了其易用性和扩展性:

  • JSON 输出模式

    • 它能做什么? 允许模型直接输出结构化的 JSON 数据。

    • 举个例子:想象一下,你让AI帮你整理一份会议纪要,它直接输出一份包含"议题""参会人""关键结论"等字段的结构化数据,你可以直接导入到Excel或数据库,无需再写复杂的文本解析脚本,是不是效率爆表?

  • 函数调用(Function Calling)

    • 它能做什么? 赋予了模型调用外部API或工具的能力。

    • 举个例子:比如你问AI今天北京天气如何,它不再是瞎猜,而是能“调用”一个天气查询工具,告诉你最准确的实时信息。或者你让它帮你预订一张明早去上海的火车票,它也能通过调用订票工具来完成。这极大地拓展了模型的应用边界。

  • 系统提示(System Prompts)

    • 它能做什么? 允许用户在对话开始前给模型设定一个更具体的角色、背景或指令。

    • 有什么用? 这有助于模型在特定任务或场景下(如角色扮演、特定风格写作、遵循特定输出格式)表现得更好,更符合用户预期。

  • 前端能力改进:官方也提到了前端交互体验的提升,使得用户与模型的互动更加流畅高效。

这些技术创新和新增功能,无疑让 Deepseek R1 0528 成为一个更强大、更实用的生产力工具。

3. 脱胎换骨:相比旧版本,提升有多显著?

相较于之前的 Deepseek R1 版本,0528 版本的提升是全方位的:

  • 基准测试的飞跃

    • AIME 2025:准确率从 70.0% 飙升至 87.3%。

    • AIME 2024:准确率从 79.8% 提升到 91.4%。

    • LiveCodeBench:编程任务准确率从 63.5% 提升到 73.3%。

    • Humanity’s Last Exam:性能从 8.5% 翻倍至 17.7%。

  • 推理深度的加强:如前所述,模型在复杂问题上会利用更多的计算进行更深入的思考。

  • 可靠性的提高:幻觉的减少使得模型输出更为可信。

  • 功能性的拓展:JSON输出、函数调用等新特性,大大拓展了应用场景。

可以说,Deepseek R1 0528 几乎是一个换代级别的提升。

这对我们开发者/普通用户意味着什么?旧版本可能在某些复杂任务上还稍显吃力,新版本则更有可能胜任,为我们提供了更可靠的AI能力。

4. 国内争锋:与阿里千问、百度文心一言等相比,优势何在?

国内大模型领域同样是百花齐放,阿里通义千问和百度文心一言都是其中的佼佼者。

  • 对比阿里通义千问 (Qwen):根据您提供的表格,Qwen3-235B在AIME 2025上取得了81.5%的成绩。Qwen系列在多个基准测试中也表现优异。然而,Deepseek R1 0528 的一个显著优势在于其开放性和对本地化运行的友好度,特别是其蒸馏版本(如8B模型,下文会介绍),使得普通开发者和中小型企业更容易在本地部署和使用。

  • 对比百度文心一言:文心一言在国内市场拥有广泛的用户基础,并在中文理解和中国文化相关任务上持续优化。相较而言,Deepseek R1 0528 在数学、编程等逻辑推理能力上展现出(根据当前可对比的公开数据)更强的竞争力,并且其开源策略为技术社区贡献了宝贵的资源。

总的来说,Deepseek R1 0528 凭借其强大的性能、特别是其开源和可本地部署的特性,在国产大模型中占据了独特的优势地位。

这对我们开发者/普通用户意味着什么?我们多了一个高性能且能“握在手里”的国产模型选择,尤其对于注重数据隐私、需要离线运行或希望进行二次开发的场景,Deepseek R1 0528 优势明显。

5. 剑指巅峰:硬撼 OpenAI, Google,底气何在?

将 Deepseek R1 0528 与国际顶尖模型比较,更能体现其价值(基于您提供的表格数据):

模型

AIME 2025 准确率 (%)

备注

DeepSeek-R1-0528

87.3

开源,可本地部署

OpenAI-o3

88.9

API访问,闭源

Gemini-2.5-Pro-0506

83.0

API访问,闭源

Claude Opus 4

90.0

API访问,闭源

从AIME 2025这类高难度推理测试来看:

  • Deepseek R1 0528 (87.3%) 已经非常逼近 OpenAI O3 (88.9%),并且在此项测试中超越了表格中的 Gemini 2.5 Pro 0506 (83.0%)。

  • 虽然像Anthropic的Claude系列等顶尖模型在某些评估中可能表现更佳,但考虑到 Deepseek R1 0528 的开源属性本地运行的潜力,这一点性能上的追赶已属不易。

闭源模型通常需要通过 API 调用,不仅可能产生费用,数据隐私也是一个考量因素。Deepseek R1 0528 的开源,使得研究人员和开发者可以更深入地理解其机制,进行定制化开发,并且可以部署在本地,确保数据安全。

这对我们开发者/普通用户意味着什么?我们不再完全依赖少数几家大厂的API,拥有了更多自主权和选择权。对于预算有限又追求高性能的团队或个人,Deepseek R1 0528 提供了极具吸引力的“性价比”选项。

6. 普通电脑也能跑!LMStudio 本地部署指南 (保姆级教程)

这可能是大家最关心的部分了!好消息是,Deepseek R1 0528 的蒸馏版本(例如基于Qwen3的8B模型,实际参数量更小)对硬件要求相对亲民。我们可以借助 LMStudio 这个优秀的工具在本地运行。

名词小贴士:

  • 蒸馏模型 (Distilled Model):通过知识蒸馏技术,将大模型的知识迁移到参数量较小的小模型上,使得小模型也能拥有接近大模型的性能,但对硬件资源要求大大降低。

  • 量化 (Quantization):一种模型压缩技术,通过降低模型参数的精度(比如从32位浮点数降到8位或4位整数)来减小模型体积和内存占用,从而加快推理速度,但可能会有微小的精度损失。常见的GGUF量化级别有Q4_K_M, Q5_K_M等,数字越大通常精度越高体积也越大。

硬件要求 (以蒸馏版 DeepSeek-R1-0528 8B 量化模型为例):

  • RAM:至少8GB可用RAM,推荐16GB以上以获得更好体验和支持更长上下文。

  • VRAM (显存):如果希望通过GPU加速,推荐至少8GB VRAM以支持4-bit/5-bit量化模型。CPU运行也是可以的,但速度会慢很多。

  • 硬盘空间:模型文件本身(如Q4_K_M量化版本)大约几GB到十几GB。

LMStudio 运行步骤:

  1. 下载并安装 LMStudio:访问 LMStudio 官网 (https://lmstudio.ai/) 下载对应你操作系统(Windows, macOS, Linux)的安装包并安装。

  2. 搜索模型:打开 LMStudio,在主界面的搜索框(或点击左侧的放大镜图标 "Discover")中输入 "DeepSeek R1 0528"。

    LMStudio模型下载列表

  3. 选择并下载模型:在搜索结果中,你会看到不同量化版本的 Deepseek R1 0528 模型(通常是GGUF格式)。对于普通电脑,推荐选择 Q4_K_M 或 Q5_K_M 这类在性能和大小之间取得较好平衡的量化版本。点击模型旁边的 "Download" 按钮下载。

    • 小提示:下载速度慢?尝试更换网络环境或稍后再试。有时热门模型下载人数较多。

  4. 加载并聊天:下载完成后,点击左侧的聊天图标 (Speech bubble / "AI Chat")。在顶部下拉菜单中选择刚刚下载的 DeepSeek R1 0528 模型。

GPU 加速配置:在右侧的配置栏中,找到 "Hardware Settings" 或类似选项。如果你的显卡支持且显存足够,可以将 "GPU Offload" 的层数调高 (e.g., "Max" 或一个具体数字)。经验之谈:如果显存不足(比如只有8GB VRAM跑8B模型),宁可少Offload几层到GPU(比如2-4层),甚至纯CPU跑(设置为0层),也比爆显存导致程序崩溃强。多尝试几次找到适合你硬件的层数。

Context Length (上下文长度):根据你的RAM和VRAM调整上下文长度(n_ctx)。Deepseek R1 0528 支持较长的上下文,但请确保你的硬件能承受。如果遇到性能问题或崩溃,尝试减小此值(如2048, 4096)。 * System Prompt:在右侧配置栏的 "System Prompt" 中,你可以给模型预设一些指令,比如 "You are a helpful AI assistant specialized in coding." 这能引导模型更好地按你的期望工作。 * 小提示:首次加载模型可能需要较长时间,请耐心等待。LMStudio崩溃或模型加载失败?检查RAM/VRAM占用,尝试重启LMStudio,或选择更小量化级别的模型。

  1. 开始对话:一切就绪后,就可以在下方的输入框中与 Deepseek R1 0528 开始对话了!

这对我们开发者/普通用户意味着什么?意味着拥有一台主流配置的笔记本或台式机,就有机会在本地把玩和使用接近顶尖水平的大模型,这在以前是难以想象的!

7. 实战踩坑:Cline 能否丝滑调用本地 R1 大模型服务?

Cline 是一款结合了命令行与AI能力的工具,很多开发者希望用它连接本地大模型以提升效率。那么,Deepseek R1 0528 本地服务能被 Cline 使用吗?

名词小贴士:

  • 上下文窗口 (Context Window):指模型在一次处理中能够“记住”或“考虑”的文本长度(以token计)。窗口越大,模型越能理解长篇文档或进行更连贯的多轮对话。

根据社区的反馈(例如 Paul Couvert 在X上的分享),在显存/内存相对受限的笔记本(如16GB RAM)上,体验可能不佳。

主要原因是 Cline 对模型的上下文窗口 (Context Window) 有较高要求。用户反馈指出,Cline 可能要求上下文窗口至少为 11367 tokens。当尝试在 LMStudio 中加载 Deepseek R1 0528 8B 模型,即使将上下文设置为 12800 并启用了部分GPU Offload (例如2层),在 Cline 调用时模型也可能会崩溃。

LMStudio Server 给出的错误提示可能如下:

2025-06-01 11:13:47 [ERROR] 
Trying to keep the first 11367 tokens when context the overflows. However, the model is loaded with context length of only 8192 tokens, which is not enough. Try to load the model with a larger context length, or provide a shorter input. Error Data: n/a, Additional Data: n/a
...
2025-06-01 11:17:45 [ERROR] 
The model has crashed without additional information. (Exit code: 18446744072635812000). Error Data: n/a, Additional Data: n/a

这个错误明确指出,尽管尝试保留11367个tokens,但模型实际加载的上下文长度只有8192个tokens(这可能是硬件限制下LMStudio能稳定分配的最大值),不足以满足需求。

结论与建议: 要在16GB内存的笔记本上顺畅使用 Cline 调用本地 Deepseek R1 0528 (8B) 服务,目前看来挑战较大。即便模型本身支持超长上下文,实际在本地有限硬件上能流畅运行的有效上下文长度会大打折扣。

  • 对于Cline用户:如果确实需要Cline配合本地大模型,强烈建议升级硬件至 32GB RAM 并配备至少 16GB VRAM(推荐24GB+)的显卡,或者考虑使用云端GPU服务器。

  • 对于普通本地用户:如果不是非用Cline不可,直接在LMStudio中与模型交互,或通过其内置的API Server供其他本地应用调用(并注意控制输入长度),是更稳妥的选择。

这对我们开发者/普通用户意味着什么?本地运行大模型,硬件依然是需要考量的因素,尤其对于需要长上下文的应用。我们需要对模型的“理论能力”和本地硬件的“实际承载力”有一个清醒的认识。

8. 总结与展望:Deepseek R1 0528 为我们带来了什么?

Deepseek R1 0528 的发布,无疑是开源大模型领域的一个里程碑。它不仅在性能上达到了与国际顶尖闭源模型同场竞技的水平,更重要的是,它坚持开源,并提供了可在消费级硬件上运行的蒸馏版本。

这对我们研发效能的提升意味着:

  • 更强的AI助手触手可及:无论是代码生成、辅助写作、数据分析还是复杂问题解答,我们都能在本地拥有一个强大的AI伙伴。

  • 数据隐私与安全:本地化运行模型,数据无需上传云端,保障了敏感信息的安全。

  • 定制化与创新的可能:开源使得研究者和开发者可以深入探索,进行二次开发和应用创新。

  • 降低AI使用门槛:让更多个人开发者和中小型团队能够用上先进的AI技术。

Deepseek R1 0528的出现,是否会加速开源大模型追赶甚至超越闭源模型的步伐?它将如何改变我们利用AI进行研发的范式?这些都值得我们期待和探索。

当然,本地运行大型模型依然面临硬件、配置优化等挑战,但 Deepseek R1 0528 已经为我们指明了一个激动人心的方向。期待 Deepseek 未来能带来更多惊喜,也期待开源社区共同推动大模型技术的普惠!


今天的分享就到这里!

  • 你对 Deepseek R1 0528 有什么看法?

  • 你认为它最令人兴奋的功能是哪个?是JSON输出、函数调用,还是它强大的推理能力?

  • 你成功在本地运行起来了吗?踩了哪些坑,又有什么独到的优化经验?

  • 你打算用 Deepseek R1 0528 来尝试解决什么实际问题?

欢迎在评论区留言讨论,分享你的经验和问题!别忘了点赞、在看、转发三连,让更多朋友了解这项激动人心的技术进展!

想获取Deepseek官方信息?可以关注他们的Hugging Face页面:[https://huggingface.co/deepseek-ai/DeepSeek-R1-0528)

我们下期再见!

最后: 下方这份完整的软件测试视频教程已经整理上传完成,需要的朋友们可以自行领取【保证100%免费】

​​

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐