DeepSeek 爆了，普通人如何3小时完全从0训练自己的大模型

大家好，我是玄姐。正文开始之前，先给我自己打个广告，大家开工大吉，为了回馈粉丝们的支持，原价199元的《基于 DeepSeek 打造的 AI Agent 智能体项目实战直播训练营》，直接降价到19元，今天再开放一天报名特权，仅限99名。回到正题。这个春节，DeepSeek 实在太火了，无须赘述。今天要向大家推荐一个极具实用价值的开源项目——MiniMind。这个项目使得我们只需利用普通电脑，就能.

musicml

4232人浏览 · 2025-02-07 08:03:24

musicml · 2025-02-07 08:03:24 发布

大家好，我是玄姐。

正文开始之前，先给我自己打个广告，大家开工大吉，为了回馈粉丝们的支持，原价199元的《基于 DeepSeek 打造的 AI Agent 智能体项目实战直播训练营》，直接降价到19元，今天再开放一天报名特权，仅限99名。

回到正题。

这个春节，DeepSeek 实在太火了，无须赘述。

今天要向大家推荐一个极具实用价值的开源项目——MiniMind。这个项目使得我们只需利用普通电脑，就能在短短3小时内打造出一个精简版的 DeepSeek！

为了避免误解，特别说明一下，“最快3小时”是基于你的硬件配置优于我本人的情况下。具体的硬件规格要求将在下文中详细说明。

—1—

为什么这个项目这么特别？

市场上的大语言模型（LLM）通常拥有上百亿参数，其训练成本相当高昂。对于想要学习和研究的人来说，这样的硬件要求往往成为一道难以逾越的障碍。然而，MiniMind 凭借其巧妙的设计，大幅缩减了模型参数，使得个人开发者也有能力自行训练 AI 大模型！

MiniMind 的最小版本仅有 26MB（大约是 GPT-3的1/7000），这意味着即便是普通的游戏显卡也能轻松驾驭。该项目提供了全面的训练步骤：

第一、基础语言能力训练（预训练阶段）

第二、对话能力训练（指令微调阶段）

第三、快速适应新任务（LoRA 微调技术）

第四、优化回答质量（DPO 偏好对齐方法）

—2—

实际使用场景

场景一、定制化 AI 助手打造

您能够培养出专注于特定领域的 AI 助手，例如：

客服机器人：基于企业产品知识库进行训练。
教育辅导机器人：专注于特定学科的习题解答和讲解。
行业专家助手：为特定行业提供专业的咨询服务。

场景二、技术探索与学术研究

深入理解大型语言模型的工作机制。
实际操作不同的训练技术。
探索模型的优化策略和改进方法。

场景三、产品概念验证

快速实现 AI 产品想法的原型开发。
在不同应用场景中测试产品的性能。
收集用户反馈，以促进产品的持续迭代和优化。

—3—

技术架构亮点剖析

第一、精简架构设计

基于 Transformer 的解码器单结构（Decoder-Only）。
利用 RMSNorm 进行预标准化，以增强模型表现。
引入旋转位置编码技术，有效处理长篇文本。

第二、创新性地推出专家混合模型版本（MoE）。

提供4个26MB的混合专家模型，以实现能力的提升。
在保持低计算资源消耗的同时，实现专家间的有效分工。

第三、灵活多样的部署选择

支持在单卡或多卡上进行训练。
与主流深度学习框架无缝兼容。
提供便捷的网页交互界面。

—4—

定制自己的大模型上手有多简单？

第一、克隆项目代码

git clone https://github.com/jingyaogong/minimind.git
cd minimind

第二、环境安装

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple


# 测试torch是否可用cuda
import torch
print(torch.cuda.is_available())

如果不可用，请自行去 torch_stable 下载 whl 文件安装。参考链接如下：

https://blog.csdn.net/weixin_45456738/article/details/141029610

第三、环境配置

CPU: Intel(R) Core(TM) i9-10980XE CPU @ 3.00GHz
内存：128 GB
显卡：NVIDIA GeForce RTX 3090(24GB) * 2
环境：python 3.9 + Torch 2.1.2 + DDP单机多卡训练

Ubuntu == 20.04
Python == 3.9
Pytorch == 2.1.2
CUDA == 12.2
requirements.txt（本项目环境依赖）

第四、自己的训练数据集

下载数据集放到./dataset目录下
python data_process.py 命令处理数据集，例如 pretrain 数据提前进行 token-encoder、sft 数据集抽离 qa 到 csv 文件
在./model/LMConfig.py 中调整 model 的参数配置

这里仅需调整 dim 和 n_layers 和 use_moe 参数，分别是(512+8)或(768+16)，对应于minimind-v1-small和minimind-v1
python 1-pretrain.py 执行预训练，得到 pretrain_*.pth 作为预训练的输出权重
python 3-full_sft.py 执行指令微调，得到 full_sft_*.pth 作为指令微调的输出权重
python 4-lora_sft.py 执行 lora 微调（非必须）
python 5-dpo_train.py 执行 DPO 人类偏好强化学习对齐（非必须）

—5—

总结

MiniMind 项目正在快速发展，目前已支持：

文本对话：流畅的中英文交互
视觉理解：可以理解和描述图像
知识更新：持续优化训练数据
性能提升：不断改进模型结构

MiniMind 降低了 AI 开发的门槛，让更多人能够参与到大语言模型的探索中来。无论你是：

想入门 AI 的开发者
需要定制化 AI 助手的企业
对语言模型感兴趣的研究者

这个项目都能帮你快速起步，并在实践中不断成长。项目完全开源，想要了解更多 MiniMind 项目信息的读者可以查看项目 Github 地址：

https://github.com/jingyaogong/minimind

总之，随着 DeepSeek 的爆火，2025年必定是 AI 大模型应用的爆发之年，其中最重要的应用形态就是 AI Agent 智能体，为了帮助大家快速掌握 AI Agent 智能体技术，我和团队落地大模型项目3年，帮助60多家企业落地近100个项目，根据我们企业级实战的项目经验，打造基于 DeepSeek 的 AI Agent 项目实战直播训练营，截至今天已经报名2万名学员，如此火爆！原价199元，开工大吉，为了回馈粉丝的支持，价格直接降到 19元，再开放今天一天的报名权限，仅限99名，抢完立刻恢复到199元。

—6—

AI Agent 智能体为啥如此重要？

第一、这是大势所趋，随着 DeepSeek 春节期间的爆火，我们正在经历一场重大技术变革，还不像当年的互联网的兴起，这是一场颠覆性的变革，掉队就等于淘汰，因为未来所有应用都将被 AI Agent 智能体重写一遍；

第二、现在处于红利期，先入场的同学至少会享受4~5年的红利，拿高薪，并且会掌握技术的主动权和职业选择权。

第三、企业需求旺盛，越来越多的企业已经在 AI Agent 智能体领域进行落地，这为我们提供了丰富的岗位机会和广阔的发展空间。

第四、大厂都在战略布局的方向，不管是国外的微软、谷歌，还是国内的百度等大厂都在战略布局，随着春节期间 DeepSeek 火出圈，2025年必定是 AI Agent 智能体商业化的一年。

我和团队最近两年一直在研究大模型应用技术，我想说：大模型的价值太大了，AI Agent 智能体的潜力太大了！“未来所有应用都会被 AI Agent 智能体重写一遍”！这句话也是今年听到最多的一句话。我和团队这两年，尤其是最近3年已经帮助60多家企业落地了近100个 AI Agent 智能体的项目。我自己贴身感受：越来越多的企业的确都开始落地 AI Agent 智能体项目了。

因此 AI Agent 智能体足够重要，但也足够复杂，我这两年实践结论是，想开发出一个能够可靠稳定的 AI Agent 智能体应用实在太难了，大模型技术本身的复杂度，大模型推理的不确定性，响应速度性能问题等等，这些困难直接导致很多人对其望而却步，或是遇到问题无从下手。一般技术同学想要自己掌握 AI Agent 智能体着实很不容易！

为此我特意打造了一个为期3天的基于 DeepSeek 的 AI Agent 智能体企业实战训练营：这个训练营是我和团队落地大模型项目3年，根据我们企业级实战的项目经验，打造了基于 DeepSeek 的3天 AI Agent 项目实战直播训练营。

课程原价199元，开工大吉，现在仅花19元就能拿下！文末再赠送4个报名福利！抢完立刻恢复199元！

—7—

3天直播训练营，你能收获什么？

3天的直播课，带你快速掌握基于 DeepSeek 的AI Agent 智能体核心技术和企业级项目实践经验。

模块一：AI Agent 智能体技术原理篇

全面拆解 AI Agent 智能体技术原理，深度掌握基于 DeepSeek 的 AI Agent 智能体三大能力及其运行机制。

模块二：AI Agent 智能体应用开发实战篇

深度讲解基于 DeepSeek 的 AI Agent 智能体技术选型及开发实践，学会开发 AI Agent 智能体核心技术能力。

模块三：AI Agent 智能体企业级案例实战篇

基于 DeepSeek，从需求分析、架构设计、架构技术选型、硬件资料规划、核心代码落地、服务治理等全流程实践，深度学习企业级 AI Agent 智能体项目全流程重点难点问题解决。

3天时间，你能学会什么？

在真实项目实践中，你会获得4项硬核能力：

第一、全面了解 DeepSeek 大模型、AI Agent 智能体的原理、架构和实现方法，掌握核心技术精髓。

第二、熟练使用 Dify/Coze 平台、DeepSeek、LangChain、AutoGen 等开发框架，为企业级技术实践打下坚实基础。

第三、通过企业级项目实战演练，能够独立完成基于 DeepSeek 的 AI Agent 智能体的设计开发和维护，学会解决企业级实际问题的能力。

第四、为职业发展提供更多可能性，无论是晋升加薪还是转行跳槽，提升核心技术竞争力。

限时优惠：

原价199元，开工大吉，现在报名只需19元！文末再赠送4个报名福利！这是一个难得的机会，让我们一起踏上 AI Agent 智能技术之旅，开启技术新纪元！

—8—

今天报名再送4个配套福利

配套福利一：AI Agent 智能体训练营配套学习资料，包括：PPT 课件、实战代码、企业级智能体案例和补充学习资料。

配套福利二：AI Agent 智能体训练营学习笔记，包含3天直播的所有精华。

配套福利三：AI Agent 智能体大厂面试真题100道！覆盖百度、阿里、腾讯、字节、美团、滴滴等大厂的100道真题，不论是跳槽还是升职加薪，参考意义都重大！

配套福利四：2024年中国 AI Agent 智能体行业研究报告！AI Agent 智能体是新的应用形态，大模型时代的“APP”，技术范式也发生了很大的变化，此份研究报告探索新一代人机交互及协作范式，覆盖技术、产品、商业、企业落地应用等方面，非常值得一读！

原价199元，开工大吉，现在19元就能拿下！

—9—

添加助教直播学习

购买后，添加助理进行直播学习👇

报名完添加助教二维码，立刻领取4重福利！

参考：

https://mp.weixin.qq.com/s/waHGF6FP_k_7GR2qw-T-_w

⬇戳”阅读原文“，立即报名！

END

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

一文搞懂 Deepseek

DeepSeek技术社区

2025年程序员转行大模型全攻略：职业前景、热门岗位与选择策略解析！

DeepSeek技术社区

HAproxy服务器（带日志）

我现在有两台WindowsAD域控 10.10.10.1 和10.10.10.2，我现在有一个准入系统10.10.11.100需要提供ldap认证，我现在想搭建一个haproxy服务器IP 10.10.10.200做ldap业务的负载均衡，这样在准入系统上只要填haproxy服务器地址即可，所有通过haproxy服务器获取ladp的信息在haproxy需要有日志，haproxy服务已经安装，配置