DeepSeek 爆了,普通人如何3小时完全从0训练自己的大模型
大家好,我是玄姐。正文开始之前,先给我自己打个广告,大家开工大吉,为了回馈粉丝们的支持,原价199元的《基于 DeepSeek 打造的 AI Agent 智能体项目实战直播训练营》,直接降价到19元,今天再开放一天报名特权,仅限99名。回到正题。这个春节,DeepSeek 实在太火了,无须赘述。今天要向大家推荐一个极具实用价值的开源项目——MiniMind。这个项目使得我们只需利用普通电脑,就能.
大家好,我是玄姐。
正文开始之前,先给我自己打个广告,大家开工大吉,为了回馈粉丝们的支持,原价199元的《基于 DeepSeek 打造的 AI Agent 智能体项目实战直播训练营》,直接降价到19元,今天再开放一天报名特权,仅限99名。
回到正题。
这个春节,DeepSeek 实在太火了,无须赘述。
今天要向大家推荐一个极具实用价值的开源项目——MiniMind。这个项目使得我们只需利用普通电脑,就能在短短3小时内打造出一个精简版的 DeepSeek!
为了避免误解,特别说明一下,“最快3小时”是基于你的硬件配置优于我本人的情况下。具体的硬件规格要求将在下文中详细说明。
—1—
为什么这个项目这么特别?
市场上的大语言模型(LLM)通常拥有上百亿参数,其训练成本相当高昂。对于想要学习和研究的人来说,这样的硬件要求往往成为一道难以逾越的障碍。然而,MiniMind 凭借其巧妙的设计,大幅缩减了模型参数,使得个人开发者也有能力自行训练 AI 大模型!
MiniMind 的最小版本仅有 26MB(大约是 GPT-3的1/7000),这意味着即便是普通的游戏显卡也能轻松驾驭。该项目提供了全面的训练步骤:
第一、基础语言能力训练(预训练阶段)
第二、对话能力训练(指令微调阶段)
第三、快速适应新任务(LoRA 微调技术)
第四、优化回答质量(DPO 偏好对齐方法)
—2—
实际使用场景
场景一、定制化 AI 助手打造
您能够培养出专注于特定领域的 AI 助手,例如:
-
客服机器人:基于企业产品知识库进行训练。
-
教育辅导机器人:专注于特定学科的习题解答和讲解。
-
行业专家助手:为特定行业提供专业的咨询服务。
场景二、技术探索与学术研究
-
深入理解大型语言模型的工作机制。
-
实际操作不同的训练技术。
-
探索模型的优化策略和改进方法。
场景三、产品概念验证
-
快速实现 AI 产品想法的原型开发。
-
在不同应用场景中测试产品的性能。
-
收集用户反馈,以促进产品的持续迭代和优化。
—3—
技术架构亮点剖析
第一、精简架构设计
-
基于 Transformer 的解码器单结构(Decoder-Only)。
-
利用 RMSNorm 进行预标准化,以增强模型表现。
-
引入旋转位置编码技术,有效处理长篇文本。
第二、创新性地推出专家混合模型版本(MoE)。
-
提供4个26MB的混合专家模型,以实现能力的提升。
-
在保持低计算资源消耗的同时,实现专家间的有效分工。
第三、灵活多样的部署选择
-
支持在单卡或多卡上进行训练。
-
与主流深度学习框架无缝兼容。
-
提供便捷的网页交互界面。
—4—
定制自己的大模型上手有多简单?
第一、克隆项目代码
git clone https://github.com/jingyaogong/minimind.git
cd minimind
第二、环境安装
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
# 测试torch是否可用cuda
import torch
print(torch.cuda.is_available())
如果不可用,请自行去 torch_stable 下载 whl 文件安装。参考链接如下:
https://blog.csdn.net/weixin_45456738/article/details/141029610
第三、环境配置
CPU: Intel(R) Core(TM) i9-10980XE CPU @ 3.00GHz
内存:128 GB
显卡:NVIDIA GeForce RTX 3090(24GB) * 2
环境:python 3.9 + Torch 2.1.2 + DDP单机多卡训练
-
Ubuntu == 20.04
-
Python == 3.9
-
Pytorch == 2.1.2
-
CUDA == 12.2
-
requirements.txt(本项目环境依赖)
第四、自己的训练数据集
-
下载数据集放到
./dataset
目录下 -
python data_process.py
命令处理数据集,例如 pretrain 数据提前进行 token-encoder、sft 数据集抽离 qa 到 csv 文件 -
在
./model/LMConfig.py
中调整 model 的参数配置这里仅需调整 dim 和 n_layers 和 use_moe 参数,分别是
(512+8)
或(768+16)
,对应于minimind-v1-small
和minimind-v1
-
python 1-pretrain.py
执行预训练,得到pretrain_*.pth
作为预训练的输出权重 -
python 3-full_sft.py
执行指令微调,得到full_sft_*.pth
作为指令微调的输出权重 -
python 4-lora_sft.py
执行 lora 微调(非必须) -
python 5-dpo_train.py
执行 DPO 人类偏好强化学习对齐(非必须)
—5—
总结
MiniMind 项目正在快速发展,目前已支持:
-
文本对话:流畅的中英文交互
-
视觉理解:可以理解和描述图像
-
知识更新:持续优化训练数据
-
性能提升:不断改进模型结构
MiniMind 降低了 AI 开发的门槛,让更多人能够参与到大语言模型的探索中来。无论你是:
-
想入门 AI 的开发者
-
需要定制化 AI 助手的企业
-
对语言模型感兴趣的研究者
这个项目都能帮你快速起步,并在实践中不断成长。项目完全开源,想要了解更多 MiniMind 项目信息的读者可以查看项目 Github 地址:
https://github.com/jingyaogong/minimind
总之,随着 DeepSeek 的爆火,2025年必定是 AI 大模型应用的爆发之年,其中最重要的应用形态就是 AI Agent 智能体,为了帮助大家快速掌握 AI Agent 智能体技术,我和团队落地大模型项目3年,帮助60多家企业落地近100个项目,根据我们企业级实战的项目经验,打造基于 DeepSeek 的 AI Agent 项目实战直播训练营,截至今天已经报名2万名学员,如此火爆!原价199元,开工大吉,为了回馈粉丝的支持,价格直接降到 19元,再开放今天一天的报名权限,仅限99名,抢完立刻恢复到199元。
—6—
AI Agent 智能体为啥如此重要?
第一、这是大势所趋,随着 DeepSeek 春节期间的爆火,我们正在经历一场重大技术变革,还不像当年的互联网的兴起,这是一场颠覆性的变革,掉队就等于淘汰,因为未来所有应用都将被 AI Agent 智能体重写一遍;
第二、现在处于红利期,先入场的同学至少会享受4~5年的红利,拿高薪,并且会掌握技术的主动权和职业选择权。
第三、企业需求旺盛,越来越多的企业已经在 AI Agent 智能体领域进行落地,这为我们提供了丰富的岗位机会和广阔的发展空间。
第四、大厂都在战略布局的方向,不管是国外的微软、谷歌,还是国内的百度等大厂都在战略布局,随着春节期间 DeepSeek 火出圈,2025年必定是 AI Agent 智能体商业化的一年。
我和团队最近两年一直在研究大模型应用技术,我想说:大模型的价值太大了,AI Agent 智能体的潜力太大了!“未来所有应用都会被 AI Agent 智能体重写一遍”!这句话也是今年听到最多的一句话。我和团队这两年,尤其是最近3年已经帮助60多家企业落地了近100个 AI Agent 智能体的项目。我自己贴身感受:越来越多的企业的确都开始落地 AI Agent 智能体项目了。
因此 AI Agent 智能体足够重要,但也足够复杂,我这两年实践结论是,想开发出一个能够可靠稳定的 AI Agent 智能体应用实在太难了,大模型技术本身的复杂度,大模型推理的不确定性,响应速度性能问题等等,这些困难直接导致很多人对其望而却步,或是遇到问题无从下手。一般技术同学想要自己掌握 AI Agent 智能体着实很不容易!
为此我特意打造了一个为期3天的基于 DeepSeek 的 AI Agent 智能体企业实战训练营:这个训练营是我和团队落地大模型项目3年,根据我们企业级实战的项目经验,打造了基于 DeepSeek 的3天 AI Agent 项目实战直播训练营。
课程原价199元,开工大吉,现在仅花19元就能拿下!文末再赠送4个报名福利!抢完立刻恢复199元!
—7—
3天直播训练营,你能收获什么?
3天的直播课,带你快速掌握基于 DeepSeek 的AI Agent 智能体核心技术和企业级项目实践经验。
模块一:AI Agent 智能体技术原理篇
全面拆解 AI Agent 智能体技术原理,深度掌握基于 DeepSeek 的 AI Agent 智能体三大能力及其运行机制。
模块二:AI Agent 智能体应用开发实战篇
深度讲解基于 DeepSeek 的 AI Agent 智能体技术选型及开发实践,学会开发 AI Agent 智能体核心技术能力。
模块三:AI Agent 智能体企业级案例实战篇
基于 DeepSeek,从需求分析、架构设计、架构技术选型、硬件资料规划、核心代码落地、服务治理等全流程实践,深度学习企业级 AI Agent 智能体项目全流程重点难点问题解决。
3天时间,你能学会什么?
在真实项目实践中,你会获得4项硬核能力:
第一、全面了解 DeepSeek 大模型、AI Agent 智能体的原理、架构和实现方法,掌握核心技术精髓。
第二、熟练使用 Dify/Coze 平台、DeepSeek、LangChain、AutoGen 等开发框架,为企业级技术实践打下坚实基础。
第三、通过企业级项目实战演练,能够独立完成基于 DeepSeek 的 AI Agent 智能体的设计开发和维护,学会解决企业级实际问题的能力。
第四、为职业发展提供更多可能性,无论是晋升加薪还是转行跳槽,提升核心技术竞争力。
限时优惠:
原价199元,开工大吉,现在报名只需19元!文末再赠送4个报名福利!这是一个难得的机会,让我们一起踏上 AI Agent 智能技术之旅,开启技术新纪元!
—8—
今天报名再送4个配套福利
配套福利一:AI Agent 智能体训练营配套学习资料,包括:PPT 课件、实战代码、企业级智能体案例和补充学习资料。
配套福利二:AI Agent 智能体训练营学习笔记,包含3天直播的所有精华。
配套福利三:AI Agent 智能体大厂面试真题100道!覆盖百度、阿里、腾讯、字节、美团、滴滴等大厂的100道真题,不论是跳槽还是升职加薪,参考意义都重大!
配套福利四:2024年中国 AI Agent 智能体行业研究报告!AI Agent 智能体是新的应用形态,大模型时代的“APP”,技术范式也发生了很大的变化, 此份研究报告探索新一代人机交互及协作范式,覆盖技术、产品、商业、企业落地应用等方面,非常值得一读!
原价199元,开工大吉,现在19元就能拿下!
—9—
添加助教直播学习
购买后,添加助理进行直播学习👇
报名完添加助教二维码,立刻领取4重福利!
参考:
https://mp.weixin.qq.com/s/waHGF6FP_k_7GR2qw-T-_w
⬇戳”阅读原文“,立即报名!
END
更多推荐
所有评论(0)