
能够微调的大模型有哪些?
DeepSeek 的开源模型(如 LLM-7B)是当前。
一、开源大模型(可直接微调)
这些模型提供完整的权重和代码,允许用户自行修改、微调和部署。
1. LLaMA 系列(Meta)
- 模型
:LLaMA-1/2(7B、13B、70B 参数)、LLaMA-3(8B、70B 参数)
- 特点
:
-
基于 Transformer 的高效架构,适合对话、推理任务。
-
LLaMA-2 支持商业用途(需申请许可),LLaMA-3 性能更强。
-
- 微调工具
:Hugging Face Transformers、PyTorch、QLoRA(低资源微调)。
- 开源地址
:需申请访问权限(通过 Meta 官网或 Hugging Face)。
2. Falcon 系列(TII UAE)
- 模型
:Falcon-7B、40B、180B(Apache 2.0 协议)
- 特点
:
-
高性能且完全开源,支持商业用途。
-
180B 版本参数量接近 GPT-3.5,推理能力优秀。
-
- 微调工具
:Hugging Face、DeepSpeed。
- 开源地址
:Hugging Face Hub(直接下载)。
3. BLOOM(BigScience)
- 模型
:BLOOM-176B、560M、1.7B、3B 等
- 特点
:
-
多语言支持(46 种语言),适合全球化场景。
-
176B 版本需高性能硬件支持。
-
- 微调工具
:Hugging Face Transformers。
- 开源地址
:Hugging Face Hub。
4. Alpaca & Vicuna(Stanford & 社区)
- 模型
:Alpaca-7B、Vicuna-7B/13B
- 特点
:
-
基于 LLaMA 微调的对话模型,接近 ChatGPT 效果。
-
Vicuna 支持长上下文(16K tokens)。
-
- 微调工具
:LoRA(低秩适配)、FastChat。
- 开源地址
:GitHub(需申请 LLaMA 原始权重)。
5. Mistral 系列(Mistral AI)
- 模型
:Mistral-7B、Mixtral-8x7B(混合专家模型)
- 特点
:
-
7B 模型性能超越 LLaMA-13B,支持 32K 长上下文。
-
Mixtral-8x7B 参数量等效 47B,推理效率高。
-
- 微调工具
:Hugging Face、vLLM。
- 开源地址
:Hugging Face Hub。
6. 国内大模型
- ChatGLM(智谱AI)
:
-
ChatGLM-6B、12B,支持中英双语,可本地部署。
-
- 百川模型(Baichuan)
:
-
Baichuan2-7B/13B,Apache 2.0 协议,适合商业场景。
-
- 通义千问(Qwen)
:
-
Qwen-7B/14B/72B,支持多轮对话和插件扩展。
-
- 开源地址
:ModelScope、Hugging Face Hub。
二、闭源大模型(有限微调)
部分闭源模型通过 API 提供微调接口,但无法直接修改模型权重。
1. GPT 系列(OpenAI)
- 模型
:GPT-3.5-turbo、GPT-4
- 特点
:
-
通过 OpenAI Fine-tuning API 微调,需上传标注数据。
-
仅支持部分任务优化(如风格调整、特定领域生成)。
-
- 限制
:无法自定义架构,依赖 OpenAI 的云端服务。
2. Claude(Anthropic)
- 模型
:Claude-2/3
- 特点
:
-
提供少量参数的微调选项(需申请企业权限)。
-
支持长上下文(200K tokens)。
-
3. PaLM 2(Google)
- 模型
:PaLM 2(通过 Vertex AI)
- 特点
:
-
支持基于企业数据的微调(医疗、金融等垂直领域)。
-
需付费使用 Google Cloud 服务。
-
三、微调方法
- 全参数微调(Full Fine-tuning)
-
直接更新模型所有权重,需高性能 GPU(如 A100/H100)。
-
适用场景:数据量大、任务复杂(如领域知识注入)。
-
- 高效微调(Parameter-Efficient Fine-tuning, PEFT)
- LoRA
:冻结原模型,注入低秩适配层。
- QLoRA
:量化 + LoRA,可在 24GB 显存下微调 70B 模型。
- Adapter
:插入小型适配模块,保留原权重。
- LoRA
- 提示微调(Prompt Tuning)
-
仅优化输入提示(Prompt)的嵌入表示,无需修改模型。
-
四、选择建议
- 资源有限
:使用 7B-13B 模型 + LoRA/QLoRA(如 LLaMA-7B、Mistral-7B)。
- 商业用途
:选择 Apache 2.0/MIT 协议模型(Falcon、Baichuan)。
- 多语言任务
:BLOOM、XLM-R。
- 长文本处理
:Vicuna、Mistral-7B(32K context)。
五、学习资源
- 代码库
:Hugging Face Transformers、DeepSpeed、FastChat。
- 教程
:
-
Hugging Face PEFT 文档(LoRA/QLoRA)。
-
Meta 官方 LLaMA 微调指南。
-
社区项目(如 Stanford Alpaca、Chinese-LLaMA-Alpaca)。
-
1. DeepSeek 开源模型
**(1) DeepSeek LLM 系列**
- 模型版本
:
- DeepSeek LLM-7B/67B
:基础版本,支持中英双语,参数量分别为 7B 和 67B。
- DeepSeek LLM Chat
:基于基础模型微调的对话版本,对齐人类偏好。
- DeepSeek LLM-7B/67B
- 特点
:
- 高性能
:在 MT-Bench、C-Eval 等中英文评测中表现优于 LLaMA-2、ChatGLM 等同类模型。
- 长上下文支持
:默认支持 4K tokens,可扩展至 16K 或更高。
- 高效推理
:支持量化(INT4/AWQ)和 vLLM 加速。
- 高性能
- 开源协议
:MIT 许可证,允许商用。
- 微调支持
:
-
提供完整的模型权重和代码,支持全参数微调、LoRA、QLoRA 等方法。
-
工具链:Hugging Face Transformers、DeepSeek 官方示例代码。
-
- 资源地址
:
-
模型下载:Hugging Face Hub(DeepSeek-LLM-7B)
-
微调教程:GitHub 官方仓库(提供 SFT、RLHF 示例)。
-
**(2) DeepSeek-MoE 系列**
- 模型版本
:DeepSeek-MoE-16B(混合专家模型)
- 特点
:
-
通过稀疏化架构(16个专家,激活其中2个)实现高性价比,性能接近 7B 模型,显存占用更低。
-
支持中英文对话和复杂推理。
-
- 开源协议
:MIT 许可证,允许商用。
- 微调支持
:与 DeepSeek LLM 类似,支持 LoRA 等高效微调方法。
2. DeepSeek 闭源模型
**(1) DeepSeek-R1**
- 定位
:企业级 API 服务,对标 GPT-4、Claude-3。
- 特点
:
-
多模态支持(文本、图像、代码)。
-
长上下文(最高 128K tokens),擅长数学推理、代码生成。
-
- 微调支持
:
-
通过 DeepSeek 企业平台提供定制化微调服务,需提交数据并与官方合作。
-
支持领域适配(如金融、医疗)和私有化部署。
-
**(2) DeepSeek-API**
- 模型版本
:DeepSeek-Lite/Pro
- 特点
:
-
低成本、低延迟的云端 API,适合中小规模应用。
-
支持中英文生成、摘要、翻译等通用任务。
-
- 微调支持
:
-
提供有限的 Prompt 工程调优,不支持模型权重修改。
-
3. 微调实践建议
**(1) 开源模型微调步骤**
- 环境准备
:
-
GPU 要求:7B 模型需 16GB+ 显存(QLoRA 可降至 10GB),67B 模型需多卡或量化。
-
框架:PyTorch、DeepSpeed、Hugging Face Ecosystem。
-
- 数据格式
:
-
使用标准指令数据集(如 Alpaca 格式)或自定义 JSON 文件。
-
示例数据格式:json
{"instruction": "写一首关于春天的诗", "input": "", "output": "..."}
-
- 高效微调
:
- LoRA/QLoRA
:冻结原模型权重,添加低秩适配层,适合单卡微调。
- 全参数微调
:需多卡并行(如 DeepSpeed ZeRO-3)。
- LoRA/QLoRA
- 部署推理
:
-
使用 vLLM 或 Triton 加速推理,支持 OpenAI 兼容的 API 服务。
-
**(2) 典型应用场景**
- 领域知识注入
:在医疗、法律等专业语料上微调,增强模型垂直领域能力。
- 风格对齐
:调整生成文本的语气(如正式、口语化)。
- 多语言扩展
:加入小语种数据,提升非英语生成质量。
4. 优势与对比
特性 | DeepSeek LLM | LLaMA-2 | ChatGLM |
---|---|---|---|
开源协议 |
MIT(商用友好) |
非商用/需申请 |
需授权 |
中英文支持 |
优化 |
一般 |
中文优化 |
长上下文 |
16K+(可扩展) |
4K(需外推) |
8K |
微调成本 |
低(QLoRA 支持) |
中等 |
中等 |
5. 学习资源
- 官方文档
:
-
DeepSeek LLM GitHub
-
DeepSeek 技术报告(含训练细节和评测结果)
-
- 社区教程
:
-
使用 QLoRA 微调 DeepSeek-7B(Bilibili/知乎均有实操案例)。
-
结合 LangChain 构建领域知识问答系统。
-
总结
DeepSeek 的开源模型(如 LLM-7B)是当前性价比极高的微调选择,尤其适合中文场景和商业应用。其闭源模型(如 DeepSeek-R1)则为企业级需求提供高性能、多模态的解决方案。若追求灵活性和可控性,建议优先尝试开源版本,结合 LoRA 快速迭代业务模型。
大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
更多推荐
所有评论(0)