能够微调的大模型有哪些？

DeepSeek 的开源模型（如 LLM-7B）是当前。

AI-椰子不椰

1243人浏览 · 2025-03-19 16:28:31

AI-椰子不椰 · 2025-03-19 16:28:31 发布

一、开源大模型（可直接微调）

这些模型提供完整的权重和代码，允许用户自行修改、微调和部署。

1. LLaMA 系列（Meta）

模型
：LLaMA-1/2（7B、13B、70B 参数）、LLaMA-3（8B、70B 参数）
特点
：
- 基于 Transformer 的高效架构，适合对话、推理任务。
- LLaMA-2 支持商业用途（需申请许可），LLaMA-3 性能更强。
微调工具
：Hugging Face Transformers、PyTorch、QLoRA（低资源微调）。
开源地址
：需申请访问权限（通过 Meta 官网或 Hugging Face）。

2. Falcon 系列（TII UAE）

模型
：Falcon-7B、40B、180B（Apache 2.0 协议）
特点
：
- 高性能且完全开源，支持商业用途。
- 180B 版本参数量接近 GPT-3.5，推理能力优秀。
微调工具
：Hugging Face、DeepSpeed。
开源地址
：Hugging Face Hub（直接下载）。

3. BLOOM（BigScience）

模型
：BLOOM-176B、560M、1.7B、3B 等
特点
：
- 多语言支持（46 种语言），适合全球化场景。
- 176B 版本需高性能硬件支持。
微调工具
：Hugging Face Transformers。
开源地址
：Hugging Face Hub。

4. Alpaca & Vicuna（Stanford & 社区）

模型
：Alpaca-7B、Vicuna-7B/13B
特点
：
- 基于 LLaMA 微调的对话模型，接近 ChatGPT 效果。
- Vicuna 支持长上下文（16K tokens）。
微调工具
：LoRA（低秩适配）、FastChat。
开源地址
：GitHub（需申请 LLaMA 原始权重）。

5. Mistral 系列（Mistral AI）

模型
：Mistral-7B、Mixtral-8x7B（混合专家模型）
特点
：
- 7B 模型性能超越 LLaMA-13B，支持 32K 长上下文。
- Mixtral-8x7B 参数量等效 47B，推理效率高。
微调工具
：Hugging Face、vLLM。
开源地址
：Hugging Face Hub。

6. 国内大模型

ChatGLM（智谱AI）
：
- ChatGLM-6B、12B，支持中英双语，可本地部署。
百川模型（Baichuan）
：
- Baichuan2-7B/13B，Apache 2.0 协议，适合商业场景。
通义千问（Qwen）
：
- Qwen-7B/14B/72B，支持多轮对话和插件扩展。
开源地址
：ModelScope、Hugging Face Hub。

二、闭源大模型（有限微调）

部分闭源模型通过 API 提供微调接口，但无法直接修改模型权重。

1. GPT 系列（OpenAI）

模型
：GPT-3.5-turbo、GPT-4
特点
：
- 通过 OpenAI Fine-tuning API 微调，需上传标注数据。
- 仅支持部分任务优化（如风格调整、特定领域生成）。
限制
：无法自定义架构，依赖 OpenAI 的云端服务。

2. Claude（Anthropic）

模型
：Claude-2/3
特点
：
- 提供少量参数的微调选项（需申请企业权限）。
- 支持长上下文（200K tokens）。

3. PaLM 2（Google）

模型
：PaLM 2（通过 Vertex AI）
特点
：
- 支持基于企业数据的微调（医疗、金融等垂直领域）。
- 需付费使用 Google Cloud 服务。

三、微调方法

全参数微调（Full Fine-tuning）
- 直接更新模型所有权重，需高性能 GPU（如 A100/H100）。
- 适用场景：数据量大、任务复杂（如领域知识注入）。
高效微调（Parameter-Efficient Fine-tuning, PEFT）
- LoRA
  ：冻结原模型，注入低秩适配层。
- QLoRA
  ：量化 + LoRA，可在 24GB 显存下微调 70B 模型。
- Adapter
  ：插入小型适配模块，保留原权重。
提示微调（Prompt Tuning）
- 仅优化输入提示（Prompt）的嵌入表示，无需修改模型。

四、选择建议

资源有限
：使用 7B-13B 模型 + LoRA/QLoRA（如 LLaMA-7B、Mistral-7B）。
商业用途
：选择 Apache 2.0/MIT 协议模型（Falcon、Baichuan）。
多语言任务
：BLOOM、XLM-R。
长文本处理
：Vicuna、Mistral-7B（32K context）。

五、学习资源

代码库
：Hugging Face Transformers、DeepSpeed、FastChat。
教程
：
- Hugging Face PEFT 文档（LoRA/QLoRA）。
- Meta 官方 LLaMA 微调指南。
- 社区项目（如 Stanford Alpaca、Chinese-LLaMA-Alpaca）。

1. DeepSeek 开源模型

(1) DeepSeek LLM 系列

模型版本
：
- DeepSeek LLM-7B/67B
  ：基础版本，支持中英双语，参数量分别为 7B 和 67B。
- DeepSeek LLM Chat
  ：基于基础模型微调的对话版本，对齐人类偏好。
特点
：
- 高性能
  ：在 MT-Bench、C-Eval 等中英文评测中表现优于 LLaMA-2、ChatGLM 等同类模型。
- 长上下文支持
  ：默认支持 4K tokens，可扩展至 16K 或更高。
- 高效推理
  ：支持量化（INT4/AWQ）和 vLLM 加速。
开源协议
：MIT 许可证，允许商用。
微调支持
：
- 提供完整的模型权重和代码，支持全参数微调、LoRA、QLoRA 等方法。
- 工具链：Hugging Face Transformers、DeepSeek 官方示例代码。
资源地址
：
- 模型下载：Hugging Face Hub（DeepSeek-LLM-7B）
- 微调教程：GitHub 官方仓库（提供 SFT、RLHF 示例）。

(2) DeepSeek-MoE 系列

模型版本
：DeepSeek-MoE-16B（混合专家模型）
特点
：
- 通过稀疏化架构（16个专家，激活其中2个）实现高性价比，性能接近 7B 模型，显存占用更低。
- 支持中英文对话和复杂推理。
开源协议
：MIT 许可证，允许商用。
微调支持
：与 DeepSeek LLM 类似，支持 LoRA 等高效微调方法。

2. DeepSeek 闭源模型

(1) DeepSeek-R1

定位
：企业级 API 服务，对标 GPT-4、Claude-3。
特点
：
- 多模态支持（文本、图像、代码）。
- 长上下文（最高 128K tokens），擅长数学推理、代码生成。
微调支持
：
- 通过 DeepSeek 企业平台提供定制化微调服务，需提交数据并与官方合作。
- 支持领域适配（如金融、医疗）和私有化部署。

(2) DeepSeek-API

模型版本
：DeepSeek-Lite/Pro
特点
：
- 低成本、低延迟的云端 API，适合中小规模应用。
- 支持中英文生成、摘要、翻译等通用任务。
微调支持
：
- 提供有限的 Prompt 工程调优，不支持模型权重修改。

3. 微调实践建议

(1) 开源模型微调步骤

环境准备
：
- GPU 要求：7B 模型需 16GB+ 显存（QLoRA 可降至 10GB），67B 模型需多卡或量化。
- 框架：PyTorch、DeepSpeed、Hugging Face Ecosystem。
数据格式
：
- 使用标准指令数据集（如 Alpaca 格式）或自定义 JSON 文件。
- 示例数据格式：json{"instruction": "写一首关于春天的诗", "input": "", "output": "..."}
高效微调
：
- LoRA/QLoRA
  ：冻结原模型权重，添加低秩适配层，适合单卡微调。
- 全参数微调
  ：需多卡并行（如 DeepSpeed ZeRO-3）。
部署推理
：
- 使用 vLLM 或 Triton 加速推理，支持 OpenAI 兼容的 API 服务。

(2) 典型应用场景

领域知识注入
：在医疗、法律等专业语料上微调，增强模型垂直领域能力。
风格对齐
：调整生成文本的语气（如正式、口语化）。
多语言扩展
：加入小语种数据，提升非英语生成质量。

4. 优势与对比

特性	DeepSeek LLM	LLaMA-2	ChatGLM
开源协议	MIT（商用友好）	非商用/需申请	需授权
中英文支持	优化	一般	中文优化
长上下文	16K+（可扩展）	4K（需外推）	8K
微调成本	低（QLoRA 支持）	中等	中等