一、开源大模型(可直接微调)

这些模型提供完整的权重和代码,允许用户自行修改、微调和部署。

1. LLaMA 系列(Meta)
  • 模型

    :LLaMA-1/2(7B、13B、70B 参数)、LLaMA-3(8B、70B 参数)

  • 特点

    • 基于 Transformer 的高效架构,适合对话、推理任务。

    • LLaMA-2 支持商业用途(需申请许可),LLaMA-3 性能更强。

  • 微调工具

    :Hugging Face Transformers、PyTorch、QLoRA(低资源微调)。

  • 开源地址

    :需申请访问权限(通过 Meta 官网或 Hugging Face)。

2. Falcon 系列(TII UAE)
  • 模型

    :Falcon-7B、40B、180B(Apache 2.0 协议)

  • 特点

    • 高性能且完全开源,支持商业用途。

    • 180B 版本参数量接近 GPT-3.5,推理能力优秀。

  • 微调工具

    :Hugging Face、DeepSpeed。

  • 开源地址

    :Hugging Face Hub(直接下载)。

3. BLOOM(BigScience)
  • 模型

    :BLOOM-176B、560M、1.7B、3B 等

  • 特点

    • 多语言支持(46 种语言),适合全球化场景。

    • 176B 版本需高性能硬件支持。

  • 微调工具

    :Hugging Face Transformers。

  • 开源地址

    :Hugging Face Hub。

4. Alpaca & Vicuna(Stanford & 社区)
  • 模型

    :Alpaca-7B、Vicuna-7B/13B

  • 特点

    • 基于 LLaMA 微调的对话模型,接近 ChatGPT 效果。

    • Vicuna 支持长上下文(16K tokens)。

  • 微调工具

    :LoRA(低秩适配)、FastChat。

  • 开源地址

    :GitHub(需申请 LLaMA 原始权重)。

5. Mistral 系列(Mistral AI)
  • 模型

    :Mistral-7B、Mixtral-8x7B(混合专家模型)

  • 特点

    • 7B 模型性能超越 LLaMA-13B,支持 32K 长上下文。

    • Mixtral-8x7B 参数量等效 47B,推理效率高。

  • 微调工具

    :Hugging Face、vLLM。

  • 开源地址

    :Hugging Face Hub。

6. 国内大模型
  • ChatGLM(智谱AI)

    • ChatGLM-6B、12B,支持中英双语,可本地部署。

  • 百川模型(Baichuan)

    • Baichuan2-7B/13B,Apache 2.0 协议,适合商业场景。

  • 通义千问(Qwen)

    • Qwen-7B/14B/72B,支持多轮对话和插件扩展。

  • 开源地址

    :ModelScope、Hugging Face Hub。


二、闭源大模型(有限微调)

部分闭源模型通过 API 提供微调接口,但无法直接修改模型权重。

1. GPT 系列(OpenAI)
  • 模型

    :GPT-3.5-turbo、GPT-4

  • 特点

    • 通过 OpenAI Fine-tuning API 微调,需上传标注数据。

    • 仅支持部分任务优化(如风格调整、特定领域生成)。

  • 限制

    :无法自定义架构,依赖 OpenAI 的云端服务。

2. Claude(Anthropic)
  • 模型

    :Claude-2/3

  • 特点

    • 提供少量参数的微调选项(需申请企业权限)。

    • 支持长上下文(200K tokens)。

3. PaLM 2(Google)
  • 模型

    :PaLM 2(通过 Vertex AI)

  • 特点

    • 支持基于企业数据的微调(医疗、金融等垂直领域)。

    • 需付费使用 Google Cloud 服务。


三、微调方法

  1. 全参数微调(Full Fine-tuning)
    • 直接更新模型所有权重,需高性能 GPU(如 A100/H100)。

    • 适用场景:数据量大、任务复杂(如领域知识注入)。

  2. 高效微调(Parameter-Efficient Fine-tuning, PEFT)
    • LoRA

      :冻结原模型,注入低秩适配层。

    • QLoRA

      :量化 + LoRA,可在 24GB 显存下微调 70B 模型。

    • Adapter

      :插入小型适配模块,保留原权重。

  3. 提示微调(Prompt Tuning)
    • 仅优化输入提示(Prompt)的嵌入表示,无需修改模型。


四、选择建议

  • 资源有限

    :使用 7B-13B 模型 + LoRA/QLoRA(如 LLaMA-7B、Mistral-7B)。

  • 商业用途

    :选择 Apache 2.0/MIT 协议模型(Falcon、Baichuan)。

  • 多语言任务

    :BLOOM、XLM-R。

  • 长文本处理

    :Vicuna、Mistral-7B(32K context)。


五、学习资源

  • 代码库

    :Hugging Face Transformers、DeepSpeed、FastChat。

  • 教程

    • Hugging Face PEFT 文档(LoRA/QLoRA)。

    • Meta 官方 LLaMA 微调指南。

    • 社区项目(如 Stanford Alpaca、Chinese-LLaMA-Alpaca)。

1. DeepSeek 开源模型

**(1) DeepSeek LLM 系列**
  • 模型版本

    • DeepSeek LLM-7B/67B

      :基础版本,支持中英双语,参数量分别为 7B 和 67B。

    • DeepSeek LLM Chat

      :基于基础模型微调的对话版本,对齐人类偏好。

  • 特点

    • 高性能

      :在 MT-Bench、C-Eval 等中英文评测中表现优于 LLaMA-2、ChatGLM 等同类模型。

    • 长上下文支持

      :默认支持 4K tokens,可扩展至 16K 或更高。

    • 高效推理

      :支持量化(INT4/AWQ)和 vLLM 加速。

  • 开源协议

    :MIT 许可证,允许商用

  • 微调支持

    • 提供完整的模型权重和代码,支持全参数微调、LoRA、QLoRA 等方法。

    • 工具链:Hugging Face Transformers、DeepSeek 官方示例代码。

  • 资源地址

    • 模型下载:Hugging Face Hub(DeepSeek-LLM-7B)

    • 微调教程:GitHub 官方仓库(提供 SFT、RLHF 示例)。

**(2) DeepSeek-MoE 系列**
  • 模型版本

    :DeepSeek-MoE-16B(混合专家模型)

  • 特点

    • 通过稀疏化架构(16个专家,激活其中2个)实现高性价比,性能接近 7B 模型,显存占用更低。

    • 支持中英文对话和复杂推理。

  • 开源协议

    :MIT 许可证,允许商用

  • 微调支持

    :与 DeepSeek LLM 类似,支持 LoRA 等高效微调方法。


2. DeepSeek 闭源模型

**(1) DeepSeek-R1**
  • 定位

    :企业级 API 服务,对标 GPT-4、Claude-3。

  • 特点

    • 多模态支持(文本、图像、代码)。

    • 长上下文(最高 128K tokens),擅长数学推理、代码生成。

  • 微调支持

    • 通过 DeepSeek 企业平台提供定制化微调服务,需提交数据并与官方合作。

    • 支持领域适配(如金融、医疗)和私有化部署。

**(2) DeepSeek-API**
  • 模型版本

    :DeepSeek-Lite/Pro

  • 特点

    • 低成本、低延迟的云端 API,适合中小规模应用。

    • 支持中英文生成、摘要、翻译等通用任务。

  • 微调支持

    • 提供有限的 Prompt 工程调优,不支持模型权重修改。


3. 微调实践建议

**(1) 开源模型微调步骤**
  1. 环境准备

    • GPU 要求:7B 模型需 16GB+ 显存(QLoRA 可降至 10GB),67B 模型需多卡或量化。

    • 框架:PyTorch、DeepSpeed、Hugging Face Ecosystem。

  2. 数据格式

    • 使用标准指令数据集(如 Alpaca 格式)或自定义 JSON 文件。

    • 示例数据格式:json{"instruction": "写一首关于春天的诗", "input": "", "output": "..."}

  3. 高效微调

    • LoRA/QLoRA

      :冻结原模型权重,添加低秩适配层,适合单卡微调。

    • 全参数微调

      :需多卡并行(如 DeepSpeed ZeRO-3)。

  4. 部署推理

    • 使用 vLLM 或 Triton 加速推理,支持 OpenAI 兼容的 API 服务。

**(2) 典型应用场景**
  • 领域知识注入

    :在医疗、法律等专业语料上微调,增强模型垂直领域能力。

  • 风格对齐

    :调整生成文本的语气(如正式、口语化)。

  • 多语言扩展

    :加入小语种数据,提升非英语生成质量。


4. 优势与对比

特性 DeepSeek LLM LLaMA-2 ChatGLM
开源协议

MIT(商用友好)

非商用/需申请

需授权

中英文支持

✔️

 优化

✔️

 一般

✔️

 中文优化

长上下文

16K+(可扩展)

4K(需外推)

8K

微调成本

低(QLoRA 支持)

中等

中等


5. 学习资源

  • 官方文档

    • DeepSeek LLM GitHub

    • DeepSeek 技术报告(含训练细节和评测结果)

  • 社区教程

    • 使用 QLoRA 微调 DeepSeek-7B(Bilibili/知乎均有实操案例)。

    • 结合 LangChain 构建领域知识问答系统。


总结

DeepSeek 的开源模型(如 LLM-7B)是当前性价比极高的微调选择,尤其适合中文场景和商业应用。其闭源模型(如 DeepSeek-R1)则为企业级需求提供高性能、多模态的解决方案。若追求灵活性和可控性,建议优先尝试开源版本,结合 LoRA 快速迭代业务模型。

 

 大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书 

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。



4.LLM面试题和面经合集


这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。



👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐