🔥 最新开源大语言模型汇总(含公司、发布日期、GitHub)

📌 引言

近年来,大语言模型(LLM)技术发展迅猛,多个开源 LLM 在全球范围内涌现。本文整理了 最新的开源大语言模型,并涵盖以下关键信息:

  • 模型名称
  • 开发公司/机构
  • 公开日期
  • GitHub 链接
  • 参数规模
  • 主要性能特点
  • 最低硬件要求
  • 推荐硬件配置
  • 本地部署支持情况

📊 开源大语言模型对比表

模型名称 参数规模 主要性能特点 开发机构 公开日期 GitHub 链接 最低硬件要求 推荐硬件配置 本地部署支持
DeepSeek LLM 7B、67B、R1(671B 稀疏 MOE) 适用于数学、代码、通用对话 DeepSeek(杭州) 2023/12 (67B) / 2025/01 (R1) 🔗 deepseek-ai/DeepSeek-LLM 7B 需 8GB 显存,67B 需 8×40GB 8×A100 40GB(67B),R1 需服务器集群 ✅ 支持本地部署,7B 可 CPU 运行
LLaMA 2 7B、13B、70B 通用对话、编码、推理能力优秀 Meta AI 2023/07 🔗 meta-llama/Llama-2 7B 需 14GB 显存,70B 需 140GB 2×A100 80GB(70B) ✅ 可本地部署,7B 量化可 CPU 运行
Mistral 7B 7.3B 在 7B 级别中性能最优,支持长文本 Mistral AI 2023/09 🔗 mistralai/Mistral-7B 14GB 显存(FP16) RTX 3090 24GB ✅ 可本地部署,量化后低端 GPU 可运行
Falcon 180B 180B 知识问答超越 GPT-3.5,适用于多种任务 阿布扎比 TII 2023/09 🔗 tiiuae/falcon-180B 640GB 显存(FP16) 8×A100 80GB ⚠️ 需高端硬件,本地部署难度大
Baichuan 13B 13B 中英文双语优化,擅长对话 百川智能(北京) 2023/07 🔗 baichuan-inc/Baichuan-13B 7GB(4-bit 量化) 24GB GPU 或更高 ✅ 支持本地部署,开源权重
Qwen 14B 14B 阿里云开源 LLM,支持工具调用 阿里巴巴达摩院 2023/09 🔗 QwenLM/Qwen 14B 需 13GB 显存(量化) 2×16GB GPU ✅ 可本地部署,提供 INT8 量化
StarCoder 15B 15B 专为代码开发优化,可处理 8K 代码上下文 BigCode(Hugging Face & ServiceNow) 2023/05 🔗 bigcode-project/starcoder 7GB(4-bit 量化) RTX 3090 24GB ✅ 可本地部署,支持代码补全
ChatGLM2 6B 6B 支持中英对话,优化推理性能 清华 KEG & 智谱 AI 2023/06 🔗 THUDM/ChatGLM-6B 6GB 显存(INT4 量化) RTX 3060 12GB ✅ 可本地部署,低硬件友好

🎯 选型建议

  • 低端设备(8GB 显存)Mistral 7B、Baichuan 13B、ChatGLM2 6B(推荐 INT4 量化)
  • 消费级 GPU(16-24GB)LLaMA 2 7B、Qwen 14B、StarCoder
  • 高端工作站(32-80GB)LLaMA 2 13B、Baichuan 13B(FP16)
  • 服务器 / 多 GPUDeepSeek 67B、LLaMA 2 70B、Falcon 180B
  • 代码生成StarCoder 15B、DeepSeek LLM、Qwen 14B
  • 中文 NLP 任务Baichuan 13B、ChatGLM2 6B、Qwen 14B

🔗 参考资料


🔥 结语

开源大语言模型的生态正不断壮大,越来越多的团队在推动 LLM 发展。如果你对大模型部署感兴趣,可以参考本文提供的信息,选择适合你的 开源 LLM 进行实验和应用。

欢迎在评论区交流你的部署经验!👍


🚀 关注我,获取更多 AI & NLP 资讯!

如果你觉得这篇文章有帮助,别忘了 点赞👍 + 收藏⭐!后续会持续更新最新 LLM 资讯和开源实践,敬请期待!🚀


Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐