
最新开源大语言模型汇总(含公司、发布日期、GitHub)
大语言模型(LLM)迅速发展,2024年开源模型如DeepSeek、LLaMA 2、Mistral 7B等备受关注。DeepSeek R1在数学、编程等领域超越GPT-4,LLaMA 2提供7B至70B参数,在推理与代码任务上表现突出。Mistral 7B虽小,但优化机制使其超越LLaMA 2的13B模型。这些模型参数从数十亿到数百亿不等,小模型适合本地部署,LLaMA 2的7B/13B优化后可在
·
🔥 最新开源大语言模型汇总(含公司、发布日期、GitHub)
📌 引言
近年来,大语言模型(LLM)技术发展迅猛,多个开源 LLM 在全球范围内涌现。本文整理了 最新的开源大语言模型,并涵盖以下关键信息:
- 模型名称
- 开发公司/机构
- 公开日期
- GitHub 链接
- 参数规模
- 主要性能特点
- 最低硬件要求
- 推荐硬件配置
- 本地部署支持情况
📊 开源大语言模型对比表
模型名称 | 参数规模 | 主要性能特点 | 开发机构 | 公开日期 | GitHub 链接 | 最低硬件要求 | 推荐硬件配置 | 本地部署支持 |
---|---|---|---|---|---|---|---|---|
DeepSeek LLM | 7B、67B、R1(671B 稀疏 MOE) | 适用于数学、代码、通用对话 | DeepSeek(杭州) | 2023/12 (67B) / 2025/01 (R1) | 🔗 deepseek-ai/DeepSeek-LLM | 7B 需 8GB 显存,67B 需 8×40GB | 8×A100 40GB(67B),R1 需服务器集群 | ✅ 支持本地部署,7B 可 CPU 运行 |
LLaMA 2 | 7B、13B、70B | 通用对话、编码、推理能力优秀 | Meta AI | 2023/07 | 🔗 meta-llama/Llama-2 | 7B 需 14GB 显存,70B 需 140GB | 2×A100 80GB(70B) | ✅ 可本地部署,7B 量化可 CPU 运行 |
Mistral 7B | 7.3B | 在 7B 级别中性能最优,支持长文本 | Mistral AI | 2023/09 | 🔗 mistralai/Mistral-7B | 14GB 显存(FP16) | RTX 3090 24GB | ✅ 可本地部署,量化后低端 GPU 可运行 |
Falcon 180B | 180B | 知识问答超越 GPT-3.5,适用于多种任务 | 阿布扎比 TII | 2023/09 | 🔗 tiiuae/falcon-180B | 640GB 显存(FP16) | 8×A100 80GB | ⚠️ 需高端硬件,本地部署难度大 |
Baichuan 13B | 13B | 中英文双语优化,擅长对话 | 百川智能(北京) | 2023/07 | 🔗 baichuan-inc/Baichuan-13B | 7GB(4-bit 量化) | 24GB GPU 或更高 | ✅ 支持本地部署,开源权重 |
Qwen 14B | 14B | 阿里云开源 LLM,支持工具调用 | 阿里巴巴达摩院 | 2023/09 | 🔗 QwenLM/Qwen | 14B 需 13GB 显存(量化) | 2×16GB GPU | ✅ 可本地部署,提供 INT8 量化 |
StarCoder 15B | 15B | 专为代码开发优化,可处理 8K 代码上下文 | BigCode(Hugging Face & ServiceNow) | 2023/05 | 🔗 bigcode-project/starcoder | 7GB(4-bit 量化) | RTX 3090 24GB | ✅ 可本地部署,支持代码补全 |
ChatGLM2 6B | 6B | 支持中英对话,优化推理性能 | 清华 KEG & 智谱 AI | 2023/06 | 🔗 THUDM/ChatGLM-6B | 6GB 显存(INT4 量化) | RTX 3060 12GB | ✅ 可本地部署,低硬件友好 |
🎯 选型建议
- 低端设备(8GB 显存) → Mistral 7B、Baichuan 13B、ChatGLM2 6B(推荐 INT4 量化)
- 消费级 GPU(16-24GB) → LLaMA 2 7B、Qwen 14B、StarCoder
- 高端工作站(32-80GB) → LLaMA 2 13B、Baichuan 13B(FP16)
- 服务器 / 多 GPU → DeepSeek 67B、LLaMA 2 70B、Falcon 180B
- 代码生成 → StarCoder 15B、DeepSeek LLM、Qwen 14B
- 中文 NLP 任务 → Baichuan 13B、ChatGLM2 6B、Qwen 14B
🔗 参考资料
- DeepSeek LLM:GitHub
- LLaMA 2:GitHub
- Mistral:GitHub
- Falcon 180B:GitHub
- Baichuan 13B:GitHub
- Qwen:GitHub
- StarCoder:GitHub
- ChatGLM2:GitHub
🔥 结语
开源大语言模型的生态正不断壮大,越来越多的团队在推动 LLM 发展。如果你对大模型部署感兴趣,可以参考本文提供的信息,选择适合你的 开源 LLM 进行实验和应用。
欢迎在评论区交流你的部署经验!👍
🚀 关注我,获取更多 AI & NLP 资讯!
如果你觉得这篇文章有帮助,别忘了 点赞👍 + 收藏⭐!后续会持续更新最新 LLM 资讯和开源实践,敬请期待!🚀
更多推荐
所有评论(0)