mirrors/unsloth/llama-3-8b-bnb-4bit生态:支持Llama 3.2/Phi-3.5/Gemma 2全方案
mirrors/unsloth/llama-3-8b-bnb-4bit生态:支持Llama 3.2/Phi-3.5/Gemma 2全方案
【免费下载链接】llama-3-8b-bnb-4bit 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/llama-3-8b-bnb-4bit
unsloth/llama-3-8b-bnb-4bit是一个基于Meta Llama 3模型的4-bit量化版本,通过Unsloth技术实现了对Llama 3.2、Phi-3.5、Gemma 2等主流模型的高效支持,可将微调速度提升2-5倍,同时减少70%内存占用,为开发者提供了经济高效的大语言模型部署方案。
✨ 核心优势:速度与内存的双重突破
Unsloth技术通过优化的量化方案和训练流程,为多种主流模型带来了显著的性能提升:
- Llama 3.2 (3B):2.4倍加速,内存占用减少58%
- Phi-3.5 (mini):2倍加速,内存占用减少50%
- Gemma 2 (9B):2.4倍加速,内存占用减少58%
- Mistral (7B):2.2倍加速,内存占用减少62%
所有优化均保持模型原有精度,特别适合资源有限的开发环境和个人开发者使用。
🚀 免费微调指南:零基础也能上手
项目提供了完全免费的Google Colab微调方案,所有notebook均针对初学者设计,只需添加数据集并点击"Run All"即可完成微调,支持导出为GGUF、vLLM格式或直接上传至Hugging Face。
主流模型微调入口
| 模型类型 | 微调Notebook | 性能提升 | 内存优化 |
|---|---|---|---|
| Llama-3.2 (3B) | 对话式微调 | 2.4x faster | 58% less |
| Llama-3.2 (11B vision) | 视觉模型微调 | 2x faster | 60% less |
| Phi-3.5 (mini) | 对话式微调 | 2x faster | 50% less |
| Gemma 2 (9B) | Alpaca格式微调 | 2.4x faster | 58% less |
提示:Llama 3.2对话式notebook特别适用于ShareGPT ChatML/Vicuna模板,文本补全notebook则适用于原始文本处理任务。
📋 快速开始:两种使用方式
使用Transformers库
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3-70B-Instruct"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device="auto",
)
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explain quantum computing in simple terms."},
]
prompt = pipeline.tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
outputs = pipeline(
prompt,
max_new_tokens=256,
do_sample=True,
temperature=0.6,
top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])
使用原始llama3代码库
# 克隆仓库
git clone https://gitcode.com/mirrors/unsloth/llama-3-8b-bnb-4bit
# 下载原始权重
huggingface-cli download meta-llama/Meta-Llama-3-70B-Instruct --include "original/*" --local-dir Meta-Llama-3-70B-Instruct
📊 模型性能基准测试
Llama 3系列模型在标准评测基准上表现优异,8B版本在多项指标上超越前代产品:
基础预训练模型性能
| 评测基准 | Llama 3 8B | Llama2 7B | Llama2 13B | Llama 3 70B |
|---|---|---|---|---|
| MMLU (5-shot) | 66.6 | 45.7 | 53.8 | 79.5 |
| CommonSenseQA (7-shot) | 72.6 | 57.6 | 67.6 | 83.8 |
| ARC-Challenge (25-shot) | 78.6 | 53.7 | 67.6 | 93.0 |
| HumanEval (0-shot) | 62.2 | 7.9 | 14.0 | 81.7 |
指令微调模型性能
Llama 3指令微调模型在代码生成和数学推理任务上表现尤为突出:
- GSM-8K数学推理:79.6%(8B版本)
- HumanEval代码生成:62.2%(8B版本)
- MMLU多任务评测:68.4%(8B版本)
🔒 负责任的AI使用
项目提供了全面的安全使用指南和工具,包括:
- Meta Llama Guard 2:输入输出安全过滤
- Code Shield:代码安全防护
- Responsible Use Guide:负责任使用指南
建议开发者在部署时结合这些工具,根据具体使用场景调整安全策略。
📄 模型详情
- 开发者:Meta
- 模型大小:8B参数
- 上下文长度:8k tokens
- 训练数据:15T+公开文本数据
- 知识截止日期:2023年3月
- 许可证:Llama 3社区许可证
完整模型信息可参考原始模型卡片。
🤝 社区与贡献
Unsloth项目欢迎社区贡献,您可以通过以下方式参与:
- 提交Issue和功能建议
- 改进微调脚本和示例
- 分享使用案例和优化经验
加入Discord社区获取最新动态和技术支持。
【免费下载链接】llama-3-8b-bnb-4bit 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/llama-3-8b-bnb-4bit
更多推荐


所有评论(0)