mirrors/unsloth/llama-3-8b-bnb-4bit生态:支持Llama 3.2/Phi-3.5/Gemma 2全方案

【免费下载链接】llama-3-8b-bnb-4bit 【免费下载链接】llama-3-8b-bnb-4bit 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/llama-3-8b-bnb-4bit

unsloth/llama-3-8b-bnb-4bit是一个基于Meta Llama 3模型的4-bit量化版本,通过Unsloth技术实现了对Llama 3.2、Phi-3.5、Gemma 2等主流模型的高效支持,可将微调速度提升2-5倍,同时减少70%内存占用,为开发者提供了经济高效的大语言模型部署方案。

✨ 核心优势:速度与内存的双重突破

Unsloth技术通过优化的量化方案和训练流程,为多种主流模型带来了显著的性能提升:

  • Llama 3.2 (3B):2.4倍加速,内存占用减少58%
  • Phi-3.5 (mini):2倍加速,内存占用减少50%
  • Gemma 2 (9B):2.4倍加速,内存占用减少58%
  • Mistral (7B):2.2倍加速,内存占用减少62%

所有优化均保持模型原有精度,特别适合资源有限的开发环境和个人开发者使用。

🚀 免费微调指南:零基础也能上手

项目提供了完全免费的Google Colab微调方案,所有notebook均针对初学者设计,只需添加数据集并点击"Run All"即可完成微调,支持导出为GGUF、vLLM格式或直接上传至Hugging Face。

主流模型微调入口

模型类型 微调Notebook 性能提升 内存优化
Llama-3.2 (3B) 对话式微调 2.4x faster 58% less
Llama-3.2 (11B vision) 视觉模型微调 2x faster 60% less
Phi-3.5 (mini) 对话式微调 2x faster 50% less
Gemma 2 (9B) Alpaca格式微调 2.4x faster 58% less

提示:Llama 3.2对话式notebook特别适用于ShareGPT ChatML/Vicuna模板,文本补全notebook则适用于原始文本处理任务。

📋 快速开始:两种使用方式

使用Transformers库

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="auto",
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Explain quantum computing in simple terms."},
]

prompt = pipeline.tokenizer.apply_chat_template(
		messages,
		tokenize=False,
		add_generation_prompt=True
)

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

使用原始llama3代码库

# 克隆仓库
git clone https://gitcode.com/mirrors/unsloth/llama-3-8b-bnb-4bit

# 下载原始权重
huggingface-cli download meta-llama/Meta-Llama-3-70B-Instruct --include "original/*" --local-dir Meta-Llama-3-70B-Instruct

📊 模型性能基准测试

Llama 3系列模型在标准评测基准上表现优异,8B版本在多项指标上超越前代产品:

基础预训练模型性能

评测基准 Llama 3 8B Llama2 7B Llama2 13B Llama 3 70B
MMLU (5-shot) 66.6 45.7 53.8 79.5
CommonSenseQA (7-shot) 72.6 57.6 67.6 83.8
ARC-Challenge (25-shot) 78.6 53.7 67.6 93.0
HumanEval (0-shot) 62.2 7.9 14.0 81.7

指令微调模型性能

Llama 3指令微调模型在代码生成和数学推理任务上表现尤为突出:

  • GSM-8K数学推理:79.6%(8B版本)
  • HumanEval代码生成:62.2%(8B版本)
  • MMLU多任务评测:68.4%(8B版本)

🔒 负责任的AI使用

项目提供了全面的安全使用指南和工具,包括:

建议开发者在部署时结合这些工具,根据具体使用场景调整安全策略。

📄 模型详情

  • 开发者:Meta
  • 模型大小:8B参数
  • 上下文长度:8k tokens
  • 训练数据:15T+公开文本数据
  • 知识截止日期:2023年3月
  • 许可证:Llama 3社区许可证

完整模型信息可参考原始模型卡片

🤝 社区与贡献

Unsloth项目欢迎社区贡献,您可以通过以下方式参与:

  • 提交Issue和功能建议
  • 改进微调脚本和示例
  • 分享使用案例和优化经验

加入Discord社区获取最新动态和技术支持。

【免费下载链接】llama-3-8b-bnb-4bit 【免费下载链接】llama-3-8b-bnb-4bit 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/llama-3-8b-bnb-4bit

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐