mirrors/unsloth/llama-3-8b-bnb-4bit生态：支持Llama 3.2/Phi-3.5/Gemma 2全方案

翟萌耘Ralph

965人浏览 · 2026-05-04 10:42:57

翟萌耘Ralph · 2026-05-04 10:42:57 发布

mirrors/unsloth/llama-3-8b-bnb-4bit生态：支持Llama 3.2/Phi-3.5/Gemma 2全方案

【免费下载链接】llama-3-8b-bnb-4bit 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/llama-3-8b-bnb-4bit

unsloth/llama-3-8b-bnb-4bit是一个基于Meta Llama 3模型的4-bit量化版本，通过Unsloth技术实现了对Llama 3.2、Phi-3.5、Gemma 2等主流模型的高效支持，可将微调速度提升2-5倍，同时减少70%内存占用，为开发者提供了经济高效的大语言模型部署方案。

✨ 核心优势：速度与内存的双重突破

Unsloth技术通过优化的量化方案和训练流程，为多种主流模型带来了显著的性能提升：

Llama 3.2 (3B)：2.4倍加速，内存占用减少58%
Phi-3.5 (mini)：2倍加速，内存占用减少50%
Gemma 2 (9B)：2.4倍加速，内存占用减少58%
Mistral (7B)：2.2倍加速，内存占用减少62%

所有优化均保持模型原有精度，特别适合资源有限的开发环境和个人开发者使用。

🚀 免费微调指南：零基础也能上手

项目提供了完全免费的Google Colab微调方案，所有notebook均针对初学者设计，只需添加数据集并点击"Run All"即可完成微调，支持导出为GGUF、vLLM格式或直接上传至Hugging Face。

主流模型微调入口

模型类型	微调Notebook	性能提升	内存优化
Llama-3.2 (3B)	对话式微调	2.4x faster	58% less
Llama-3.2 (11B vision)	视觉模型微调	2x faster	60% less
Phi-3.5 (mini)	对话式微调	2x faster	50% less
Gemma 2 (9B)	Alpaca格式微调	2.4x faster	58% less

提示：Llama 3.2对话式notebook特别适用于ShareGPT ChatML/Vicuna模板，文本补全notebook则适用于原始文本处理任务。

📋 快速开始：两种使用方式

使用Transformers库

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="auto",
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Explain quantum computing in simple terms."},
]

prompt = pipeline.tokenizer.apply_chat_template(
		messages,
		tokenize=False,
		add_generation_prompt=True
)

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

使用原始llama3代码库

# 克隆仓库
git clone https://gitcode.com/mirrors/unsloth/llama-3-8b-bnb-4bit

# 下载原始权重
huggingface-cli download meta-llama/Meta-Llama-3-70B-Instruct --include "original/*" --local-dir Meta-Llama-3-70B-Instruct

📊 模型性能基准测试

Llama 3系列模型在标准评测基准上表现优异，8B版本在多项指标上超越前代产品：

基础预训练模型性能

评测基准	Llama 3 8B	Llama2 7B	Llama2 13B	Llama 3 70B
MMLU (5-shot)	66.6	45.7	53.8	79.5
CommonSenseQA (7-shot)	72.6	57.6	67.6	83.8
ARC-Challenge (25-shot)	78.6	53.7	67.6	93.0
HumanEval (0-shot)	62.2	7.9	14.0	81.7

指令微调模型性能

Llama 3指令微调模型在代码生成和数学推理任务上表现尤为突出：

GSM-8K数学推理：79.6%（8B版本）
HumanEval代码生成：62.2%（8B版本）
MMLU多任务评测：68.4%（8B版本）

🔒 负责任的AI使用

项目提供了全面的安全使用指南和工具，包括：

Meta Llama Guard 2：输入输出安全过滤
Code Shield：代码安全防护
Responsible Use Guide：负责任使用指南

建议开发者在部署时结合这些工具，根据具体使用场景调整安全策略。

📄 模型详情

开发者：Meta
模型大小：8B参数
上下文长度：8k tokens
训练数据：15T+公开文本数据
知识截止日期：2023年3月
许可证：Llama 3社区许可证

完整模型信息可参考原始模型卡片。

🤝 社区与贡献

Unsloth项目欢迎社区贡献，您可以通过以下方式参与：

提交Issue和功能建议
改进微调脚本和示例
分享使用案例和优化经验

加入Discord社区获取最新动态和技术支持。

【免费下载链接】llama-3-8b-bnb-4bit 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/llama-3-8b-bnb-4bit

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

只要13个单词，就能给ChatGPT“下毒”？「美版贴吧」Reddit，正沦为AI“投毒基地”

DeepSeek技术社区

实测 Grok4.3 vs Claude Opus vs GPT 系列：长文档合同分析能力横向对比

摘要：针对企业法务、商务等场景的超长合同分析需求，实测对比Grok4.3、ClaudeOpus和GPT-4o三款主流大模型的表现。ClaudeOpus以92分领先，长文本记忆和风险识别能力突出，适合高风险合同；GPT-4o法律推理强，但超10万字文档易丢失细节；Grok4.3虽支持百万Token加载，但法律专业性和幻觉控制薄弱，仅适合低风险速读。测试基于标准化数据集，覆盖要素提取、风险识别、逻辑