LLaMA-MoE 项目使用与启动教程

LLaMA-MoE 项目使用与启动教程llama-moe⛷️ LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-training (EMNLP 2024)...

祝舟连

722人浏览 · 2025-04-09 10:19:50

祝舟连 · 2025-04-09 10:19:50 发布

LLaMA-MoE 项目使用与启动教程

1. 项目目录结构及介绍

LLaMA-MoE 项目是一个基于 LLaMA 模型的开源项目，它将 LLaMA 的 FFNs 分割成稀疏的专家网络，并插入 top-K 门控机制。以下是项目的目录结构及各部分的作用：

docs/: 存放项目文档及相关说明。
scripts/: 包含项目运行所需的脚本，例如专家构建、数据预处理等。
smoe/: 项目的主要代码模块，包含模型定义、训练和推理等。
tests/: 存放测试代码，用于验证项目的功能和性能。
tools/: 存放辅助工具，例如数据加载、模型监控等。
example.py: 一个示例脚本，展示了如何加载和使用 LLaMA-MoE 模型。
Makefile: 构建和运行项目的指令文件。
README.md: 项目说明文件，包含项目简介、安装指南、性能基准等信息。
requirements.txt: 项目依赖的第三方库列表。

2. 项目的启动文件介绍

项目的启动文件是 example.py，它提供了一个简单的示例，展示了如何加载预训练的 LLaMA-MoE 模型并进行文本生成。以下是启动文件的基本内容：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 设置模型路径
model_dir = "llama-moe/LLaMA-MoE-v1-3_5B-2_8"

# 加载分词器
tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)

# 加载模型
model = AutoModelForCausalLM.from_pretrained(model_dir, torch_dtype=torch.bfloat16, trust_remote_code=True)

# 将模型设置为评估模式
model.eval()

# 将模型发送到 GPU
model.to("cuda:0")

# 输入文本
input_text = "Suzhou is famous of"

# 对输入文本进行编码
inputs = tokenizer(input_text, return_tensors="pt").to("cuda:0")

# 生成文本
pred = model.generate(**inputs, max_length=50, temperature=0.0)

# 解码生成的文本并输出
print(tokenizer.decode(pred.cpu()[0], skip_special_tokens=True))