Qwen3-4B模型入门：三步完成模型部署与第一个对话程序

本文介绍了如何在星图GPU平台上自动化部署Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF镜像，快速搭建大语言模型运行环境。用户通过该平台可轻松创建实例并运行模型，实现与AI进行智能对话、代码生成等核心应用，极大简化了传统复杂的部署流程。

岑秋苑

204人浏览 · 2026-03-19 00:29:43

岑秋苑 · 2026-03-19 00:29:43 发布

Qwen3-4B模型入门：三步完成模型部署与第一个对话程序

想试试最新的AI对话模型，但被复杂的安装和环境配置劝退？今天，我们就来打破这个门槛。Qwen3-4B作为一款性能强劲的开源大语言模型，现在通过星图GPU平台，你只需要三步，就能让它跑起来，并和它进行第一次对话。整个过程，你甚至不需要在本地安装任何复杂的依赖，就像打开一个网页应用一样简单。这篇文章，我就带你走一遍这个最简化的流程，让你在十分钟内，亲眼看到模型“开口说话”。

1. 环境准备：在星图平台一键部署

第一步，我们需要一个能运行模型的环境。传统方式需要自己准备显卡、安装驱动、配置Python环境，非常繁琐。现在，我们可以借助星图GPU平台，它已经为我们准备好了包含所有必要组件的“镜像”，我们只需要点几下鼠标。

1.1 创建GPU实例

首先，访问星图GPU平台。在控制台找到创建实例或服务器的入口。这里的关键是选择正确的镜像和硬件。

选择镜像：在镜像市场或选择镜像的页面，搜索“Qwen”。你应该能找到预置了Qwen3-4B模型及相关运行环境的镜像。选择它，这能确保你开箱即用，省去手动安装模型和库的麻烦。
选择硬件：Qwen3-4B是一个40亿参数的模型，对显存有一定要求。建议选择配备至少8GB显存的GPU，例如NVIDIA T4或同等级别的卡。在星图平台上，你可以根据指引选择合适的GPU规格。

确认配置后，点击创建。平台会自动为你分配一台云服务器，并安装好你选择的镜像。这个过程通常需要几分钟，喝杯咖啡等待一下就好。

1.2 获取访问方式

实例创建并运行后，你需要找到登录这台“云电脑”的方法。星图平台通常会提供几种访问方式：

Web终端：直接在浏览器中打开一个命令行窗口，就像在本地使用Terminal或CMD一样。这是最直接的方式。
JupyterLab：如果你选择的镜像预装了Jupyter，那么你可以获得一个网页版的交互式编程环境。这对于运行和修改Python脚本特别友好。

记下平台提供的访问地址（通常是IP或域名）和登录凭证（如密码或密钥）。我们下一步就会用到它。

2. 找到并理解示例脚本

成功登录到你的云服务器环境后，第二步是找到可以运行的“剧本”。部署好的镜像里，通常已经贴心地为我们准备好了示例代码。

2.1 定位示例文件

打开Web终端或JupyterLab的文件浏览器。你需要找到存放示例代码的目录。这个路径可能因镜像不同而略有差异，常见的路径比如 /home/ 目录下，或者镜像的描述中会有提示。

你可以使用命令行来查找：

find / -name "*qwen*example*.py" 2>/dev/null | head -5

或者更简单点，在JupyterLab的文件浏览器里直观地浏览。找到一个名字类似 qwen_example.py, chat_demo.py 或 inference_example.py 的文件。

2.2 快速浏览脚本内容

用文本编辑器或JupyterLab打开这个Python脚本。别担心，我们不需要完全理解每一行代码，只看几个关键部分。一个最简单的对话脚本可能长这样：

# 导入必要的库
from transformers import AutoModelForCausalLM, AutoTokenizer
# 指定模型路径，通常是镜像内预下载好的
model_path = "/path/to/Qwen3-4B"
# 加载分词器（负责把文字转换成模型能懂的数字）
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
# 加载模型本身
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
# 将模型设置为评估模式（推理模式）
model.eval()
# 准备你的问题
prompt = "你好，请介绍一下你自己。"
# 将问题编码并送给模型，然后解码它的回答
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=100)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
# 打印模型的回答
print("模型回答：", response)

这段代码做了几件事：1）加载模型和工具；2）接收你的问题；3）让模型思考并生成回答；4）把回答转换成文字打印出来。你待会儿要运行的，就是这样一个逻辑。

3. 运行脚本并与模型对话

万事俱备，只欠“运行”。这是最激动人心的一步，你将亲眼看到代码变成对话。

3.1 执行脚本

在Web终端中，你可以导航到脚本所在的目录，然后直接运行它：

cd /path/to/your/script
python qwen_example.py

如果你在JupyterLab中，只需打开那个.ipynb笔记本文件或.py脚本文件，点击运行单元格的按钮即可。

第一次运行时，模型可能需要一点时间加载到GPU显存中，这取决于你的网络和硬件速度，请耐心等待几十秒到一两分钟。加载完成后，你会看到终端开始输出文字，最后打印出模型对你预设问题（比如“介绍一下你自己”）的回答。

3.2 进行第一次自由对话

示例脚本跑通了，但你可能不想每次都去修改代码文件来换问题。更互动的方式是写一个简单的交互循环。你可以创建一个新的Python文件，比如叫 chat_with_qwen.py，内容如下：

from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "/path/to/Qwen3-4B"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
model.eval()
print("Qwen3-4B 已加载，可以开始聊天了！（输入 'exit' 结束）")
while True:
    user_input = input("\n你：")
    if user_input.lower() == 'exit':
        print("再见！")
        break
    # 构建对话格式，这里使用一个简单的提示模板
    prompt = f"用户：{user_input}\n助手："
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    outputs = model.generate(**inputs, max_new_tokens=200, do_sample=True, temperature=0.8)
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    # 只提取“助手：”后面的部分作为回答
    assistant_response = response.split("助手：")[-1].strip()
    print(f"Qwen：{assistant_response}")

保存并运行这个新脚本。现在，你可以在终端里直接输入任何问题，比如“讲个笑话”、“用Python写一个冒泡排序”、“夏天的特点是什么”，模型都会逐一回答。输入 exit 即可退出程序。

4. 总结

走完这三步，你应该已经成功部署了Qwen3-4B模型，并完成了与它的第一次交互。整个过程的核心就是利用云平台预置的环境，跳过了所有复杂的底层配置，让你能直接聚焦在体验模型本身的能力上。用下来感觉，对于只是想快速体验和测试模型效果的朋友来说，这个方法非常省心。

你可能会发现，最初的回答可能有点简短或格式化，这很正常。大模型的魅力在于“调教”，你可以通过设计更清晰的提示词（比如“请以活泼的口吻，详细地…”），或者调整生成参数（如上面代码中的 temperature），来获得更符合你期望的回答。有了这个可以运行的基础环境，后续你想尝试更复杂的应用，比如让模型帮你写代码、分析文档、充当某个领域的顾问，都变得触手可及。下一步，不妨多问它几个问题，看看它在不同任务上的表现吧。