通义千问3-14B API调用教程：Python接入详细步骤

本文介绍了如何在星图GPU平台上自动化部署通义千问3-14B镜像，快速搭建本地大模型服务。基于该平台，用户可通过Python调用API实现高效文本生成，典型应用于智能客服、内容创作等场景，显著提升开发效率与推理性能。

丹力

358人浏览 · 2026-01-22 04:53:23

丹力 · 2026-01-22 04:53:23 发布

通义千问3-14B API调用教程：Python接入详细步骤

1. 为什么选择 Qwen3-14B？

如果你正在寻找一个性能接近30B级别、但单卡就能跑动的大模型，那 Qwen3-14B 很可能是你目前最省事的开源选择。

它由阿里云在2025年4月正式开源，拥有148亿全激活参数（Dense结构，非MoE），主打“单卡可跑、双模式推理、128k长上下文、119语互译”。最关键的是——它采用 Apache 2.0 协议，意味着你可以免费商用，无需担心版权问题。

更吸引人的是它的实际表现：

FP8量化后仅需14GB显存，RTX 4090用户可以直接全速运行；
原生支持128k token上下文（实测可达131k），相当于一次性读完40万汉字；
支持vLLM、Ollama、LMStudio等主流框架，一键部署不是口号；
官方还提供了 qwen-agent 库，轻松实现函数调用和插件扩展。

而我们今天要重点讲的，是如何通过 Python 调用它的本地 API 接口，完成高效集成。

2. 部署准备：用 Ollama 快速启动 Qwen3-14B

虽然 Qwen3-14B 可以通过多种方式部署（如 vLLM、HuggingFace Transformers + GGUF），但我们推荐使用 Ollama ——因为它简单到只需要一条命令。

2.1 安装 Ollama

前往官网 https://ollama.com 下载并安装对应系统的版本。安装完成后，在终端输入：

ollama --version

确认输出版本号即可。

2.2 拉取 Qwen3-14B 模型

执行以下命令下载 Qwen3-14B 的 FP8 量化版（适合消费级显卡）：

ollama pull qwen:14b-fp8

提示：你也可以选择 qwen:14b（默认fp16）或 qwen:14b-q4_K_M（更低显存需求）。FP8 版本在 A100 上可达 120 token/s，在 RTX 4090 上也能稳定 80 token/s。

等待下载完成后，你可以直接在本地启动服务。

3. 启动本地 API 服务

Ollama 默认会开启一个 RESTful API 服务，端口为 11434。我们可以用两种方式让它持续运行。

3.1 方式一：直接运行（测试用）

ollama run qwen:14b-fp8

进入交互模式后，你可以直接输入文本进行对话。但这不便于程序调用。

3.2 方式二：后台服务模式（推荐）

确保 Ollama 服务已启动：

ollama serve

该命令会在后台监听 http://localhost:11434，提供完整的 API 接口。

此时你可以通过 curl 测试是否正常工作：

curl http://localhost:11434/api/generate -d '{
  "model": "qwen:14b-fp8",
  "prompt":"你好，请介绍一下你自己"
}'

如果返回流式生成结果，说明服务就绪。

4. 使用 Python 调用 API

现在我们进入正题：如何用 Python 调用这个本地大模型服务。

Ollama 提供了简洁的 JSON 接口，我们可以通过 requests 库轻松对接。

4.1 安装依赖

pip install requests

4.2 基础调用代码

下面是一个最简单的同步调用示例：

import requests

def call_qwen(prompt, model="qwen:14b-fp8"):
    url = "http://localhost:11434/api/generate"
    data = {
        "model": model,
        "prompt": prompt,
        "stream": False  # 关闭流式输出，获取完整回复
    }
    
    response = requests.post(url, json=data)
    
    if response.status_code == 200:
        result = response.json()
        return result.get("response", "")
    else:
        return f"Error: {response.status_code}, {response.text}"

# 示例调用
output = call_qwen("请用中文写一首关于春天的五言绝句")
print(output)

运行后你会看到类似这样的输出：

春风拂柳绿，细雨润花红。
燕语穿林过，桃溪映日融。

是不是很流畅？而且响应速度非常快。

5. 高级功能：启用 Thinking 模式做复杂推理

Qwen3-14B 最大的亮点之一是支持 Thinking 模式，即让模型显式展示思考过程，特别适合数学题、逻辑推理、代码生成等任务。

5.1 如何触发 Thinking 模式？

只需在提示词中加入明确指令，例如：

“请逐步分析并解答以下问题，把你的思考过程放在标签内。”

来看一个实际例子：

prompt = """
求解方程：x² - 5x + 6 = 0，请逐步分析，并将思考过程写在 <think>...</think> 中。

格式要求：
<think>
这里是你的推理步骤
</think>
最终答案是：x = ?
"""

output = call_qwen(prompt)
print(output)

可能的输出如下：

<think>
我需要解一个二次方程 x² - 5x + 6 = 0。
可以使用因式分解法。
寻找两个数，它们的乘积为6，和为-5。
这两个数是-2和-3。
因此方程可分解为 (x - 2)(x - 3) = 0。
所以解为 x = 2 或 x = 3。
</think>
最终答案是：x = 2 或 x = 3

这种能力使得 Qwen3-14B 在处理复杂任务时表现接近 QwQ-32B 级别的模型。

6. 实战技巧：提升生成质量与控制输出

为了让模型更好服务于你的应用，这里分享几个实用技巧。

6.1 控制温度与最大长度

Ollama 支持设置 temperature 和 num_ctx（上下文长度）等参数：

data = {
    "model": "qwen:14b-fp8",
    "prompt": "请写一篇关于人工智能未来的短文",
    "stream": False,
    "options": {
        "temperature": 0.7,   # 创意性控制：越高越发散
        "num_ctx": 8192       # 设置本次请求的最大上下文长度
    }
}

常用参数建议：

temperature: 写作类设为 0.7~0.9，严谨任务设为 0.3~0.5
num_ctx: 最高可设至 131072（128k），但注意显存占用

6.2 强制返回 JSON 格式

如果你希望模型输出结构化数据，可以在提示中明确要求：

prompt = """
根据以下信息生成用户画像，必须以 JSON 格式返回：

姓名：李明，年龄：32，职业：产品经理，兴趣： hiking, reading, tech

返回格式：
{
  "name": "",
  "age": 0,
  "occupation": "",
  "interests": []
}
"""

output = call_qwen(prompt)
print(output)

输出示例：

{
  "name": "李明",
  "age": 32,
  "occupation": "产品经理",
  "interests": ["hiking", "reading", "tech"]
}

这说明 Qwen3-14B 对 JSON 结构生成的支持相当成熟。

7. 进阶方案：结合 Ollama WebUI 实现可视化调试

除了纯代码调用，我们还可以借助 Ollama WebUI 来可视化管理模型、测试提示词、查看生成效果。

7.1 安装 Ollama WebUI

使用 Docker 一键启动：

docker run -d -p 3000:3000 \
  -e OLLAMA_BASE_URL=http://your-host-ip:11434 \
  --add-host=host.docker.internal:host-gateway \
  --name ollama-webui \
  ghcr.io/open-webui/open-webui:main

访问 http://localhost:3000 即可打开图形界面。

7.2 功能亮点

多会话管理，支持命名与保存
实时流式输出，观察生成节奏
支持 Markdown 渲染、代码高亮
可上传文档进行问答（PDF/TXT等）
允许自定义系统提示（System Prompt）

这对于开发阶段的调试非常有帮助，尤其是当你想快速验证某个 prompt 效果时。

8. 性能优化建议：让 Qwen3-14B 跑得更快

尽管 Qwen3-14B 已经足够轻量，但在实际部署中仍有一些优化空间。

8.1 显存不足怎么办？

如果你的显卡显存小于24GB（如 RTX 3090/4080），建议使用量化版本：

ollama pull qwen:14b-q4_K_M   # 仅需约10GB显存

虽然性能略有下降，但依然能满足大多数场景需求。

8.2 提高吞吐量：使用 vLLM 替代 Ollama（进阶）

对于高并发场景，Ollama 的吞吐能力有限。此时可以考虑使用 vLLM 部署：

pip install vllm

启动服务：

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen1.5-14B-Chat \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.9 \
  --max-model-len 131072

然后通过 OpenAI 兼容接口调用：

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="none")

response = client.completions.create(
    model="Qwen1.5-14B-Chat",
    prompt="请解释量子纠缠的基本原理",
    max_tokens=512
)

print(response.choices[0].text)

vLLM 在批处理和高并发下性能远超 Ollama，适合生产环境。