Ollama 完全指南:本地运行大模型的终极方案

本教程适用于 Windows/macOS/Linux 系统,最后更新于 2025年6月7日
官方文档:https://ollama.com

一、Ollama 简介

Ollama 是一个开源的 本地大模型运行框架,支持:

  • ✅ 一键下载运行 1000+ 模型(Llama3、Mistral、DeepSeek 等)
  • ✅ 完全离线运行,保护隐私
  • ✅ CPU/GPU 自动优化
  • ✅ 简单易用的命令行和 API
  1. 下载地址:
    • https://github.com/ollama/ollama/releases
    • https://ollama.com/download
  2. 官网地址:
    • https://ollama.com/
    • https://github.com/ollama/ollama
    • https://ollama.com/search

二、安装 Ollama

Windows 安装

# 1. 下载安装包(右键以管理员身份运行)
https://ollama.com/download/OllamaSetup.exe

# 2. 验证安装
ollama --version
# 应显示:ollama version 0.1.36

macOS 安装

# 方法1:Homebrew(推荐)
brew install ollama

# 方法2:直接下载
curl -fsSL https://ollama.com/install.sh | sh

# 启动服务
brew services start ollama

Linux 安装

# 自动安装脚本(支持 Ubuntu/Debian/CentOS)
curl -fsSL https://ollama.com/install.sh | sh

# 手动安装(适用于所有发行版)
sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/bin/ollama
sudo chmod +x /usr/bin/ollama
ollama serve

三、基础使用

1. 下载运行模型

# 查看可用模型
ollama list

# 下载运行模型(以 Llama3 8B 中文版为例)
ollama run llama3:8b-chinese

# 首次运行会自动下载(约 4.8GB)

2. 交互式对话

模型运行后直接输入问题:

>>> 用Python写一个快速排序函数
def quick_sort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quick_sort(left) + middle + quick_sort(right)

3. 常用命令

# 查看运行中的模型
ollama list

# 停止模型
ollama stop llama3

# 删除模型
ollama rm llama3:8b-chinese

# 更新所有模型
ollama update

四、高级功能

1. 自定义模型配置

创建 Modelfile:
FROM llama3:8b-chinese
# 高级参数设置
PARAMETER num_ctx 4096
PARAMETER temperature 0.7

# 添加系统提示
SYSTEM """
你是一位资深Python工程师,回答需包含可执行代码和详细解释
"""
构建自定义模型:
ollama create my-llama -f ./Modelfile
ollama run my-llama

2. 使用 Python API

##需要 pip install ollama
import ollama

# 流式响应
response = ollama.chat(
    model='llama3.2:3b',
    messages=[{'role': 'user', 'content': '解释量子纠缠'}],
    stream=True
)

for chunk in response:
    print(chunk['message']['content'], end='', flush=True)

3. 文件内容问答

from ollama import Client

client = Client(host='http://localhost:11434')

# 上传并分析PDF
response = client.generate(
    model="llama3.2:3b",
    prompt="总结这篇论文的核心观点:",
    files=["/path/to/paper.pdf"]
)

print(response['response'])

五、热门模型推荐

模型名称 大小 特点 下载命令
Llama3 8B 中文版 4.8GB 中英文均衡 ollama run llama3.2:3b
DeepSeek-Coder 6.7GB 编程专用 ollama run deepseek-coder
Mistral 7B 4.1GB 英语最强小模型 ollama run mistral
Qwen:7b-chat 5.3GB 阿里通义千问 ollama run qwen:7b-chat
Phi-3-mini 1.8GB 微软超轻量模型 ollama run phi3

六、性能优化技巧

GPU 加速配置

# 查看可用GPU
ollama list

# 指定GPU运行(NVIDIA)
OLLAMA_GPU_LAYERS=50 ollama run llama3:8b-chinese

# AMD显卡用户
OLLAMA_GPU_LAYERS=50 OLLAMA_RUN_PRECISION="q4_0" ollama run mistral

内存优化

# 使用量化版本(4-bit)
ollama run llama3:8b-chinese-q4_0

# CPU模式专用参数
OLLAMA_NUM_THREADS=8 ollama run mistral

硬盘优化

OLLAMA_MODELS=/path/to/ollama/models/path ollama serve

七、常见问题解决

1. 下载速度慢

# 使用国内镜像源
export OLLAMA_MODELS_SOURCE="https://ollama.mirrors.ustc.edu.cn/models"
ollama run llama3:8b-chinese

2. 显存不足

# 减小GPU层数
OLLAMA_GPU_LAYERS=20 ollama run deepseek-coder

# 使用小量化模型
ollama run phi3:mini-4k

3. 端口冲突

# 修改默认端口
ollama serve --port 8080

# 客户端连接
import ollama
client = ollama.Client(host='http://localhost:8080')

八、进阶资源

  1. 官方模型库
  2. Python API文档
  3. 自定义模型指南
  4. 硬件加速配置

提示:运行 ollama help 获取完整命令列表,使用 Ctrl+D 退出交互模式

# 启动Web UI(社区项目)
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v ollama-webui:/app/backend/data --name ollama-webui ghcr.io/ollama-webui/ollama-webui:main

访问 http://localhost:3000 使用图形界面管理模型

九、本人常用模型

ollama pull sam860/deepseek-r1-0528-qwen3:8b
ollama pull llama3.2:3b
ollama pull llama3.2:1b
ollama pull wangshenzhi/llama3-8b-chinese-chat-ollama-q8
ollama pull bge-m3:567m
ollama pull phi4-mini:3.8b
ollama pull quentinz/bge-large-zh-v1.5
ollama pull bge-large:335m
ollama pull nomic-embed-text
ollama pull qwen3:8b
ollama pull qwen3:4b
ollama pull qwen3:1.7b
ollama pull qwen3:0.6b
ollama pull huihui_ai/qwen3-abliterated:8b
ollama pull huihui_ai/qwen3-abliterated:4b
ollama pull huihui_ai/qwen3-abliterated:1.7b
ollama pull huihui_ai/qwen3-abliterated:0.6b
ollama pull rockn/DeepSeek-R1-0528-Qwen3-8B-IQ4_NL

© 著作权归作者所有

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐