Ollama部署本地大模型高可靠性方案：DeepSeek-R1-Distill-Qwen-7B 7B版健康检查与自动重启

本文介绍了在星图GPU平台上自动化部署【ollama】DeepSeek-R1-Distill-Qwen-7B镜像，实现本地大模型高可靠性服务的方案。该方案通过健康检查与自动重启机制，确保模型服务稳定运行，适用于需要持续提供智能问答、文本生成等AI推理能力的应用场景。

苟全性命

98人浏览 · 2026-03-25 00:34:28

苟全性命 · 2026-03-25 00:34:28 发布

Ollama部署本地大模型高可靠性方案：DeepSeek-R1-Distill-Qwen-7B 7B版健康检查与自动重启

1. 引言：为什么需要高可靠性部署？

把大模型部署到本地，就像在家里养了一只聪明的“数字宠物”。它能帮你写文章、解答问题、甚至陪你聊天。但问题是，这只“宠物”偶尔也会闹点小脾气——比如突然卡住不回应，或者干脆“罢工”了。

特别是当我们使用像 DeepSeek-R1-Distill-Qwen-7B 这样的推理模型时，它需要处理复杂的逻辑思考。有时候模型推理时间过长，或者遇到某些特殊输入，就可能导致服务无响应。这时候如果没人管，服务就一直停在那里，等你发现的时候可能已经耽误了不少工作。

今天我要分享的，就是一套给 Ollama 部署的 DeepSeek-R1-Distill-Qwen-7B 模型加上“自动保姆”的方案。通过健康检查和自动重启，确保你的本地大模型服务7×24小时稳定运行，出了问题能自己恢复，不需要你时刻盯着。

2. 理解 DeepSeek-R1-Distill-Qwen-7B：不只是另一个大模型

2.1 模型背后的故事

DeepSeek-R1 系列模型有点特别。大多数大模型都是先教它基础知识（监督微调），然后再训练它如何思考（强化学习）。但 DeepSeek-R1-Zero 走了条不一样的路——它直接从零开始用强化学习训练，没有前面的基础知识教学。

这种训练方式让模型在推理能力上表现很出色，但也带来了一些问题：有时候它会陷入无限循环，说一些让人看不懂的话，或者中英文混着说。为了解决这些问题，DeepSeek-R1 在强化学习之前加入了一些“冷启动”数据，相当于给了模型一些基础常识。

而我们今天要部署的 DeepSeek-R1-Distill-Qwen-7B，就是从 DeepSeek-R1 这个大模型“蒸馏”出来的小版本。你可以把它理解成把一位大学教授的知识精华，浓缩成高中生能理解的版本。虽然体积小了，但核心的推理能力保留了下来。

2.2 为什么选择 7B 版本？

7B 指的是 70 亿参数，这个规模有几个好处：

硬件友好：在消费级显卡（比如 RTX 3060 12GB）上就能流畅运行
响应快速：推理速度比较快，适合实时交互
内存占用合理：通常 8-16GB 内存就够用了
能力均衡：在推理能力和资源消耗之间找到了不错的平衡点

对于大多数个人开发者和小团队来说，7B 版本是个很实用的选择。它既能处理复杂的推理任务，又不会对硬件要求太高。

3. 基础部署：让模型跑起来

3.1 安装 Ollama

如果你还没安装 Ollama，这里有个快速安装的方法：

# Linux/macOS 一键安装
curl -fsSL https://ollama.ai/install.sh | sh

# Windows 用户可以直接下载安装包
# 访问 https://ollama.ai/download 下载对应版本

安装完成后，打开终端输入 ollama --version，如果能看到版本号，说明安装成功了。

3.2 拉取并运行模型

DeepSeek-R1-Distill-Qwen-7B 模型在 Ollama 上的名字是 deepseek-r1:7b，拉取命令很简单：

# 拉取模型（第一次运行会自动下载）
ollama run deepseek-r1:7b

下载完成后，你会看到模型启动的提示，然后出现 >>> 等待输入。这时候你可以试试问它一些问题：

>>> 帮我解释一下什么是强化学习

模型会开始思考并生成回答。如果一切正常，恭喜你，基础部署完成了！

3.3 通过 API 提供服务

但直接交互模式不适合长期运行，我们需要让模型以服务形式运行：

# 启动 Ollama 服务
ollama serve

# 在另一个终端测试 API
curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:7b",
  "prompt": "你好，请介绍一下自己",
  "stream": false
}'

如果看到返回的 JSON 数据，说明 API 服务运行正常。现在模型已经可以接受外部调用了。

4. 可靠性挑战：模型服务可能遇到的问题

4.1 常见故障场景

在实际使用中，我遇到过这么几种情况：

内存泄漏：长时间运行后，内存占用越来越高，最后服务崩溃
推理卡死：遇到某些复杂问题，模型陷入“思考循环”，一直不返回结果
GPU 内存不足：处理大文本时显存不够，直接报错退出
网络超时：客户端等待太久断开连接，但服务端还在运行
系统资源竞争：其他程序抢占了太多 CPU 或内存资源

4.2 手动检查的痛点

最开始我都是手动检查：

定时去终端看看服务还在不在
发个测试请求看看响应是否正常
查看系统监控，看内存和 CPU 使用情况

但这样有几个问题：

不及时：可能故障发生几小时后才发现
不全面：只能检查表面状态，不知道内部是否健康
麻烦：半夜还要起来检查，影响休息
容易忘：忙起来就忘了检查，等用的时候才发现服务挂了

5. 健康检查方案：给模型装上“心电图”

5.1 设计健康检查策略

好的健康检查应该像医院的体检，既要全面又要高效。我设计了三个层次的检查：

第一层：心跳检查（每30秒一次）

检查服务进程是否存活
检查端口是否在监听
这是最基础的存活检查

第二层：功能检查（每2分钟一次）

发送一个简单的推理请求
验证返回结果是否正常
检查响应时间是否在合理范围内

第三层：深度检查（每10分钟一次）

发送一个中等复杂度的推理问题
检查推理逻辑是否正确
验证内存使用是否正常

5.2 实现健康检查脚本

创建一个 health_check.py 文件：

#!/usr/bin/env python3
"""
DeepSeek-R1-Distill-Qwen-7B 健康检查脚本
"""

import requests
import time
import psutil
import logging
from datetime import datetime

# 配置日志
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler('ollama_health.log'),
        logging.StreamHandler()
    ]
)

class OllamaHealthChecker:
    def __init__(self, host='localhost', port=11434):
        self.base_url = f"http://{host}:{port}"
        self.model_name = "deepseek-r1:7b"
        
    def check_process(self):
        """检查 Ollama 进程是否运行"""
        for proc in psutil.process_iter(['pid', 'name', 'cmdline']):
            try:
                if 'ollama' in proc.info['name'].lower():
                    # 检查是否在运行 serve 命令
                    cmdline = ' '.join(proc.info['cmdline'] or [])
                    if 'serve' in cmdline:
                        return True, proc.info['pid']
            except (psutil.NoSuchProcess, psutil.AccessDenied):
                continue
        return False, None
    
    def check_port(self):
        """检查 11434 端口是否在监听"""
        try:
            for conn in psutil.net_connections():
                if conn.laddr.port == 11434 and conn.status == 'LISTEN':
                    return True
        except:
            pass
        return False
    
    def check_simple_request(self):
        """发送简单请求检查基本功能"""
        try:
            response = requests.post(
                f"{self.base_url}/api/generate",
                json={
                    "model": self.model_name,
                    "prompt": "请回复'服务正常'",
                    "stream": False,
                    "max_tokens": 10
                },
                timeout=10
            )
            
            if response.status_code == 200:
                result = response.json()
                if 'response' in result:
                    return True, "基本功能正常"
                else:
                    return False, "响应格式异常"
            else:
                return False, f"HTTP错误: {response.status_code}"
                
        except requests.exceptions.Timeout:
            return False, "请求超时"
        except requests.exceptions.ConnectionError:
            return False, "连接失败"
        except Exception as e:
            return False, f"未知错误: {str(e)}"
    
    def check_deep_request(self):
        """发送深度请求检查推理能力"""
        try:
            start_time = time.time()
            response = requests.post(
                f"{self.base_url}/api/generate",
                json={
                    "model": self.model_name,
                    "prompt": "如果小明有5个苹果，给了小红2个，又买了3个，他现在有几个苹果？请一步步推理。",
                    "stream": False,
                    "max_tokens": 150
                },
                timeout=30
            )
            
            elapsed = time.time() - start_time
            
            if response.status_code == 200:
                result = response.json()
                response_text = result.get('response', '').lower()
                
                # 检查响应是否包含正确答案的线索
                if '6' in response_text or '六' in response_text:
                    return True, f"深度推理正常 (耗时: {elapsed:.2f}秒)"
                else:
                    return False, "推理结果异常"
            else:
                return False, f"深度检查HTTP错误: {response.status_code}"
                
        except requests.exceptions.Timeout:
            return False, "深度检查超时"
        except Exception as e:
            return False, f"深度检查错误: {str(e)}"
    
    def check_system_resources(self):
        """检查系统资源使用情况"""
        try:
            # 查找 Ollama 进程
            ollama_procs = []
            for proc in psutil.process_iter(['pid', 'name', 'memory_percent', 'cpu_percent']):
                try:
                    if 'ollama' in proc.info['name'].lower():
                        ollama_procs.append(proc)
                except:
                    continue
            
            if not ollama_procs:
                return False, "未找到 Ollama 进程"
            
            # 计算总资源占用
            total_memory = 0
            total_cpu = 0
            
            for proc in ollama_procs:
                try:
                    proc.cpu_percent(interval=0.1)  # 第一次调用返回0
                    time.sleep(0.1)
                    cpu = proc.cpu_percent()
                    memory = proc.memory_percent()
                    
                    total_cpu += cpu
                    total_memory += memory
                except:
                    continue
            
            status = f"CPU: {total_cpu:.1f}%, 内存: {total_memory:.1f}%"
            
            # 设置阈值警告
            if total_memory > 80:
                return False, f"内存占用过高: {status}"
            elif total_cpu > 90:
                return False, f"CPU占用过高: {status}"
            else:
                return True, status
                
        except Exception as e:
            return False, f"资源检查失败: {str(e)}"
    
    def run_full_check(self):
        """执行完整健康检查"""
        checks = []
        
        # 检查1: 进程状态
        process_ok, pid = self.check_process()
        checks.append(("进程检查", process_ok, f"PID: {pid}" if pid else "未找到进程"))
        
        # 检查2: 端口监听
        port_ok = self.check_port()
        checks.append(("端口检查", port_ok, "11434端口监听中" if port_ok else "端口未监听"))
        
        # 检查3: 基本功能
        basic_ok, basic_msg = self.check_simple_request()
        checks.append(("基本功能", basic_ok, basic_msg))
        
        # 检查4: 系统资源
        resource_ok, resource_msg = self.check_system_resources()
        checks.append(("系统资源", resource_ok, resource_msg))
        
        # 检查5: 深度功能（每3次检查执行一次）
        if int(time.time()) % 3 == 0:  # 简单的轮次控制
            deep_ok, deep_msg = self.check_deep_request()
            checks.append(("深度推理", deep_ok, deep_msg))
        
        # 汇总结果
        all_ok = all(ok for _, ok, _ in checks)
        
        # 记录日志
        timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        status = "正常" if all_ok else "异常"
        
        log_msg = f"[{timestamp}] 状态: {status}\n"
        for name, ok, msg in checks:
            status_icon = "✓" if ok else "✗"
            log_msg += f"  {status_icon} {name}: {msg}\n"
        
        logging.info(log_msg)
        
        return all_ok, checks

def main():
    """主函数：持续健康检查"""
    checker = OllamaHealthChecker()
    
    logging.info("开始 DeepSeek-R1-Distill-Qwen-7B 健康监控...")
    
    check_count = 0
    consecutive_failures = 0
    max_consecutive_failures = 3
    
    while True:
        check_count += 1
        logging.info(f"执行第 {check_count} 次健康检查...")
        
        all_ok, checks = checker.run_full_check()
        
        if all_ok:
            consecutive_failures = 0
            logging.info("所有检查通过，服务状态正常")
        else:
            consecutive_failures += 1
            logging.warning(f"健康检查失败，连续失败次数: {consecutive_failures}")
            
            # 如果连续失败达到阈值，触发恢复流程
            if consecutive_failures >= max_consecutive_failures:
                logging.error("连续检查失败，准备执行恢复操作...")
                # 这里可以调用自动恢复函数
                # recover_service()
                consecutive_failures = 0
        
        # 等待下一次检查（30秒）
        time.sleep(30)

if __name__ == "__main__":
    main()

这个脚本实现了完整的健康检查功能，它会：

每30秒检查一次服务状态
检查进程、端口、基本功能、系统资源
定期进行深度推理测试
记录详细的日志
检测连续失败，为自动重启做准备

5.3 配置系统服务

为了让健康检查脚本能长期运行，我们把它配置成系统服务：

# 创建服务配置文件
sudo nano /etc/systemd/system/ollama-health.service

添加以下内容：

[Unit]
Description=Ollama DeepSeek-R1 Health Check Service
After=network.target
Wants=ollama.service

[Service]
Type=simple
User=你的用户名
WorkingDirectory=/path/to/your/script
ExecStart=/usr/bin/python3 /path/to/your/script/health_check.py
Restart=on-failure
RestartSec=10
StandardOutput=journal
StandardError=journal

[Install]
WantedBy=multi-user.target

然后启用并启动服务：

# 重新加载 systemd 配置
sudo systemctl daemon-reload

# 启用服务（开机自启）
sudo systemctl enable ollama-health.service

# 启动服务
sudo systemctl start ollama-health.service

# 查看服务状态
sudo systemctl status ollama-health.service

# 查看日志
sudo journalctl -u ollama-health.service -f

现在健康检查服务就会在后台自动运行，即使重启服务器也会自动启动。

6. 自动重启方案：让服务“自我修复”

6.1 设计重启策略

检测到问题只是第一步，更重要的是能自动恢复。我设计了分级重启策略：

级别1：温和重启（针对临时性问题）

问题：单次健康检查失败
动作：等待30秒后重试检查
目的：避免因网络抖动等临时问题误重启

级别2：服务重启（针对服务卡死）

问题：连续3次检查失败，但进程还在
动作：重启 Ollama 服务进程
目的：解决内存泄漏或推理卡死问题

级别3：强制重启（针对严重问题）

问题：进程崩溃或端口丢失
动作：强制结束进程并重新启动
目的：应对严重故障

级别4：系统级恢复（针对资源问题）

问题：系统资源耗尽
动作：清理系统资源后重启
目的：解决系统层面的问题

6.2 实现自动重启脚本

创建 auto_recover.py：

#!/usr/bin/env python3
"""
DeepSeek-R1-Distill-Qwen-7B 自动恢复脚本
"""

import os
import time
import signal
import subprocess
import logging
from datetime import datetime

# 配置日志
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler('ollama_recover.log'),
        logging.StreamHandler()
    ]
)

class OllamaAutoRecover:
    def __init__(self):
        self.ollama_cmd = "ollama serve"
        self.check_interval = 30  # 检查间隔（秒）
        self.max_retries = 3      # 最大重试次数
        self.retry_delay = 5      # 重试延迟（秒）
        
    def is_ollama_running(self):
        """检查 Ollama 是否在运行"""
        try:
            result = subprocess.run(
                ["pgrep", "-f", "ollama serve"],
                capture_output=True,
                text=True
            )
            return result.returncode == 0
        except:
            return False
    
    def stop_ollama(self):
        """停止 Ollama 服务"""
        logging.info("正在停止 Ollama 服务...")
        
        # 尝试优雅停止
        try:
            # 查找 Ollama 进程
            result = subprocess.run(
                ["pgrep", "-f", "ollama serve"],
                capture_output=True,
                text=True
            )
            
            if result.stdout:
                pids = result.stdout.strip().split('\n')
                for pid in pids:
                    if pid:
                        try:
                            os.kill(int(pid), signal.SIGTERM)
                            logging.info(f"已发送停止信号到进程 {pid}")
                        except:
                            pass
            
            # 等待进程结束
            for _ in range(10):  # 最多等待10秒
                if not self.is_ollama_running():
                    logging.info("Ollama 服务已优雅停止")
                    return True
                time.sleep(1)
            
            # 如果优雅停止失败，强制停止
            logging.warning("优雅停止失败，尝试强制停止...")
            subprocess.run(["pkill", "-9", "-f", "ollama serve"])
            time.sleep(2)
            
            if not self.is_ollama_running():
                logging.info("Ollama 服务已强制停止")
                return True
            else:
                logging.error("无法停止 Ollama 服务")
                return False
                
        except Exception as e:
            logging.error(f"停止服务时出错: {str(e)}")
            return False
    
    def start_ollama(self):
        """启动 Ollama 服务"""
        logging.info("正在启动 Ollama 服务...")
        
        try:
            # 使用 nohup 在后台运行
            process = subprocess.Popen(
                self.ollama_cmd,
                shell=True,
                stdout=subprocess.PIPE,
                stderr=subprocess.PIPE,
                preexec_fn=os.setsid
            )
            
            logging.info(f"Ollama 服务启动，PID: {process.pid}")
            
            # 等待服务就绪
            logging.info("等待服务就绪...")
            for i in range(30):  # 最多等待30秒
                if self.check_service_ready():
                    logging.info("Ollama 服务启动成功")
                    return True
                time.sleep(1)
            
            logging.warning("服务启动超时，但进程可能仍在运行")
            return False
            
        except Exception as e:
            logging.error(f"启动服务时出错: {str(e)}")
            return False
    
    def check_service_ready(self):
        """检查服务是否就绪"""
        try:
            import requests
            response = requests.get("http://localhost:11434/api/tags", timeout=5)
            return response.status_code == 200
        except:
            return False
    
    def cleanup_system(self):
        """清理系统资源"""
        logging.info("执行系统资源清理...")
        
        try:
            # 清理 GPU 内存（如果有的话）
            if self.has_gpu():
                self.cleanup_gpu_memory()
            
            # 清理系统缓存
            subprocess.run(["sync"], check=False)
            subprocess.run(["echo", "3", ">", "/proc/sys/vm/drop_caches"], 
                         shell=True, check=False)
            
            # 检查磁盘空间
            disk_info = subprocess.run(
                ["df", "-h", "/"],
                capture_output=True,
                text=True
            )
            logging.info(f"磁盘使用情况:\n{disk_info.stdout}")
            
            logging.info("系统资源清理完成")
            return True
            
        except Exception as e:
            logging.error(f"清理系统资源时出错: {str(e)}")
            return False
    
    def has_gpu(self):
        """检查是否有 GPU"""
        try:
            result = subprocess.run(
                ["nvidia-smi"],
                capture_output=True,
                text=True
            )
            return result.returncode == 0
        except:
            return False
    
    def cleanup_gpu_memory(self):
        """清理 GPU 内存"""
        try:
            # 重置 GPU（如果有权限）
            subprocess.run(["nvidia-smi", "--gpu-reset"], check=False)
            logging.info("已尝试重置 GPU")
        except:
            logging.warning("无法重置 GPU，可能没有权限")
    
    def recover_service(self, level=1):
        """根据故障级别执行恢复操作"""
        logging.info(f"执行级别 {level} 恢复操作...")
        
        recovery_success = False
        
        if level == 1:
            # 级别1：等待后重试
            logging.info("级别1：等待系统自恢复...")
            time.sleep(self.retry_delay * 2)
            recovery_success = self.check_service_ready()
            
        elif level == 2:
            # 级别2：重启 Ollama 服务
            logging.info("级别2：重启 Ollama 服务...")
            if self.stop_ollama():
                time.sleep(2)
                recovery_success = self.start_ollama()
        
        elif level == 3:
            # 级别3：强制重启
            logging.info("级别3：强制重启服务...")
            subprocess.run(["pkill", "-9", "-f", "ollama"], check=False)
            time.sleep(3)
            recovery_success = self.start_ollama()
        
        elif level >= 4:
            # 级别4：系统级恢复
            logging.info("级别4：执行系统级恢复...")
            self.cleanup_system()
            subprocess.run(["pkill", "-9", "-f", "ollama"], check=False)
            time.sleep(5)
            recovery_success = self.start_ollama()
        
        if recovery_success:
            logging.info(f"级别 {level} 恢复操作成功")
        else:
            logging.error(f"级别 {level} 恢复操作失败")
        
        return recovery_success
    
    def monitor_and_recover(self):
        """监控并自动恢复"""
        consecutive_failures = 0
        check_count = 0
        
        logging.info("开始 Ollama 服务监控与自动恢复...")
        
        while True:
            check_count += 1
            current_time = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
            
            # 检查服务状态
            if self.check_service_ready():
                if consecutive_failures > 0:
                    logging.info(f"[{current_time}] 服务已恢复，重置失败计数")
                    consecutive_failures = 0
                else:
                    if check_count % 20 == 0:  # 每10分钟记录一次正常状态
                        logging.info(f"[{current_time}] 服务运行正常 (检查次数: {check_count})")
            else:
                consecutive_failures += 1
                logging.warning(
                    f"[{current_time}] 服务异常！连续失败次数: {consecutive_failures}/3"
                )
                
                # 根据连续失败次数决定恢复级别
                if consecutive_failures >= 3:
                    recovery_level = min(consecutive_failures - 2, 4)
                    if self.recover_service(recovery_level):
                        consecutive_failures = 0
                        logging.info("恢复成功，继续监控...")
                    else:
                        logging.error("恢复失败，等待下次检查...")
            
            # 等待下一次检查
            time.sleep(self.check_interval)

def main():
    """主函数"""
    recover = OllamaAutoRecover()
    
    # 先检查当前状态
    if not recover.is_ollama_running():
        logging.warning("Ollama 服务未运行，尝试启动...")
        recover.start_ollama()
        time.sleep(10)
    
    # 开始监控
    recover.monitor_and_recover()

if __name__ == "__main__":
    main()

6.3 配置完整的监控系统

把健康检查和自动重启结合起来，创建一个完整的监控系统：

# 创建监控启动脚本 monitor_ollama.sh
#!/bin/bash

# 切换到脚本目录
cd /path/to/your/scripts

# 启动健康检查
echo "启动健康检查服务..."
python3 health_check.py > health_check.log 2>&1 &

# 等待5秒
sleep 5

# 启动自动恢复
echo "启动自动恢复服务..."
python3 auto_recover.py > auto_recover.log 2>&1 &

echo "监控系统已启动"
echo "健康检查日志: health_check.log"
echo "自动恢复日志: auto_recover.log"
echo "查看实时日志: tail -f *.log"

给脚本执行权限并运行：

chmod +x monitor_ollama.sh
./monitor_ollama.sh

7. 高级功能：让监控更智能

7.1 添加告警通知

当服务出现问题时，除了自动恢复，还可以发送通知：

# 在 auto_recover.py 中添加通知功能
class NotificationManager:
    def __init__(self):
        # 这里可以配置各种通知方式
        self.notification_methods = []
        
    def add_email_notification(self, smtp_server, port, username, password, to_emails):
        """添加邮件通知"""
        # 实现邮件发送逻辑
        pass
    
    def add_webhook_notification(self, webhook_url):
        """添加 Webhook 通知（如 Slack、钉钉、企业微信）"""
        # 实现 Webhook 调用逻辑
        pass
    
    def send_notification(self, title, message, level="warning"):
        """发送通知"""
        timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        full_message = f"[{timestamp}] {title}\n{message}"
        
        # 这里实现具体的通知发送逻辑
        print(f"发送通知: {full_message}")
        
        # 在实际使用中，可以调用邮件、Webhook 等
        
    def notify_service_down(self, consecutive_failures):
        """服务宕机通知"""
        title = "🚨 Ollama 服务异常"
        message = f"""
DeepSeek-R1-Distill-Qwen-7B 服务检测到异常！

详情：
- 连续失败次数：{consecutive_failures}
- 检测时间：{datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
- 服务地址：localhost:11434

系统正在尝试自动恢复...
        """
        self.send_notification(title, message, "error")
    
    def notify_service_recovered(self, recovery_level):
        """服务恢复通知"""
        title = "✅ Ollama 服务已恢复"
        message = f"""
DeepSeek-R1-Distill-Qwen-7B 服务已恢复！

详情：
- 恢复级别：{recovery_level}
- 恢复时间：{datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
- 服务状态：运行正常

系统将继续监控服务状态。
        """
        self.send_notification(title, message, "info")

7.2 实现性能监控

除了基本的健康检查，还可以监控性能指标：

class PerformanceMonitor:
    def __init__(self):
        self.metrics_history = []
        self.max_history = 1000  # 保存最近1000次记录
        
    def collect_metrics(self):
        """收集性能指标"""
        metrics = {
            'timestamp': time.time(),
            'cpu_percent': psutil.cpu_percent(interval=1),
            'memory_percent': psutil.virtual_memory().percent,
            'disk_usage': psutil.disk_usage('/').percent,
        }
        
        # 添加 Ollama 特定指标
        ollama_metrics = self.get_ollama_metrics()
        metrics.update(ollama_metrics)
        
        # 保存到历史记录
        self.metrics_history.append(metrics)
        if len(self.metrics_history) > self.max_history:
            self.metrics_history.pop(0)
        
        return metrics
    
    def get_ollama_metrics(self):
        """获取 Ollama 特定指标"""
        metrics = {
            'ollama_cpu': 0,
            'ollama_memory': 0,
            'active_connections': 0,
            'request_rate': 0
        }
        
        try:
            # 获取 Ollama 进程资源使用
            for proc in psutil.process_iter(['pid', 'name', 'cpu_percent', 'memory_percent']):
                try:
                    if 'ollama' in proc.info['name'].lower():
                        metrics['ollama_cpu'] += proc.info['cpu_percent']
                        metrics['ollama_memory'] += proc.info['memory_percent']
                except:
                    continue
            
            # 获取 API 请求统计（需要 Ollama 的 metrics 端点）
            import requests
            response = requests.get("http://localhost:11434/api/metrics", timeout=5)
            if response.status_code == 200:
                # 解析 metrics 数据
                pass
                
        except:
            pass
        
        return metrics
    
    def detect_anomalies(self):
        """检测性能异常"""
        if len(self.metrics_history) < 10:
            return []
        
        recent_metrics = self.metrics_history[-10:]  # 最近10次记录
        anomalies = []
        
        # 检查 CPU 使用率突增
        cpu_values = [m['cpu_percent'] for m in recent_metrics]
        if max(cpu_values) > 80 and cpu_values[-1] > 2 * sum(cpu_values[:-1])/9:
            anomalies.append("CPU使用率异常升高")
        
        # 检查内存泄漏
        memory_values = [m['memory_percent'] for m in recent_metrics]
        if memory_values[-1] > 90 and memory_values[-1] > memory_values[0] + 20:
            anomalies.append("内存使用持续增长，可能内存泄漏")
        
        # 检查磁盘空间
        if recent_metrics[-1]['disk_usage'] > 90:
            anomalies.append("磁盘空间不足")
        
        return anomalies
    
    def generate_report(self, hours=24):
        """生成性能报告"""
        # 实现报告生成逻辑
        pass

7.3 配置日志轮转

长期运行会产生大量日志，需要配置日志轮转：

# 创建日志轮转配置
sudo nano /etc/logrotate.d/ollama-monitor

添加以下内容：

/path/to/your/logs/*.log {
    daily
    rotate 30
    compress
    delaycompress
    missingok
    notifempty
    create 644 yourusername yourgroup
    postrotate
        # 如果需要重新打开日志文件，可以在这里添加命令
    endscript
}

这样日志文件会自动按天轮转，保留30天，并压缩旧日志。