Qwen3-VL-Reranker-8B镜像安全加固：模型签名验证+API访问限流配置

本文介绍了如何在星图GPU平台上自动化部署通义千问3-VL-Reranker-8B镜像，并为其配置模型签名验证与API访问限流等安全加固方案。该多模态重排序模型可应用于电商搜索、知识库检索等场景，通过安全加固确保服务稳定与数据安全。

已退乎

367人浏览 · 2026-03-30 04:55:01

已退乎 · 2026-03-30 04:55:01 发布

Qwen3-VL-Reranker-8B镜像安全加固：模型签名验证+API访问限流配置

1. 为什么需要给AI镜像上把“安全锁”？

最近在部署通义千问3-VL-Reranker-8B这个多模态重排序服务时，我发现了一个容易被忽视的问题：很多开发者把AI模型部署上线后，就以为万事大吉了。但实际上，一个没有安全加固的AI服务，就像把家门钥匙放在门垫下面一样危险。

想象一下这个场景：你花了好几天时间部署了一个强大的多模态检索排序服务，它能同时处理文本、图片、视频，支持30多种语言，上下文长度达到32k。这个服务一旦上线，可能会被各种应用调用——可能是你的电商网站的商品搜索，也可能是企业内部的知识库检索，甚至是对外的API服务。

但如果没有安全措施，可能会遇到这些问题：

模型文件被恶意替换，导致排序结果被操控
API接口被恶意刷量，服务器资源被耗尽
敏感数据在传输过程中被窃取
未授权的用户随意调用服务

今天我就来分享一套完整的Qwen3-VL-Reranker-8B镜像安全加固方案，重点解决两个核心问题：模型完整性验证和API访问控制。这套方案不需要你成为安全专家，跟着步骤一步步来，就能给你的AI服务加上可靠的“安全锁”。

2. 模型签名验证：确保你的模型没被“调包”

2.1 模型被篡改的风险有多大？

你可能觉得模型文件放在服务器上很安全，但实际上风险无处不在。比如：

服务器被入侵，攻击者替换了模型文件
部署过程中从不可靠的源下载了模型
团队成员误操作覆盖了正确的模型
存储介质损坏导致模型文件损坏

一旦模型被篡改，重排序的结果就可能被操控。想象一下，如果你的电商搜索排序被恶意修改，把竞争对手的商品排到前面，或者把劣质商品推荐给用户，后果会多严重。

2.2 三步实现模型完整性校验

下面我教你用最简单的方法给模型加上“数字指纹”验证：

# 第一步：生成模型文件的数字签名
import hashlib
import json
import os

def generate_model_signature(model_dir="/model"):
    """生成模型文件的数字签名"""
    signature_data = {}
    
    # 遍历模型目录下的所有文件
    for root, dirs, files in os.walk(model_dir):
        for file in files:
            if file.endswith(('.safetensors', '.json', '.py')):
                file_path = os.path.join(root, file)
                with open(file_path, 'rb') as f:
                    # 计算文件的SHA256哈希值
                    file_hash = hashlib.sha256(f.read()).hexdigest()
                    relative_path = os.path.relpath(file_path, model_dir)
                    signature_data[relative_path] = file_hash
    
    # 保存签名文件
    signature_file = os.path.join(model_dir, "model_signature.json")
    with open(signature_file, 'w') as f:
        json.dump(signature_data, f, indent=2)
    
    print(f"模型签名已生成并保存到: {signature_file}")
    return signature_data

# 第二步：在服务启动时验证签名
def verify_model_signature(model_dir="/model"):
    """验证模型文件的完整性"""
    signature_file = os.path.join(model_dir, "model_signature.json")
    
    if not os.path.exists(signature_file):
        print("警告：未找到模型签名文件，跳过完整性验证")
        return True
    
    with open(signature_file, 'r') as f:
        expected_signatures = json.load(f)
    
    current_signatures = {}
    verification_passed = True
    
    for relative_path, expected_hash in expected_signatures.items():
        file_path = os.path.join(model_dir, relative_path)
        
        if not os.path.exists(file_path):
            print(f"错误：文件缺失 - {relative_path}")
            verification_passed = False
            continue
        
        with open(file_path, 'rb') as f:
            current_hash = hashlib.sha256(f.read()).hexdigest()
        
        if current_hash != expected_hash:
            print(f"错误：文件被篡改 - {relative_path}")
            print(f"  期望哈希: {expected_hash[:16]}...")
            print(f"  实际哈希: {current_hash[:16]}...")
            verification_passed = False
        else:
            print(f"验证通过: {relative_path}")
    
    return verification_passed

# 第三步：集成到主程序中
if __name__ == "__main__":
    # 首次部署时生成签名（只运行一次）
    # generate_model_signature()
    
    # 每次启动时验证签名
    if verify_model_signature():
        print("模型完整性验证通过，启动服务...")
        # 这里启动你的Qwen3-VL-Reranker服务
    else:
        print("模型完整性验证失败，服务终止！")
        exit(1)

这个方案的好处是：

简单易用：几行代码就搞定，不需要复杂的加密知识
零性能影响：只在启动时验证一次，不影响运行时性能
全面覆盖：验证所有关键文件，包括模型权重、配置文件、代码文件
易于维护：签名文件是纯文本的JSON，方便版本管理

2.3 自动化签名管理

为了更方便地管理签名，我们可以创建一个简单的管理脚本：

#!/bin/bash
# model_security_manager.sh

MODEL_DIR="/model"
SIGNATURE_FILE="$MODEL_DIR/model_signature.json"
BACKUP_DIR="/backup/signatures"

# 生成新签名
generate_signature() {
    echo "正在生成模型签名..."
    python3 -c "
import hashlib, json, os
model_dir = '$MODEL_DIR'
signature_data = {}
for root, dirs, files in os.walk(model_dir):
    for file in files:
        if any(file.endswith(ext) for ext in ['.safetensors', '.json', '.py', '.txt']):
            file_path = os.path.join(root, file)
            with open(file_path, 'rb') as f:
                file_hash = hashlib.sha256(f.read()).hexdigest()
                relative_path = os.path.relpath(file_path, model_dir)
                signature_data[relative_path] = file_hash
with open('$SIGNATURE_FILE', 'w') as f:
    json.dump(signature_data, f, indent=2)
print('签名生成完成，共包含', len(signature_data), '个文件')
"
    
    # 备份签名文件
    mkdir -p "$BACKUP_DIR"
    backup_name="signature_$(date +%Y%m%d_%H%M%S).json"
    cp "$SIGNATURE_FILE" "$BACKUP_DIR/$backup_name"
    echo "签名已备份到: $BACKUP_DIR/$backup_name"
}

# 验证签名
verify_signature() {
    if [ ! -f "$SIGNATURE_FILE" ]; then
        echo "错误：签名文件不存在"
        return 1
    fi
    
    echo "正在验证模型完整性..."
    python3 -c "
import hashlib, json, os, sys
model_dir = '$MODEL_DIR'
signature_file = '$SIGNATURE_FILE'
with open(signature_file, 'r') as f:
    expected_signatures = json.load(f)
all_ok = True
for rel_path, expected_hash in expected_signatures.items():
    file_path = os.path.join(model_dir, rel_path)
    if not os.path.exists(file_path):
        print(f'❌ 文件缺失: {rel_path}')
        all_ok = False
        continue
    with open(file_path, 'rb') as f:
        current_hash = hashlib.sha256(f.read()).hexdigest()
    if current_hash != expected_hash:
        print(f'❌ 文件被篡改: {rel_path}')
        print(f'   期望: {expected_hash[:16]}...')
        print(f'   实际: {current_hash[:16]}...')
        all_ok = False
    else:
        print(f'✅ 验证通过: {rel_path}')
sys.exit(0 if all_ok else 1)
"
    
    if [ $? -eq 0 ]; then
        echo "✅ 所有文件验证通过"
        return 0
    else
        echo "❌ 模型完整性验证失败"
        return 1
    fi
}

# 显示使用帮助
usage() {
    echo "模型安全管理器"
    echo "用法: $0 {generate|verify|help}"
    echo ""
    echo "命令:"
    echo "  generate   生成新的模型签名"
    echo "  verify     验证模型完整性"
    echo "  help       显示此帮助信息"
}

# 主逻辑
case "$1" in
    "generate")
        generate_signature
        ;;
    "verify")
        verify_signature
        ;;
    "help"|"")
        usage
        ;;
    *)
        echo "未知命令: $1"
        usage
        exit 1
        ;;
esac

使用方法很简单：

# 生成签名（首次部署或模型更新后运行）
bash model_security_manager.sh generate

# 验证签名（可以在服务启动脚本中调用）
bash model_security_manager.sh verify

3. API访问限流配置：防止服务被“刷爆”

3.1 为什么要限制API访问？

Qwen3-VL-Reranker-8B虽然强大，但计算资源是有限的。如果没有访问限制，可能会遇到：

恶意攻击：竞争对手故意发送大量请求，让你的服务瘫痪
意外滥用：某个客户端bug导致无限循环调用
资源耗尽：大量并发请求吃光内存和显存
成本失控：云服务按使用量计费，无限制访问意味着无限制账单

我见过最夸张的情况是，一个没有限流的AI服务上线第一天就被刷了上百万次请求，服务器直接宕机，当月云账单暴涨10倍。

3.2 基于令牌桶的智能限流方案

令牌桶算法是业界最常用的限流方案，它的工作原理很简单：想象有一个桶，里面放着令牌。每次请求需要拿走一个令牌，桶会以固定速率补充令牌。如果桶空了，请求就要等待或被拒绝。

下面是我为Qwen3-VL-Reranker定制的限流中间件：

# api_rate_limiter.py
import time
from collections import defaultdict
from threading import Lock
from functools import wraps

class TokenBucketRateLimiter:
    """基于令牌桶算法的API限流器"""
    
    def __init__(self, capacity=10, fill_rate=1.0):
        """
        初始化令牌桶
        :param capacity: 桶容量（最大令牌数）
        :param fill_rate: 每秒补充的令牌数
        """
        self.capacity = capacity
        self.fill_rate = fill_rate
        self.tokens = capacity
        self.last_refill = time.time()
        self.lock = Lock()
        
        # 按客户端IP记录（实际生产环境可以用API Key）
        self.client_buckets = defaultdict(lambda: {
            'tokens': capacity,
            'last_refill': time.time()
        })
        self.client_lock = Lock()
    
    def _refill_tokens(self, bucket_info):
        """补充令牌"""
        now = time.time()
        time_passed = now - bucket_info['last_refill']
        new_tokens = time_passed * self.fill_rate
        
        if new_tokens > 0:
            bucket_info['tokens'] = min(
                self.capacity, 
                bucket_info['tokens'] + new_tokens
            )
            bucket_info['last_refill'] = now
    
    def acquire_token(self, client_ip=None, tokens_needed=1):
        """
        尝试获取令牌
        :param client_ip: 客户端IP（用于区分不同用户）
        :param tokens_needed: 需要的令牌数（默认为1）
        :return: (是否成功, 等待时间)
        """
        if client_ip:
            # 基于客户端的限流
            with self.client_lock:
                bucket_info = self.client_buckets[client_ip]
                self._refill_tokens(bucket_info)
                
                if bucket_info['tokens'] >= tokens_needed:
                    bucket_info['tokens'] -= tokens_needed
                    return True, 0
                else:
                    # 计算需要等待的时间
                    tokens_deficit = tokens_needed - bucket_info['tokens']
                    wait_time = tokens_deficit / self.fill_rate
                    return False, wait_time
        else:
            # 全局限流
            with self.lock:
                self._refill_tokens(self)
                
                if self.tokens >= tokens_needed:
                    self.tokens -= tokens_needed
                    return True, 0
                else:
                    tokens_deficit = tokens_needed - self.tokens
                    wait_time = tokens_deficit / self.fill_rate
                    return False, wait_time

# 集成到Gradio Web UI的装饰器
def rate_limit_webui(capacity=5, fill_rate=0.5):
    """
    Gradio Web UI的限流装饰器
    限制用户在前端的操作频率
    """
    limiter = TokenBucketRateLimiter(capacity, fill_rate)
    
    def decorator(func):
        @wraps(func)
        def wrapper(*args, **kwargs):
            # 从Gradio请求中获取IP（简化示例）
            # 实际项目中可以从request对象获取真实IP
            import gradio as gr
            client_ip = "webui_user"  # 这里简化处理
            
            success, wait_time = limiter.acquire_token(client_ip)
            
            if not success:
                # 返回限流提示
                return {
                    "error": "请求过于频繁",
                    "message": f"请等待 {wait_time:.1f} 秒后重试",
                    "retry_after": wait_time
                }
            
            return func(*args, **kwargs)
        return wrapper
    return decorator

# 集成到API服务的装饰器
def rate_limit_api(capacity=10, fill_rate=2.0, per_ip=True):
    """
    API接口的限流装饰器
    :param capacity: 令牌桶容量
    :param fill_rate: 填充速率
    :param per_ip: 是否按IP限流
    """
    limiter = TokenBucketRateLimiter(capacity, fill_rate)
    
    def decorator(func):
        @wraps(func)
        def wrapper(request, *args, **kwargs):
            # 获取客户端IP
            if per_ip:
                # 从请求头中获取真实IP（处理代理情况）
                x_forwarded_for = request.headers.get('X-Forwarded-For')
                if x_forwarded_for:
                    client_ip = x_forwarded_for.split(',')[0].strip()
                else:
                    client_ip = request.client.host
            else:
                client_ip = None
            
            # 根据请求复杂度决定需要的令牌数
            # 复杂请求（如图片/视频处理）消耗更多令牌
            tokens_needed = 1
            if hasattr(request, 'json'):
                data = request.json()
                if data and 'documents' in data:
                    # 文档数量越多，消耗令牌越多
                    doc_count = len(data['documents'])
                    tokens_needed = min(5, 1 + doc_count // 3)
            
            success, wait_time = limiter.acquire_token(client_ip, tokens_needed)
            
            if not success:
                # 返回429 Too Many Requests
                from fastapi import HTTPException
                raise HTTPException(
                    status_code=429,
                    detail={
                        "error": "请求过于频繁",
                        "message": f"请等待 {wait_time:.1f} 秒后重试",
                        "retry_after": wait_time
                    }
                )
            
            return func(request, *args, **kwargs)
        return wrapper
    return decorator

# 使用示例：保护你的API端点
from fastapi import FastAPI, Request
import uvicorn

app = FastAPI()

@app.post("/api/rerank")
@rate_limit_api(capacity=20, fill_rate=5.0, per_ip=True)
async def rerank_endpoint(request: Request):
    """受限流保护的重新排序API"""
    data = await request.json()
    
    # 这里是你的重排序逻辑
    # scores = model.process(data)
    
    return {"status": "success", "scores": [0.95, 0.87, 0.72]}

if __name__ == "__main__":
    uvicorn.run(app, host="0.0.0.0", port=8000)

3.3 多层次限流策略

在实际生产环境中，我建议采用多层次限流策略：

# multi_level_rate_limiter.py
import redis
import json
from datetime import datetime, timedelta

class MultiLevelRateLimiter:
    """多层次API限流系统"""
    
    def __init__(self, redis_client=None):
        """
        初始化限流器
        :param redis_client: Redis客户端（用于分布式限流）
        """
        self.redis = redis_client
        self.local_limiters = {}  # 本地限流器缓存
        
        # 定义不同层级的限流规则
        self.rate_rules = {
            "free_tier": {  # 免费用户
                "requests_per_minute": 10,
                "requests_per_hour": 100,
                "requests_per_day": 1000
            },
            "basic_tier": {  # 基础用户
                "requests_per_minute": 30,
                "requests_per_hour": 500,
                "requests_per_day": 5000
            },
            "premium_tier": {  # 高级用户
                "requests_per_minute": 100,
                "requests_per_hour": 2000,
                "requests_per_day": 20000
            }
        }
    
    def check_rate_limit(self, client_id, tier="free_tier", endpoint="/api/rerank"):
        """
        检查是否超过速率限制
        :return: (是否允许, 剩余配额, 重置时间)
        """
        if not self.redis:
            # 如果没有Redis，使用本地限流（单机部署）
            return self._check_local_limit(client_id, tier, endpoint)
        
        # 分布式限流（多实例部署）
        return self._check_redis_limit(client_id, tier, endpoint)
    
    def _check_local_limit(self, client_id, tier, endpoint):
        """本地内存限流"""
        import time
        from collections import deque
        
        # 为每个客户端+端点创建独立的限流器
        key = f"{client_id}:{endpoint}"
        
        if key not in self.local_limiters:
            self.local_limiters[key] = {
                "minute_window": deque(maxlen=self.rate_rules[tier]["requests_per_minute"]),
                "hour_window": deque(maxlen=self.rate_rules[tier]["requests_per_hour"]),
                "day_window": deque(maxlen=self.rate_rules[tier]["requests_per_day"])
            }
        
        limiter = self.local_limiters[key]
        now = time.time()
        
        # 清理过期记录
        minute_ago = now - 60
        hour_ago = now - 3600
        day_ago = now - 86400
        
        while limiter["minute_window"] and limiter["minute_window"][0] < minute_ago:
            limiter["minute_window"].popleft()
        
        while limiter["hour_window"] and limiter["hour_window"][0] < hour_ago:
            limiter["hour_window"].popleft()
        
        while limiter["day_window"] and limiter["day_window"][0] < day_ago:
            limiter["day_window"].popleft()
        
        # 检查是否超限
        rules = self.rate_rules[tier]
        
        if (len(limiter["minute_window"]) >= rules["requests_per_minute"] or
            len(limiter["hour_window"]) >= rules["requests_per_hour"] or
            len(limiter["day_window"]) >= rules["requests_per_day"]):
            
            # 计算最早可重试时间
            retry_after = 60  # 默认1分钟
            if len(limiter["minute_window"]) >= rules["requests_per_minute"]:
                retry_after = 60 - (now - limiter["minute_window"][0])
            elif len(limiter["hour_window"]) >= rules["requests_per_hour"]:
                retry_after = 3600 - (now - limiter["hour_window"][0])
            else:
                retry_after = 86400 - (now - limiter["day_window"][0])
            
            return False, {
                "minute_remaining": max(0, rules["requests_per_minute"] - len(limiter["minute_window"])),
                "hour_remaining": max(0, rules["requests_per_hour"] - len(limiter["hour_window"])),
                "day_remaining": max(0, rules["requests_per_day"] - len(limiter["day_window"])),
                "retry_after": max(1, int(retry_after))
            }
        
        # 记录本次请求
        limiter["minute_window"].append(now)
        limiter["hour_window"].append(now)
        limiter["day_window"].append(now)
        
        return True, {
            "minute_remaining": rules["requests_per_minute"] - len(limiter["minute_window"]),
            "hour_remaining": rules["requests_per_hour"] - len(limiter["hour_window"]),
            "day_remaining": rules["requests_per_day"] - len(limiter["day_window"]),
            "retry_after": 0
        }
    
    def _check_redis_limit(self, client_id, tier, endpoint):
        """Redis分布式限流"""
        import time
        
        rules = self.rate_rules[tier]
        now = int(time.time())
        
        # 为不同时间窗口创建Redis key
        minute_key = f"rate_limit:{client_id}:{endpoint}:minute:{now // 60}"
        hour_key = f"rate_limit:{client_id}:{endpoint}:hour:{now // 3600}"
        day_key = f"rate_limit:{client_id}:{endpoint}:day:{now // 86400}"
        
        # 使用Redis管道提高性能
        pipe = self.redis.pipeline()
        
        # 增加计数并设置过期时间
        pipe.incr(minute_key)
        pipe.expire(minute_key, 60)
        
        pipe.incr(hour_key)
        pipe.expire(hour_key, 3600)
        
        pipe.incr(day_key)
        pipe.expire(day_key, 86400)
        
        minute_count, hour_count, day_count = pipe.execute()
        
        # 检查是否超限
        if (minute_count > rules["requests_per_minute"] or
            hour_count > rules["requests_per_hour"] or
            day_count > rules["requests_per_day"]):
            
            # 获取剩余配额
            minute_remaining = max(0, rules["requests_per_minute"] - minute_count)
            hour_remaining = max(0, rules["requests_per_hour"] - hour_count)
            day_remaining = max(0, rules["requests_per_day"] - day_count)
            
            # 计算重置时间
            retry_after = 60  # 默认1分钟
            if minute_count > rules["requests_per_minute"]:
                retry_after = 60 - (now % 60)
            elif hour_count > rules["requests_per_hour"]:
                retry_after = 3600 - (now % 3600)
            else:
                retry_after = 86400 - (now % 86400)
            
            return False, {
                "minute_remaining": minute_remaining,
                "hour_remaining": hour_remaining,
                "day_remaining": day_remaining,
                "retry_after": retry_after
            }
        
        return True, {
            "minute_remaining": rules["requests_per_minute"] - minute_count,
            "hour_remaining": rules["requests_per_hour"] - hour_count,
            "day_remaining": rules["requests_per_day"] - day_count,
            "retry_after": 0
        }

# 使用示例
if __name__ == "__main__":
    # 初始化限流器
    limiter = MultiLevelRateLimiter()
    
    # 模拟API调用
    client_id = "user_123"
    
    for i in range(15):
        allowed, quota = limiter.check_rate_limit(client_id, "free_tier", "/api/rerank")
        
        if allowed:
            print(f"请求 {i+1}: 允许 ✅ 剩余配额 - 分钟: {quota['minute_remaining']}, 小时: {quota['hour_remaining']}")
        else:
            print(f"请求 {i+1}: 拒绝 ❌ 请等待 {quota['retry_after']} 秒")
            break

这个多层次限流系统提供了：

按用户层级限流：不同用户有不同的配额
多时间窗口：分钟、小时、天三个维度的限制
分布式支持：使用Redis支持多实例部署
详细配额信息：告诉用户还剩多少配额，什么时候重置

4. 完整的安全加固部署方案

4.1 安全加固部署脚本

把前面所有的安全措施整合到一个完整的部署脚本中：

#!/bin/bash
# secure_deploy_qwen_reranker.sh

set -e  # 遇到错误立即退出

echo "🚀 开始安全部署 Qwen3-VL-Reranker-8B 服务"
echo "=========================================="

# 配置参数
MODEL_DIR="/model"
CONFIG_DIR="/etc/qwen_reranker"
LOG_DIR="/var/log/qwen_reranker"
BACKUP_DIR="/backup"

# 创建必要的目录
echo "📁 创建目录结构..."
mkdir -p "$CONFIG_DIR" "$LOG_DIR" "$BACKUP_DIR"
mkdir -p "$MODEL_DIR/security"

# 步骤1：验证模型完整性
echo "🔍 步骤1：验证模型完整性..."
if [ -f "$MODEL_DIR/model_signature.json" ]; then
    echo "找到模型签名文件，开始验证..."
    
    # 使用之前创建的验证脚本
    if bash model_security_manager.sh verify; then
        echo "✅ 模型完整性验证通过"
    else
        echo "❌ 模型完整性验证失败！"
        echo "可能的原因："
        echo "  1. 模型文件被修改"
        echo "  2. 签名文件不匹配"
        echo "  3. 文件损坏"
        echo ""
        echo "建议操作："
        echo "  1. 重新下载模型文件"
        echo "  2. 重新生成签名：bash model_security_manager.sh generate"
        exit 1
    fi
else
    echo "⚠️  未找到模型签名文件，首次部署需要生成签名..."
    bash model_security_manager.sh generate
    echo "✅ 模型签名已生成"
fi

# 步骤2：配置环境变量
echo "⚙️  步骤2：配置环境变量..."
cat > "$CONFIG_DIR/.env" << EOF
# Qwen3-VL-Reranker 安全配置
MODEL_DIR=$MODEL_DIR
SECURITY_ENABLED=true
MODEL_SIGNATURE_FILE=$MODEL_DIR/model_signature.json

# API限流配置
RATE_LIMIT_ENABLED=true
RATE_LIMIT_PER_IP=true
RATE_LIMIT_CAPACITY=20
RATE_LIMIT_FILL_RATE=5.0

# 服务配置
HOST=0.0.0.0
PORT=7860
WORKERS=2
TIMEOUT=300

# 日志配置
LOG_LEVEL=INFO
LOG_FILE=$LOG_DIR/qwen_reranker.log
ACCESS_LOG=$LOG_DIR/access.log
ERROR_LOG=$LOG_DIR/error.log

# 监控配置
METRICS_ENABLED=true
HEALTH_CHECK_ENABLED=true
EOF

echo "✅ 环境变量配置完成"

# 步骤3：创建安全启动脚本
echo "🚦 步骤3：创建安全启动脚本..."
cat > "/usr/local/bin/start_qwen_secure.sh" << 'EOF'
#!/bin/bash

# 加载环境变量
source /etc/qwen_reranker/.env

# 检查安全配置
if [ "$SECURITY_ENABLED" = "true" ]; then
    echo "🔒 安全模式已启用"
    
    # 验证模型完整性
    if [ -f "$MODEL_SIGNATURE_FILE" ]; then
        python3 -c "
import hashlib, json, os, sys
model_dir = '$MODEL_DIR'
sig_file = '$MODEL_SIGNATURE_FILE'
try:
    with open(sig_file, 'r') as f:
        expected = json.load(f)
    all_ok = True
    for rel_path, expected_hash in expected.items():
        file_path = os.path.join(model_dir, rel_path)
        if not os.path.exists(file_path):
            print(f'❌ 文件缺失: {rel_path}')
            all_ok = False
            continue
        with open(file_path, 'rb') as f:
            current_hash = hashlib.sha256(f.read()).hexdigest()
        if current_hash != expected_hash:
            print(f'❌ 文件被篡改: {rel_path}')
            all_ok = False
    if not all_ok:
        print('❌ 模型完整性验证失败，服务终止！')
        sys.exit(1)
    print('✅ 模型完整性验证通过')
except Exception as e:
    print(f'❌ 签名验证错误: {e}')
    sys.exit(1)
"
    else
        echo "⚠️  警告：未找到签名文件，跳过完整性验证"
    fi
fi

# 设置资源限制（防止资源耗尽）
ulimit -n 65536  # 文件描述符限制
ulimit -u 65536  # 用户进程限制

# 启动服务（带限流中间件）
echo "🚀 启动 Qwen3-VL-Reranker 服务..."
cd "$MODEL_DIR"

# 使用gunicorn启动（生产环境推荐）
if command -v gunicorn &> /dev/null; then
    echo "使用 gunicorn 启动..."
    gunicorn \
        --bind "$HOST:$PORT" \
        --workers "$WORKERS" \
        --timeout "$TIMEOUT" \
        --access-logfile "$ACCESS_LOG" \
        --error-logfile "$ERROR_LOG" \
        --log-level "$LOG_LEVEL" \
        app:app
else
    echo "使用 python 直接启动..."
    python3 app.py \
        --host "$HOST" \
        --port "$PORT" \
        --share
fi
EOF

chmod +x /usr/local/bin/start_qwen_secure.sh
echo "✅ 安全启动脚本创建完成"

# 步骤4：创建系统服务
echo "🔄 步骤4：创建系统服务..."
cat > /etc/systemd/system/qwen-reranker.service << EOF
[Unit]
Description=Qwen3-VL-Reranker 8B Secure Service
After=network.target
Requires=network.target

[Service]
Type=simple
User=root
WorkingDirectory=$MODEL_DIR
EnvironmentFile=$CONFIG_DIR/.env
ExecStart=/usr/local/bin/start_qwen_secure.sh
Restart=on-failure
RestartSec=10
StandardOutput=append:$LOG_DIR/service.log
StandardError=append:$LOG_DIR/service_error.log

# 安全限制
LimitNOFILE=65536
LimitNPROC=65536
LimitMEMLOCK=infinity
LimitSTACK=8388608

# 资源限制
MemoryMax=32G
CPUQuota=200%

[Install]
WantedBy=multi-user.target
EOF

systemctl daemon-reload
echo "✅ 系统服务创建完成"

# 步骤5：配置防火墙规则
echo "🛡️  步骤5：配置防火墙规则..."
# 检查是否安装了ufw
if command -v ufw &> /dev/null; then
    echo "配置UFW防火墙..."
    ufw allow 7860/tcp comment "Qwen3-VL-Reranker Web UI"
    ufw allow 8000/tcp comment "Qwen3-VL-Reranker API"
    ufw --force enable
    echo "✅ 防火墙规则已配置"
else
    echo "⚠️  ufw未安装，跳过防火墙配置"
fi

# 步骤6：配置日志轮转
echo "📝 步骤6：配置日志轮转..."
cat > /etc/logrotate.d/qwen-reranker << EOF
$LOG_DIR/*.log {
    daily
    rotate 30
    compress
    delaycompress
    missingok
    notifempty
    create 644 root root
    sharedscripts
    postrotate
        systemctl reload qwen-reranker > /dev/null 2>&1 || true
    endscript
}
EOF

echo "✅ 日志轮转配置完成"

# 步骤7：创建健康检查脚本
echo "❤️  步骤7：创建健康检查脚本..."
cat > /usr/local/bin/check_qwen_health.sh << 'EOF'
#!/bin/bash

# 健康检查脚本
PORT=${1:-7860}
HOST=${2:-localhost}

# 检查服务是否运行
if ! curl -s -f "http://$HOST:$PORT/" > /dev/null; then
    echo "❌ 服务未响应"
    exit 1
fi

# 检查API端点
API_RESPONSE=$(curl -s "http://$HOST:$PORT/health")
if echo "$API_RESPONSE" | grep -q "healthy"; then
    echo "✅ 服务健康状态正常"
    exit 0
else
    echo "⚠️  服务运行中但健康检查失败"
    exit 2
fi
EOF

chmod +x /usr/local/bin/check_qwen_health.sh

# 步骤8：创建监控脚本
echo "📊 步骤8：创建监控脚本..."
cat > /usr/local/bin/monitor_qwen.sh << 'EOF'
#!/bin/bash

# 监控脚本
LOG_DIR="/var/log/qwen_reranker"
CONFIG_DIR="/etc/qwen_reranker"

echo "=== Qwen3-VL-Reranker 监控报告 ==="
echo "生成时间: $(date)"
echo ""

# 检查服务状态
echo "🔍 服务状态:"
if systemctl is-active --quiet qwen-reranker; then
    echo "✅ 服务运行正常"
    
    # 检查进程
    PID=$(systemctl show -p MainPID qwen-reranker | cut -d= -f2)
    if [ "$PID" -ne 0 ]; then
        echo "   进程ID: $PID"
        echo "   内存使用: $(ps -p $PID -o rss= | awk '{print $1/1024 " MB"}')"
        echo "   CPU使用: $(ps -p $PID -o %cpu=)%"
    fi
else
    echo "❌ 服务未运行"
fi

echo ""

# 检查资源使用
echo "📈 资源使用情况:"
echo "   内存总量: $(free -h | awk '/^Mem:/ {print $2}')"
echo "   已用内存: $(free -h | awk '/^Mem:/ {print $3}')"
echo "   可用内存: $(free -h | awk '/^Mem:/ {print $7}')"
echo "   CPU负载: $(uptime | awk -F'load average:' '{print $2}')"

echo ""

# 检查日志
echo "📝 最近错误日志:"
if [ -f "$LOG_DIR/error.log" ]; then
    tail -10 "$LOG_DIR/error.log" | grep -i "error\|exception\|fail" || echo "   最近无错误"
else
    echo "   错误日志文件不存在"
fi

echo ""

# 检查API访问
echo "🌐 API访问统计:"
if [ -f "$LOG_DIR/access.log" ]; then
    echo "   总请求数: $(wc -l < "$LOG_DIR/access.log")"
    echo "   最近1小时请求: $(grep "$(date -d '1 hour ago' '+%d/%b/%Y:%H')" "$LOG_DIR/access.log" | wc -l)"
    echo "   最近错误请求: $(grep -c '" 5[0-9][0-9] ' "$LOG_DIR/access.log")"
else
    echo "   访问日志文件不存在"
fi

echo ""
echo "=== 监控结束 ==="
EOF

chmod +x /usr/local/bin/monitor_qwen.sh

# 步骤9：创建备份脚本
echo "💾 步骤9：创建备份脚本..."
cat > /usr/local/bin/backup_qwen.sh << 'EOF'
#!/bin/bash

# 备份脚本
BACKUP_DIR="/backup"
TIMESTAMP=$(date +%Y%m%d_%H%M%S)
BACKUP_NAME="qwen_backup_$TIMESTAMP.tar.gz"

echo "开始备份 Qwen3-VL-Reranker..."
echo "备份时间: $(date)"
echo ""

# 备份模型文件（不包含大文件）
echo "备份模型配置文件..."
tar -czf "$BACKUP_DIR/$BACKUP_NAME" \
    --exclude="*.safetensors" \
    --exclude="*.bin" \
    --exclude="*.pth" \
    -C /model .

# 备份配置
echo "备份配置文件..."
tar -rf "$BACKUP_DIR/$BACKUP_NAME" \
    -C /etc/qwen_reranker .

# 备份签名文件
if [ -f /model/model_signature.json ]; then
    echo "备份签名文件..."
    tar -rf "$BACKUP_DIR/$BACKUP_NAME" \
        -C /model model_signature.json
fi

echo ""
echo "备份完成: $BACKUP_DIR/$BACKUP_NAME"
echo "备份大小: $(du -h "$BACKUP_DIR/$BACKUP_NAME" | cut -f1)"
echo ""

# 清理旧备份（保留最近7天）
find "$BACKUP_DIR" -name "qwen_backup_*.tar.gz" -mtime +7 -delete
echo "已清理7天前的旧备份"
EOF

chmod +x /usr/local/bin/backup_qwen.sh

# 完成部署
echo ""
echo "🎉 安全部署完成！"
echo "=========================================="
echo ""
echo "可用命令:"
echo "  systemctl start qwen-reranker      # 启动服务"
echo "  systemctl stop qwen-reranker       # 停止服务"
echo "  systemctl status qwen-reranker     # 查看状态"
echo "  journalctl -u qwen-reranker -f    # 查看日志"
echo ""
echo "  /usr/local/bin/check_qwen_health.sh  # 健康检查"
echo "  /usr/local/bin/monitor_qwen.sh       # 监控报告"
echo "  /usr/local/bin/backup_qwen.sh        # 备份数据"
echo ""
echo "服务地址:"
echo "  Web UI: http://localhost:7860"
echo "  API: http://localhost:8000/api/rerank"
echo ""
echo "安全特性已启用:"
echo "  ✅ 模型完整性验证"
echo "  ✅ API访问限流"
echo "  ✅ 系统服务管理"
echo "  ✅ 防火墙配置"
echo "  ✅ 日志轮转"
echo "  ✅ 健康检查"
echo "  ✅ 监控脚本"
echo "  ✅ 自动备份"
echo ""
echo "建议下一步:"
echo "  1. 启动服务: systemctl start qwen-reranker"
echo "  2. 测试健康检查: /usr/local/bin/check_qwen_health.sh"
echo "  3. 设置定时备份: crontab -e 添加 '0 2 * * * /usr/local/bin/backup_qwen.sh'"
echo ""

4.2 一键部署与验证

使用这个完整的部署脚本，你可以一键完成所有安全配置：

# 给脚本执行权限
chmod +x secure_deploy_qwen_reranker.sh

# 执行部署
sudo ./secure_deploy_qwen_reranker.sh

# 启动服务
sudo systemctl start qwen-reranker

# 查看服务状态
sudo systemctl status qwen-reranker

# 测试API访问（带限流测试）
for i in {1..15}; do
    echo "请求 $i:"
    curl -X POST http://localhost:8000/api/rerank \
        -H "Content-Type: application/json" \
        -d '{
            "query": {"text": "测试查询"},
            "documents": [
                {"text": "文档1"},
                {"text": "文档2"}
            ]
        }'
    echo ""
    sleep 0.1
done

5. 总结：构建企业级安全的AI服务

5.1 安全加固的核心价值

通过今天分享的这套安全加固方案，你的Qwen3-VL-Reranker-8B服务将具备企业级的安全防护能力：

模型完整性保障：确保模型文件不被篡改，从源头上保证服务的可靠性
API访问控制：防止恶意攻击和资源滥用，保障服务稳定性
全面监控告警：实时掌握服务状态，快速发现问题
自动化运维：一键部署、自动备份、健康检查，降低运维成本

5.2 实际部署建议

根据我的经验，在实际生产环境中部署时，建议：

分阶段实施：
- 第一阶段：先部署模型签名验证和基础限流
- 第二阶段：添加多层次限流和用户认证
- 第三阶段：完善监控告警和自动化运维
根据业务调整：
- 小型项目：使用本地限流即可
- 中型项目：建议添加Redis支持分布式限流
- 大型项目：需要考虑API网关、WAF等更全面的安全方案
定期安全审计：
- 每月检查一次模型签名
- 每周分析访问日志，发现异常模式
- 每天检查系统资源使用情况