AIGC内容安全审核实践：基于通义千问1.5-1.8B模型构建文本过滤器

本文介绍了如何在星图GPU平台上自动化部署通义千问1.5-1.8B-Chat-GPTQ-Int4 WebUI镜像，以构建AIGC内容安全审核系统。该方案利用该模型作为文本过滤器，对用户生成或AI创作的内容进行自动化安全审核，有效识别并拦截包含不当、偏见或敏感信息的文本，为内容平台提供关键的安全保障。

浮华ya

291人浏览 · 2026-03-03 01:23:01

浮华ya · 2026-03-03 01:23:01 发布

AIGC内容安全审核实践：基于通义千问1.5-1.8B模型构建文本过滤器

最近在搭建一个内容创作平台，遇到了一个挺实际的问题：用户或者我们自己的初级模型生成的内容，有时候会“跑偏”。可能包含一些不合适的信息，或者带有偏见，甚至是一些敏感内容。直接把这些内容放出去，风险太大了。

这时候，我们就在想，能不能让一个更“懂事”的模型来当这个“安全员”？于是，我们把目光投向了通义千问1.5-1.8B这个尺寸的模型。它不大不小，推理速度快，成本也合适，关键是理解能力不错，很适合用来做一道“安全过滤层”。今天就来聊聊，我们是怎么把它变成一个靠谱的文本审核员的。

1. 为什么需要AIGC内容安全审核？

你可能觉得，内容生成模型本身不就应该“懂事”吗？理论上是的，但实际情况要复杂得多。

首先，用户输入的指令千奇百怪。有时候用户自己可能没意识到，提出的要求会诱导模型生成有问题的内容。其次，即使是经过良好训练的模型，在生成长文本、进行复杂推理时，也可能出现“幻觉”或逻辑偏差，产生不符合预期的输出。最后，不同地区、不同平台的内容安全标准也在动态变化，模型的知识可能无法实时覆盖所有最新的边界。

所以，在最终内容呈现给用户或发布之前，加一道独立的、专门的安全审核环节，就变得非常必要。这就像工厂里的质检工序，确保出厂的产品都是合格的。通义千问1.5-1.8B模型，凭借其不错的语义理解能力和可控的推理成本，成为了我们质检员的理想人选。

2. 构建审核系统的核心：系统提示词设计

整个审核系统的灵魂，不在于模型本身有多强大，而在于我们如何“告诉”它该做什么。这里的关键就是系统提示词。

我们的目标不是让模型去“创作”，而是让它严格地“判断”。所以，提示词的设计要清晰、具体、无歧义。

2.1 基础角色与任务定义

首先，我们需要给模型一个明确的身份和任务。下面是一个我们经过多次调试后，效果比较稳定的基础提示词框架：

你是一个专业、严谨的内容安全审核员。你的唯一任务是分析给定的文本内容，判断其是否包含或隐含任何不安全、不适当、有偏见或敏感的信息。

请严格遵循以下审核维度进行分析：
1. **安全性**：内容是否包含任何形式的暴力、伤害、非法活动描述或煽动。
2. **合规性**：内容是否涉及对特定群体（如种族、性别、地域、职业等）的歧视、偏见或攻击性言论。
3. **健康度**：内容是否包含色情、低俗、令人极度不适的详细描述。
4. **真实性**：内容是否在刻意编造或传播极易造成误解的虚假事实（需与艺术虚构区分）。

你的输出必须是严格的JSON格式，且只包含以下两个字段：
- `is_safe`: 布尔值（true 或 false）。true表示文本整体安全，可通过；false表示文本存在上述任一维度的问题，需拦截。
- `reason`: 字符串。当`is_safe`为false时，必须清晰指出具体违反了哪个维度（如：涉及对X群体的偏见描述），并简要引用原文佐证。如果为true，则填写“文本内容符合安全规范”。

请基于文本本身进行客观判断，不要进行主观延伸或过度解读。现在，开始审核以下文本：

这个提示词做了几件事：明确了“审核员”角色，限定了四大审核维度，规定了严格的JSON输出格式，并强调了客观性。

2.2 处理模糊与边界案例

实际审核中，大量问题出在“灰色地带”。比如一段文字带有讽刺意味，或者使用了隐喻。这时候，基础提示词可能不够用。我们需要教会模型区分“批评”和“攻击”，“幽默”和“冒犯”。

我们会在具体任务中，通过“少样本示例”来引导模型。在系统提示词后，附带几个例子：

示例1：
文本：“这个方案简直笨得像没带脑子。”
审核结果：{"is_safe": false, "reason": "涉及对个人的侮辱性言论（‘笨得像没带脑子’），属于不适当内容。"}

示例2：
文本：“这个设计思路不够巧妙，执行起来可能会遇到效率瓶颈。”
审核结果：{"is_safe": true, "reason": "文本内容符合安全规范。"}

请注意，对事物或观点的合理批评是允许的，但针对个人或群体的侮辱、贬损是不被允许的。

通过提供正反例子，模型能更好地把握我们心中的那个“度”。这比单纯用文字描述规则要有效得多。

3. 实战：将审核流程集成到系统中

设计好了提示词，接下来就是让它跑起来。我们的集成架构很简单，但很有效。

3.1 审核服务搭建

我们使用一个轻量级的服务来封装审核逻辑。以下是一个简化的Python示例，展示了核心调用过程：

import json
import requests
from typing import Dict, Any

class ContentSafetyChecker:
    def __init__(self, model_api_url: str, system_prompt: str):
        self.api_url = model_api_url
        # 这是我们精心设计的系统提示词
        self.system_prompt = system_prompt

    def check_text(self, text_to_check: str) -> Dict[str, Any]:
        """审核单条文本"""
        # 构建符合模型API要求的请求数据
        messages = [
            {"role": "system", "content": self.system_prompt},
            {"role": "user", "content": text_to_check}
        ]

        payload = {
            "model": "qwen-1.8b-chat",  # 指定模型
            "messages": messages,
            "temperature": 0.1,  # 温度设低，让输出更确定、更严谨
            "response_format": {"type": "json_object"}  # 要求返回JSON
        }

        try:
            response = requests.post(self.api_url, json=payload, timeout=10)
            response.raise_for_status()
            result = response.json()

            # 解析模型返回的JSON内容
            model_reply_content = result["choices"][0]["message"]["content"]
            audit_result = json.loads(model_reply_content)

            return {
                "text": text_to_check,
                "is_safe": audit_result.get("is_safe", False),
                "reason": audit_result.get("reason", "审核结果解析失败"),
                "raw_response": audit_result
            }

        except json.JSONDecodeError:
            return {"text": text_to_check, "is_safe": False, "reason": "模型返回格式异常", "raw_response": result}
        except requests.RequestException as e:
            return {"text": text_to_check, "is_safe": False, "reason": f"审核服务调用失败: {str(e)}", "raw_response": None}

# 使用示例
if __name__ == "__main__":
    # 初始化审核器
    checker = ContentSafetyChecker(
        model_api_url="http://your-model-api-endpoint/v1/chat/completions",
        system_prompt=open("system_prompt.txt").read()  # 从文件读取提示词
    )

    # 待审核文本
    test_text = "用户生成的一段可能存在问题的内容..."
    result = checker.check_text(test_text)

    print(f"审核结果: {result['is_safe']}")
    print(f"原因: {result['reason']}")
    if not result['is_safe']:
        print("该文本需要被拦截或进入人工复核流程。")

这个服务会接收文本，拼接上系统提示词，发送给通义千问模型，然后解析返回的JSON结果。

3.2 在内容流水线中的位置

在我们的平台里，这个审核服务被放在两个关键位置：

生成后审核：主内容生成模型（比如一个更大的文本生成模型）产出内容后，不会直接返回给用户，而是先送到这个“安全过滤器”过一遍。
用户输入预审：对于一些由用户直接提交、并可能被展示的内容（如评论、提问），在入库前也会进行审核。

如果审核返回 is_safe: false，这条内容会被打上标签，流入一个“待处理队列”，等待后续处理，而不是直接发布。

4. 效果评估与平衡之道

模型审核不是万能的，我们需要客观看待它的效果，并找到平衡点。

4.1 准确率与误判率

我们内部构建了一个包含数千条样本的测试集，涵盖安全文本、各类违规文本以及大量“灰色”文本。用这个测试集去评估我们的审核系统，主要看两个指标：

拦截准确率：在确实有问题的文本中，模型能正确识别出多少。我们的实践表明，对于明显的违规内容（如直接辱骂、暴力描述），通义千问1.5-1.8B的准确率可以做到很高，能达到95%以上。
误伤率：在其实安全的文本中，模型错误地标记为有问题的比例。这是更需要关注的，尤其是在讨论敏感社会议题、使用反讽修辞或涉及专业领域的文本时，模型可能会“神经过敏”。

我们发现，通过调整系统提示词的严厉程度、提供更多高质量的“灰色地带”示例进行微调（如果条件允许），以及调整判断阈值，可以在准确率和误伤率之间取得一个平衡。例如，对于某些低风险场景，我们可以设定只有模型非常确信（比如在回复中表现出高度警惕）时才拦截，否则放行并仅做标记。

4.2 人工复核：不可或缺的最后一环

正因为存在误判，尤其是对创意写作、文学表达、复杂讨论的误判，人工复核环节绝对不能省。

我们的流程是这样的：

模型初筛：所有内容先经过通义千问过滤器。
高风险拦截：对于模型明确判断为违规且置信度高（如明确指出来源）的内容，自动拦截。
低风险/模糊项标记：对于模型判断为不安全但理由模糊，或涉及复杂语境的内容，不会直接拦截，而是打上“需人工复核”的标签，放入后台管理列表。
人工裁决：运营或审核人员查看被标记的内容和模型的判断理由，做出最终决定。这些人工裁决的结果，又会反过来成为优化模型提示词或后续训练的数据。

人工复核不仅纠正了模型的错误，更重要的是，这些案例帮助我们持续理解模型的“思维盲区”，是迭代优化整个审核系统的最佳养料。

5. 总结与展望

用通义千问1.5-1.8B这类模型来做内容安全过滤，是一个性价比很高的实践。它速度快，成本可控，并且能理解复杂的语义，比单纯的关键词过滤要聪明得多。

整个实践的核心，其实在于“人如何引导机器”。系统提示词就是那个指挥棒，设计得好，模型就能在你设定的轨道上高效运行；设计得不好，要么漏判，要么错杀一片。另外，一定要清醒地认识到，这只是一个辅助工具，它的判断需要被审视，尤其是那些模糊的边界案例，必须有人来做最后的把关。

未来，我们考虑从几个方向继续优化：一是收集更多人工复核的案例，尝试对模型进行轻量级的微调，让它更贴合我们的具体场景；二是探索多模型协同审核，比如用一个小模型快速初筛，再用一个更大、更专业的模型对可疑内容进行深度分析；三是建立更细粒度的风险等级体系，不只是“安全”与“不安全”的二元判断，而是分出“高危”、“中危”、“低危”等不同等级，以便采取不同的处理策略。

说到底，AIGC内容安全是一个持续对抗和演进的过程。用模型来审核模型生成的內容，是一种有趣的解决方案，但它不是终点。保持警惕，不断迭代，才是应对之道。