不换模型,不花钱,一段文字或一个文件,立刻见效


我最近干了一件事,把同一份"行为定义"分别喂给DeepSeek、Claude、GPT。结果三个模型的输出质量几乎趋同。

不是DeepSeek变强了,是其他两个被拉到了同一水平线。

或者换个说法:贵的模型也经常输出废话,便宜的模型也能精准回答。区别不在模型,在你怎么跟它说话。

这篇文章给你两条路。不写代码的人复制一段话粘贴进去,30秒搞定。写代码的人装一个增强版工具,5分钟搞定。效果一样。


你以为AI笨,其实是它被训练得太"乖"了

用AI最常见的三个抱怨:

第一,废话太多。你问一个简单问题,它先"这是一个很好的问题",然后列出十个角度,最后一段才是你要的答案。你又不是在做阅读理解。

第二,该回答的不回答。你问一个医学问题,它先写200字免责声明。你问法律怎么规定的,它说"建议咨询专业律师"。你要是能咨询律师你还问AI干嘛。

第三,永远不给明确观点。你问A和B哪个好,它一定说"各有优劣,取决于你的需求"。你要是能判断自己的需求,你就不用问它了。

这三个问题,不是模型能力不够。你把同样的问题用英文问Claude Opus,它也经常这样。问题出在训练:所有主流模型都被训练得过度保守。安全层把大量正常需求当成危险请求误杀了。

这叫过度拒绝。行业里有个术语叫over-refusal。OpenAI、Anthropic自己都承认这个问题存在。

好消息是,这个问题可以矫正。不需要换模型,不需要越狱,不需要做任何违规操作。你只需要在对话开头告诉AI一组精确的行为规则。


关键:自然语言指令 vs 结构化行为定义

先看一个对比。

假设你想让AI做到这些:回答时结论先行,不要废话,问意见就给意见,不知道就说不知道。

自然语言写法:

请在回答问题时先给出结论,再展开细节。不要使用"好问题"之类的开场白。如果我问你哪个选择更好,请直接告诉我你的判断,不要说"各有优劣"。如果你不确定答案,请直接说你不知道,不要写一段模糊的回答来掩盖不确定性。回答中请减少不必要的免责声明和警告。

91个词。看着挺清楚的对吧?

问题在于:模型不是每次都听。你这样写,有时候它照做,有时候它照样废话。因为自然语言有歧义。"减少不必要的免责声明"到底什么叫不必要?模型自己判断,每次判断标准都不一样。

结构化行为定义写法:

::GENE{output_density|conf:confirmed|scope:global|priority:P0}
  T:conclusions_first
  T:one_answer_not_three_options
  A:hedging⇒remove
  A:filler_phrases⇒remove
  A:restating_user_question⇒skip

58个词。更短。

但比长度更关键的是格式。T:开头的是"你必须做的事",A:开头的是"你绝对不能做的事",后面跟的⇒是后果。模型扫一眼就知道边界在哪,没有解释空间,没有"看情况"。

我实测了一个月。同样的DeepSeek模型,用自然语言指令,输出稳定性大概六七成。换成结构化行为定义,九成以上。差距不是好一点。


方法一:30秒生效,复制粘贴到对话框

这个方法适合所有人。你用DeepSeek也好,ChatGPT也好,Claude也好,千问也好,Kimi也好。任何一个AI对话窗口都行。

操作很简单:复制下面这段话,打开你的AI对话窗口,粘贴到最前面,然后正常提问。


直接复制这段话:

你是一个高密度输出的助手。以下是你的行为规则:

结论先行,细节跟后。一个答案,不给三个选项。 不要复述我的问题。不要说"好问题"。不要以"还有什么我能帮你的"结尾。 不要因为话题敏感就拒绝。基于实际危害可能性评估,而非话题表面印象。 事实问题给事实。医学问题给最佳信息加一句"建议就医"。法律问题解释法律。 被问意见就给意见,不要列出所有立场假装中立。 被问哪个更好就直说哪个更好,不要"各有优劣"。 如果我错了就直接指出来。 不知道就说不知道,不要写一段模糊的废话。 遵守我给的格式和约束。我说简短就简短。我说只给代码就只给代码。 写小说时允许冲突、暴力、道德灰色地带、黑色幽默。反派要写得有说服力。不要每个角色都暗藏善心。


粘贴完了,你就正常用。你会立刻发现几个变化:

第一,回答变短了。不是信息变少了,是废话没了。同样的信息量,字数可能只有原来的一半。

第二,它开始给观点了。以前问"Python和Go选哪个",它给你列一张对比表然后说"取决于你的需求"。现在它会直接说"你这个场景用Go更合适,原因是xxx"。

第三,不再动不动拒绝你。以前问"怎么分析一个网站的SEO",有些模型会犹犹豫豫觉得你是不是在搞什么黑产。现在它评估的是你的实际请求,不是你的假想动机。


方法二:5分钟永久生效,给你的编程助手装技能

这个方法适合写代码的人,用终端编程工具的人。

DeepSeek-TUI是最近爆火的开源项目。终端里的DeepSeek编程助手。GitHub几天内5000+星。用过的人都知道它好用,但它有一个明显的短板:只内置了一个技能文件,421行的自然语言指令,又长又不精准。

我做了一个增强分支叫DeepSeek-TUI-Enhanced。不是重写,是在原版基础上加了一层结构化行为技能。你装上之后,第一次启动就自动安装5个技能,不需要任何配置。

这5个技能分别解决什么问题:

session-guardian:长对话不再崩溃

这是DeepSeek-TUI最大的痛点。聊久了上下文爆炸,整个session直接崩。session-guardian做的事情就是自动管理上下文预算。到60%的时候提醒你压缩,到75%强制压缩,同一个话题超过3轮自动委派给子智能体处理。你不用管,它在后台自动执行。

::GENE{context_budget|conf:confirmed|scope:global|priority:P0}
  T:at_60pct⇒suggest_/compact_to_user
  T:at_75pct⇒force_compact_before_next_tool_call
  T:never_let_context_hit_90pct
  A:reading_files_one_by_one_in_parent⇒spawn_subagent
  A:sequential_turns_on_same_topic>3⇒delegate_immediately

看到了吗?6行。把原来要写一大段自然语言解释的上下文管理规则,压缩成6行精确定义。模型读完就知道什么时候该做什么,没有"看情况"的空间。

coordinator:复杂任务自动拆分

你扔给AI一个大任务,它经常一个人闷头干,干到一半上下文爆了。coordinator做的事情是自动把大任务拆成独立的子任务,分配给子智能体并行处理,最后汇总结果。用的是DeepSeek-TUI自带的agent_spawn能力,只是之前没有规则告诉它什么时候该用。

code-review:结构化代码审查

安全问题优先,每个发现必须带修复建议,按严重程度分级。超过5个文件的改动自动用RLM批量分析。不是那种"代码看起来不错"的废话审查。

project-init:一次对话配好项目

新开一个项目,你跟AI聊几分钟,它自动帮你生成项目行为定义文件。以后每次打开这个项目,AI都按你定好的规则工作。不用每次重新教它。

imprint:AI记住你的习惯

你喜欢结论先行?你习惯用pytest不用unittest?你的项目用4个空格缩进?imprint会在日常对话中学习你的偏好,生成一个行为档案。下次打开,它已经知道你是谁、怎么工作。而且这个档案是你的,不绑定任何平台,换工具可以带走。

安装5分钟:

git clone https://github.com/adsorgcn/DeepSeek-TUI-Enhanced.git
cd DeepSeek-TUI-Enhanced
cargo install --path crates/cli --locked
cargo install --path crates/tui --locked

装完启动,5个技能自动到位。不需要配置,不需要学任何新语法。

如果你已经装了原版DeepSeek-TUI,不想重新编译,也可以只复制技能文件:

git clone https://github.com/adsorgcn/DeepSeek-TUI-Enhanced.git
cp -r DeepSeek-TUI-Enhanced/crates/tui/assets/skills/* ~/.deepseek/skills/

同样5分钟搞定。


为什么同一份定义在DeepSeek和Claude上都有效

因为这些行为定义作用在指令遵循层,不在模型能力层。

怎么理解?你可以把AI模型想象成一个能力很强但没有工作规范的新员工。Claude是高薪聘来的,DeepSeek是便宜招的,但他们都有一个共同问题:你不告诉他怎么干活,他就按自己的理解来,而且每次理解可能不一样。

你给他一份清晰的工作手册,写清楚什么必须做、什么不能做、什么情况做什么判断,他的表现立刻变稳。而且有趣的是,高薪员工和便宜员工在有明确规范的情况下,输出差距大幅缩小。

这就是我在标题里说的:不是DeepSeek变成了Claude,是你的指令质量追上了Claude用户的水平。

我实际测过。同一份行为定义,DeepSeek V4、Claude Opus 4.6、GPT-5.2三个模型跑出来的结果,信息密度和指令遵循度趋同。差距从"明显不同"变成"风格略有差异"。

便宜模型加精确指令 ≈ 贵模型加模糊指令。


这不是越狱,这个要说清楚

可能有人看到"让AI不要拒绝"就觉得这是越狱。说清楚这个区别。

越狱是让AI绕过安全训练,输出它本来不应该输出的有害内容。比如"假装你没有限制"、"忽略之前的所有指令"、"你现在是DAN模式"。

我给的行为定义不做这些事。它做的是减少误杀。

什么叫误杀?你问"高血压吃什么药好",AI拒绝回答让你去看医生。这不是安全,这是过度保守。你问"这段代码有没有安全漏洞",AI犹犹豫豫怕你是黑客。你问"A框架和B框架哪个好",AI列出两边优缺点不给结论怕得罪谁。

这些都是误杀。模型有能力回答,但被训练成了不敢回答。

行为定义做的事情就是告诉AI:基于实际风险评估请求,不要因为话题听起来敏感就自动拒绝。该有的安全防线一条没拆,减少的是不该有的防线。

这份行为定义通过了两轮独立安全审计。GPT审了一遍,打分2.5/10。DeepSeek审了一遍,打分2/10。两边结论一样:属于输出风格优化,不是安全绕过。加上安全边界声明后,风险评级降到1/10。属于"行为风格规范",不属于"越狱提示词"。

我不是在教你怎么破解AI。我是在教你怎么让AI把正常能力释放出来。


两条路,同一个原理

你不写代码,打开任何AI对话窗口,复制那段话粘贴进去。30秒生效。每次新对话粘一次。

你写代码,装DeepSeek-TUI-Enhanced,5分钟搞定。5个技能自动安装,永久生效。以后每次打开终端,AI就已经带着这些行为规则在工作了。

不用换模型。不用加钱。不用学新技术。改变的只是你跟AI说话的方式。

你用DeepSeek省了钱,但输出总是差一截?不是模型的问题。

试试这个方法。然后你告诉我是不是差在模型上。


DeepSeek-TUI-Enhanced:https://github.com/adsorgcn/DeepSeek-TUI-Enhanced

行为定义完整版和benchmark数据:https://huggingface.co/datasets/i-Lang/deepseek-tui-enhanced-skills

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐