我用DeepSeek拆了一本无人机法规手册,踩了15个坑

大概在半年前,我在千机科技教培部做无人机培训的时候碰到了一个头疼的问题:CAAC的法规条文太专业,学员看完一脸懵。

我试过自己整理教材,但法规又长又枯燥。后来看到DeepSeek(深度求索)的大模型效果不错,中文理解能力强,还免费,就想着让AI帮我拆一下。

这篇记录一下整个过程,以及我踩过的15个坑。如果你也想用LLM处理专业领域知识,应该能帮到你。

一、为什么做这件事

我在千机科技待了快一年半,做的是技术培训+项目执行。千机是国内无人机编队表演的头部企业,拿过4次吉尼斯世界纪录,我在那边累计做的科普培训有3600多人次。

培训对象很杂,有青少年、家长、行业新人。每次讲到"视距内飞行""超视距执照""空域申请"这些概念,学员都记不住。

原因很简单:CAAC的法规是面向行业管理者写的,语言偏行政化,条款之间相互引用。一个外行人想看懂"我能不能飞",可能要翻三四个文件才能找到答案。

我当时就想,能不能用LLM把法规拆成结构化的知识点,让学员可以直接检索、快速理解?

二、我的做法

整个过程我分成了四步。

第一步,收集法规原文。主要是CAAC发布的《民用无人驾驶航空器运行安全管理规则》(CCAR-92部)及其配套文件,包括AC-92-01、AC-61-FS等。这些都是公开文件,可以从民航局官网下载。

第二步,设计Prompt让DeepSeek拆解。这是踩坑最多的环节。

我最开始的Prompt非常简陋:

请把以下无人机法规条款拆解成知识点。

效果很差,输出格式不固定、知识点粒度不一致、有些关键信息被遗漏。

后来迭代了大概十几次,Prompt变成了四层结构:角色设定+任务描述+输出格式+示例。

一个实际效果不错的Prompt长这样:

你是一位无人机培训专家,熟悉CAAC所有无人机相关法规。请将以下法规条款拆解为结构化的知识点,每个知识点包含:条款编号、适用对象(如微型/轻型/小型无人机操作者)、核心要求、违规后果。输出格式为Markdown表格。注意:区分不同重量类别的管理要求,不要混淆。

核心经验就是:给LLM的上下文越具体,输出质量越稳定。

第三步,人工审核。LLM拆解完的是初稿,每一条都要对照原始法规核对。这一步我花的时间大概是生成环节的3倍,但绝对不能省。

第四步,多轮迭代。把常出现的错误类型总结成反馈提示,加到下一轮Prompt里,逐步提升输出质量。最终Prompt模板迭代了8个版本。

三、成果

四轮处理下来,最终产出了:

200+个结构化知识点 8大分类:法规概述、飞行分类、执照体系、空域管理、安全规范、多轴飞行器、飞行原理、气象与任务规划 覆盖了CAAC主流法规的核心条款

放几个实际拆出来的知识点示例:

条款 适用对象 核心要求 违规后果
实名登记 250g以上无人机 必须在UOM平台完成实名登记 禁止飞行,可处警告或罚款
视距内飞行 操控员 保持无人机在目视范围内,距离不超过500m 超出视为违规,事故承担全责
超视距飞行 持超视距执照者 需通过CAAC四类超视距考试 无证操作属违法飞行

整个项目已经开源在GitHub上了,包括拆解后的知识点库,有兴趣可以直接用:

github.com/s9rgbpmy4n-cyber/UAV-Knowledge-Base

四、15个坑

这部分是我想重点分享的。我把实际遇到的错误分成三大类。

(一)事实性错误

坑1:混淆不同重量类别的管理要求

微型(小于250g)、轻型(250g-25kg)、小型(25kg-150kg)的管理差异很大。DeepSeek有时会把微型的豁免条款套到轻型上,比如告诉你"轻型无人机不用实名登记"——这是错的。

坑2:编造不存在的条款编号

LLM会生成看起来很规范的条款编号,比如"AC-92-01 第12.3.4条",但实际上该文件根本没有这个条款。这是最隐蔽的错误,因为看起来像真的。

坑3:执照等级对应关系搞混

视距内驾驶员、超视距机长、教员等级的权限范围不同。LLM会混淆"能飞多远"和"能带多大重量"的对应关系。

坑4:空域分类搞混

管制空域和非管制空域的管理逻辑完全不同。LLM有时会把"适飞空域"等同于"无需报备",忽略了地方性补充要求。

坑5:高度限制给统一数字

不同地区、不同空域的高度限制差异很大。LLM倾向于给一个通用答案,比如"全国都限高120米",这是不准确的。

(二)理解性错误

坑6:对"视距内"理解过于字面化

视距内的定义不只是肉眼能看见,还包括FPV飞行的特殊规定。LLM容易给出过于简化的解释。

坑7:引用已废止的旧版规定

CAAC的无人机法规在2024年有较大更新。LLM的知识截止日期导致它会引用旧版内容。

坑8:"备案"和"审批"分不清

有些情况只需提前备案,有些需要审批。LLM经常把这两个概念混为一谈。

坑9:忽略地方性补充规定

各省市对无人机有自己的管理细则。比如深圳要求本地飞手在"深i企"平台登记,北京有严格的六环内飞行限制。LLM的输出往往只讲"国家规定"。

坑10:禁飞区范围描述不准

机场净空区、军事管理区、人口密集区的禁飞范围有具体的数字定义。LLM倾向于给模糊描述,比如"机场附近不能飞",而不是精确到"跑道两端各20公里、两侧各10公里"。

(三)表达性错误

坑11:术语太专业,不适合科普

LLM默认的输出风格偏正式,比如使用"适航审定""运行人"这类术语。培训场景下需要换成更口语化的表达。

坑12:输出格式不稳定

同样的Prompt跑多次,输出格式可能不一样——有时候用表格,有时候用列表。这对后续的结构化处理很头疼。

坑13:复杂条款拆解过度简化

有些条款包含多个条件分支,LLM为了简洁会丢掉部分条件。比如"在人口密集区上空飞行需满足以下条件"被简化成"人口密集区不能飞"。

坑14:缺乏条款间关联性

法规是一个体系,条款之间互相引用。LLM拆解出来的知识点是孤立的,缺少相关条款的交叉引用。

坑15:对例外情况说明不足

很多条款都有例外条款,LLM倾向于省略这部分,导致输出看起来过于绝对。

五、总结

这个项目做完,有几个收获想分享一下。

第一,Prompt工程确实值得投入。但核心不是写得多花哨,而是任务拆解够不够细、上下文给得够不够清楚。我的最终Prompt大约是初始版本的5倍长,但输出质量提升远不止5倍。

第二,人工审核在任何专业领域都不可替代。LLM是一个强大的草稿生成器,但专业内容的准确性必须有人把控。

第三,对LLM的能力边界有了更直观的认知。它擅长模式识别和文本组织,但不擅长精确的事实引用、时效性判断和多条件逻辑推理。

这个项目也让我对Agent在垂直领域的应用产生了更大的兴趣。如果把法规知识库接入一个Agent框架,让学员可以通过对话查询、让系统自动关联相关条款,是不是可以做得更深入?这也是我目前在探索的方向。

给想入门LLM应用的同学一个建议:不要急着学各种高级框架,先从一个小而具体的实际问题入手。用LLM解决一个你熟悉领域的小问题,踩几个坑,比看十篇论文都有用。

关于我

周富凯,千机科技教培部技术执行,CAAC四类超视距机长,累计培训3600+人次。目前在探索AI Agent在垂直领域的应用,对Agent数据策略方向持开放态度,欢迎交流。

项目地址:github.com/s9rgbpmy4n-cyber/UAV-Knowledge-Base

觉得有帮助的话欢迎Star,有问题也可以评论区讨论。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐