数据标注优秀案例集之十六 | 大模型驱动的数据自主标注智能服务

为解决政府数据加工能力不足所导致大量数据价值被低估、难以深入挖掘和复用的问题，北京数据向量科技有限公司聚焦政府产业经济领域，依托垂类智能体和检索增强生成RAG库，构建特定领域的自动标注体系，该智能体整体数据标注效率提升10-15%，准确率提升至95%以上，形成企业、空间、经济等高质量数据集。

小天才学习机打游戏

1090人浏览 · 2025-06-19 20:04:40

小天才学习机打游戏 · 2025-06-19 20:04:40 发布

一、案例简介

图 1 整体框架

二、举措与成效

一是小算法赋能的数据预处理。通过数据平滑技术、均值填充、插值法、生成对抗网络（GAN）、Z-score、局部异常因子等算法模型，完成初步数据清洗。以企业数据为例，核心指标的缺失值补齐率达到92%，冲突识别率为100%，异常值处理比例约为85%。

二是大模型支撑的数据关系构建。将清洗后的数据与报告、政策、公文等文档相结合，构建基于RAG（检索增强生成）的实体识别与链接能力；提取企业、空间等实体对象，并将其与知识图谱进行关联，挖掘数据之间隐藏的复杂关系。关系提取成功应用比例约为65%，经过人工干预和知识训练后，成功率可提升至80%。

三是构建数据自主标注智能体。智能体实现标注流程的自动化。结合RAG库的实体关系，自动标注各类实体、关系和属性，使数据处理效率提高5倍。以企业数据为例，智能体可自动完成原有41个步骤的标注流程。

四是自动化的数据质量核验。标注后采用交叉验证等方式，对标注结果进行多轮审核反馈，核验覆盖率达到100%。

三、特色亮点

一是新技术降低人力和时间投入。将检索增强生成（RAG）技术应用于政府各类数据实体、关系和属性的识别。借助智能体，原本需要30人数月才能完成的任务，现仅需约5人辅助，即可在2个月内完成。

图 2 数据自主标注智能服务创新模式

二是新能力落地实践效果显著。在多个产业经济部门成功应用该技术。区域级数据自主标注体系均在2个月内建成，显著缩短上线周期。

三是新手段提高标注准确性。智能体自动标注结果更加准确、一致，减少人工标注可能出现的错误和歧义。标注准确率从传统的83%提升至97%以上。

四是新方式生成高质量数据集。企业数据集融合1000多张表，以某区为例，成功标注生成近40万家企业，涉及数据近2亿条；空间数据集解决多来源地址描述不一致的问题，以某区为例，准确标注7个来源空间数据；经济数据集整合近10个部门的产业经济相关资源，构建了高质量的经济数据集。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述