近年来大规模语言模型(LLMs)的出现,显著推动了人工通用智能(AGI)的快速发展,引发了人工智能2.0的革命,随着DeepSeek风潮又一次助推,大规模语言模型对各领域带来的变革性影响与作用得到了集中释放,人们惊叹于其对各行业工作效率提升作用。

而在遥感空间与地理信息等专业领域,DeepSeek等语言大模型也带来了积极作用,例如专业知识库的构建,编程辅助,数据治理等。

然而,时空大数据与文本语言等数据始终存在专业差异度,如图形视觉识别,地理空间专业领域知识与功能,多源数据适配与融合,这让Deepseek对遥感空间与地理信息领域的作用存在局限性。

但是,Deepseek在训练模型的过程中,采用的底层架构创新、训练策略优化以及硬件利用率提升,实现了大模型训练的显著降本,同时保持高性能,对遥感大模型训练有着很好的启发性。

那么,如何像Deepseek一样低成本地训练遥感大模型?遥感平台与遥感大数据技术,又能在其中起到怎样的作用?

一、遥感“大”模型

变化检测、目标识别、地物分类...以往我们也介绍过不少遥感AI模型,首先需要了解,遥感大模型与这些遥感AI模型相比有何差别,才能理解这训练遥感大模型面临的真正挑战。

遥感大模型最主要的特征还是在于“”。

首先参数规模大。遥感大模型的参数可从千万、十亿级甚至到千亿级,且结构复杂,包含多个层次和模块,能够对海量遥感数据进行深层次的特征提取和表示;而一般的遥感AI模型通常针对特定任务进行设计,参数量较少。

其次是数据量大。数据集是遥感大模型训练的基础,这里的数据量大,并非单纯的数据存储量大,还要“多源”且“高质量”,包括高分辨率、多模态和多时相特征,使用的训练数据量达百万级,同时可利用大量未标注的遥感数据进行自监督学习,通过学习数据中的内在结构和特征,提高模型的通用性和泛化能力;而一般遥感AI模型涉及的数据量和多样化少,并对标注数据的依赖度较高,且在面对新任务时,可能需要重新收集和标注数据;

算力与存储需求庞大。训练数十亿参数的遥感大模型需海量计算资源,单一机构难以承担集中式训练成本。

而在应用场景方面,遥感大模型相较一般遥感模型,也更加通用与泛化,其通过学习大量数据和任务获得广泛知识,能够解决多种下游任务,并且可以更好地泛化到新的数据集中;而一般遥感AI多针对特定任务进行训练,如遥感图像分类、目标检测等,模型的泛化能力相对有限,难以直接应用于其他不同的任务。

由上可见,遥感大模型需要精准(精细与准确)的、具有时空完整性(内在结构)的海量多源时空数据集作为原材料,并基于时空统一性进行融合进行多层次分析,同时要让这些海量多源数据突破算力瓶颈,才能满足其巨量参数与复杂内部结构的训练,形成强大的通用与泛化能力。

遥感大模型构建方式 | 《中国测绘科学研究院燕琴院长:智能遥感大模型研究进展与发展方向》

那么,数简时空数据基础平台在其中,又可以帮助遥感数据科学家,实现怎样的瓶颈突破,以及降本增效呢?

二、时空基础平台产品线 遥感大模型全生命周期管理

针对遥感大模型的特征与训练模式,数简时空数字基础平台对时空数据的免切片自动化生产与实时共享特征、多源时空数据统一管理融合应用机制以及在线动态处理智能分析关键技术,能够为遥感大模型的训练提供数据汇聚下的高性能保障、完整高质量时空数据集;

同时基于遥感智算框架与基础平台的动态算力的配置、算法模型运行调试与管理,配合矢量在线编辑工具的在线标注与样本元数据管理功能,实现模型的分布式训练与测试调优,最终实现对遥感大模型训练流程的全生命周期管理与支撑。

在数据体系化安全保障和软硬件国产化方面,数简支持飞腾、龙芯、鲲鹏等国产硬件,以及中标麒麟、银河麒麟、深度Linux等国产操作系统,全线软件产品符合等保三级要求,支持国产遥感大模型的自主训练。

方案通过海量数据驱动与智能治理、计算资源精细化调度、模型全生命周期管理三大支柱,将分散的数据降本技术整合为标准化服务,使遥感数据科学家、专业代理(Agent)平台、行业垂直大模型业务专家和组织等,无需深入底层细节即可享受成本优化。

数简对遥感监测应用与迭代的平台全线产品模块支持

那么,接下来我们就从遥感大模型全生命周期重点流程,来解析数简时空基础平台怎样帮助遥感大模型训练突破关键瓶颈的同时,降低成本、提升效率;

以及数简简算数擎技术,如何让deepseek的动态注意力窗口降本模式,同样适用于遥感大模型训练

1. 数据准备与预处理:多模态数据自动化生产线与语义时空复合检索

在模型训练的数据准备与预处理阶段,数据科学家与人工智能团队最主要会面临多源海量数据汇聚、管理、预处理,以及初步标注带来的复杂性。

在这个阶段,需要整合如Landsat(30m)、Sentinel-2(10m)、高分系列(亚米级)等多分辨率、多来源的遥感数据源,并需要覆盖可见光、红外、雷达等多模态数据;还需要融合辅助数据,如DEM高程数据、气象数据、行政区划矢量数据,构建多维度特征;以及文本、视频等泛时空数据等。

为了更高效的数据集准备,这些多源、异构、多时相的多模态时空数据需要被整合并集中管理,并进行独立管道并行生产处理,直至达到大模型训练的高质量要求。

数简时空数字基础平台专为多源、海量时空数据的生产、管理、处理与分析应用而研发,通过对不同结构、不同技术特性的时空数据进行专业存储架构设计,针对数据容量、性能、访问频度、单次大小和访问顺序等多维度考量,为不同技术特征的时空数据提供效率最高的存储方式,大幅提升速度和读写总量。

数简时空大数据专业存储架构设计

遥感大模型训练中,数据预处理是一个关键步骤,它直接影响到模型的训练效果和最终性能。在上一篇文章中我们已经介绍过,数简时空数据平台对多源、海量时空数据的实时自动化生产(包括预处理)能力,以及产出数据成果质量与精细化的提升,且数据成果服务可进行实时共享浏览与计算,这就为遥感大模型的数据就绪化提供了多模态、多时序、高质量的高准备基础,同时避免切片带来的等待时间与人力成本,若想具体了解,可以点击 此处 查看。

在实际项目中,数简平台作为时空中台,不仅支持PB级卫星无人机等多源遥感数据的快速处理发布共享,以及高程、矢量行政区划等地理信息空间数据,同时支持GFS、HFS、WRF、XZ多种类气象数据,多普勒雷达数据等,并可扩大至视频、文本等泛时空数据,平台对这些多源异构数据进行一个平台的集中管理,为数十类数据建立自动化标准生产“流水线”,支持并行处理与计算

在数据查询调用与适配方面,数简丰富多维的元数据结合时空索引,支持语义与空间交互复合检索机制,对海量遥感数据基于传感器类型、采集时间、数据类型等多维筛选机制,结合精准坐标毫秒级检索所需数据。这也意味着,在大模型训练过程中,可融合deepseek等语言类大模型,进行适配数据的自动化智能检索与调用。

同时,配合平台矢量在线编辑工具,可对地物变化进行整图标注、AI预标注修正,同时也可管理样本数据。

数简矢量在线编辑平台的“魔棒”功能,可对水体进行快速提取和标注

综上,通过平台对多模态时空的专业存储优化与性能提升、预处理与并行自动化生产管线、多维语义检索等机制,对遥感大模型训练的数据集准备起到大幅度的降本与提效作用。

2. 模型选择与构建:保持原始数据完整性与多源时空融合应用

在这个阶段主要是选择模型架构,并进一步构建基础模型。我们以无监督多模态遥感大模型为例,来说明数简平台对基础模型的支持作用。

无监督多模态遥感大模型,是一种利用无监督学习方法,对多模态遥感数据进行训练的深度学习模型。它不依赖于人工标注的标签信息,而是通过自监督或无监督的方式,从海量的多模态遥感数据中自动学习数据的内在结构和特征表示。多模态遥感数据则便是我们上面提到这些多源、多时相、多分辨率的遥感数据,以及与之时空关联的文本、音频、视频等其他模态的数据。

多模态遥感大模型 | 《中国测绘科学研究院燕琴院长:智能遥感大模型研究进展与发展方向》

该模型的核心目标是挖掘多模态数据之间的关联和互补性,提取具有通用性和代表性的特征表示,从而提高模型在各种遥感任务中的泛化能力和适应性,包括但不限于图像配准、变化检测、土地覆盖分类、目标识别等。

这个模型特征一大重点要求,就是对海量时空特征的学习:不仅关注图像的空间特征,还考虑了时间维度上的变化,以更好地捕捉和量化遥感数据中的时空信息。

这就对“时空”的完整性(一整张完整的遥感数据)与多样性(多源异构的泛时空数据的融合应用)提出了高要求。

关于数据完整性,还是回到我们上期所说的传统切片技术上来。在业界的训练过程中,已碰到过切片技术带来的实际问题:由于一整张遥感影像通常非常大,没有办法同时放到GPU里面做训练,所以采取整个遥感影像切成一个一个小块的切片技术,以适配GPU的显存。这样做有一个明显的问题,对每一个小块训练来说都会丢掉上下文信息。比如一条跨切片的公路,模型可能无法理解其整体走向。

在上一期我们已经解释过数简的免切片技术,这种模式可为无监督预训练模式保留数据的完整性和原始性,这对于模型训练较为重要,通过处理完整的地物特征和复杂的地物关系,提升理解力,这也让模型训练团队无需耗费时间精力寻找解决方案,并可灵活改进训练方案本身,这点我们在下文中会详细叙述。

接下来就是多样性的问题。在上一段落中,我们介绍了平台对多源异构数据的统一管理、生产处理与查询调用能力,那么在这个阶段,数据基础对于模型基础选择的赋能在于,让其具有更多的可能性。

因为在训练过程中,模型需要运用平台对这些多模态、多时相、多分辨率卫星、无人机等遥感数据与矢量、气象、文本、声音、视频等数据进行一致性融合,以充分获取多维度的丰富数据知识,例如在智慧水利的防洪调度中,不仅需要遥感图像的水域面积分析,同时也需要基于重点区域的气象、雷达数据进行降水等天气预测。

数简基础平台多模态、多时相、多分辨率时空数据的网盘化集中管理与松耦合服务组合方式,可快捷检索调取云端数据库中的原始数据,并按需个性化动态处理渲染、精准镶嵌融合、叠加多类型数据,支持在分钟级完成,在高时效要求下敏捷构建智能感知的数字空间,便于多模态模型基于完整、丰富多元、具有时空一致性的“时空一张图”进行充分训练。

数简对于多源、多分辨率、多模态数据的实时在线融合应用

在实际项目中,数简基于高精度(5cm)无人机影像实时处理动态发布,与高中低多分辨率卫星遥感影像在线融合、精准镶嵌,构建高精准的全分辨率多维呈现“一张图”,并支持接入AI模型进行变化监测,并支持这些专业地理空间时空数据与文本、视频等泛时空数据自融合,分钟级发布。

3. 模型训练与调优:并行计算引擎 分布式训练优化 快速拓展升级集群

现在来到真正模型训练与调试“实战”,这个阶段运行的前提是对海量多源数据进行大规模并行计算的性能与效率,主要挑战在于,遥感大模型的数据运行巨大体量,需要云端协调算力进行分布式训练。

数简采用扩展性强、灵活度高的数据组织与存储方式,基于免切片模式构建海量时空数据并行计算引擎,将训练任务分散到多个计算节点上进行并行计算,且无需传输切片数据,显著减少通信量,提高训练效率,降低硬件成本;不仅支持时空大数据的分布式计算与大模型训练,更能动态扩容:将遥感数据量提升到PB级,气象数据并行计算量提升到百亿级。

在这个阶段过程中,数简遥感智算框架作为主要代表,通过与时空基础平台的其它组件结合,可为大模型训练团队提供算法模组部署和管理、集群任务和资源调度、输入输出数据管理和发布的能力。

数简遥感智算框架

遥感智算框架支持基于海量卫星无人机影像的亿级参数大模型运行和调优,以及定制化算法模组在集群内的一键热部署,快速拓展和升级集群,具有完善的算法模组定制标准和协议,能够实时查看算法模组的运行态势,记录算法模组的运行错误,算法模组容器可以支持GPU硬件运行环境,支持Python、Lua、C/C++,PyTorch、GDAL等软件运行环境,可方便拓展。

以数简参与的无人机高速巡检实际项目为例,在基于无人机影像对高速路面异常检测场景中,通过无人机数据绘制的样本,训练千万级参数大模型。平台基于对大体量数据的支持,结合框架对算力等资源的动态调度,让数据平滑对接人工智能模型与算法,高性能运行,通过有效提升数据识别的多样性与准确性,提高对路面多类型异常的识别精度,支持快速精准定位信息。

5. 双重降本:简算数擎关键技术 适应多种注意力机制

传统遥感切片技术将带来的冗余时间与成本,那么基于遥感大模型训练过程的庞大计算量,我们也可以预见在其全生命周期过程中,带来的更为巨量的冗余时间与算力成本,最为显著的便是相邻碎片的重叠区域被重复计算,带来的显存爆炸;以及分布式训练时,各GPU之间频繁传输切片数据,效率低下。

简算数擎核心技术在这个整体过程中,不仅可以通过免切片达到数据集整体降本的效果,支持高弹性扩容的分布式训练;

同时,该核心技术对宏观综合信息的简算数擎对宏观信息优化、微观精准定位,也适合采用适应遥感图像分析的可变大小窗口注意力方法(VSA)、多头潜在注意力机制(MLA)等注意力训练模式,实现双重降本。

可变大小窗口注意力方法(VSA)是一种创新的注意力机制,用于改进视觉Transformer模型的性能。其通过改变以往固定窗口大小,引入可变窗口大小和位置,使模型能够根据数据动态调整窗口配置,从而捕捉更丰富的上下文信息和建立长期依赖关系,在遥感图像分析中表现出色。

图:网络

多头潜在注意力(Multi-Head Latent Attention, MLA),是Deepseek针对Transformer模型在长序列任务中的显存与计算瓶颈,提出的一种引入潜在空间和低秩压缩,降低计算复杂度和显存占用的方法,适用于自然语言处理和计算机视觉任务。

该类注意力机制都在于对海量数据宏观信息的压缩化简,以及对需求信息的智能检索与精准定位,这与数简在“简算数擎”核心技术中提出的对底层系统整体优化与综合化简、精准定位有着很强的配适性。

数简已在系统底层针对海量多源时空数据的大数据与图形空间的双重属性针对其快速显示、管理、分析应用的带来的系统压力,做了大量而持续的系统性优化与局部创新,实现了百GB级数据入库免切片即可看、管、用的效能提升,同时可对数据进行实时在线的动态处理与计算分析

这使得海量遥感空间数据素材可适应大模型训练需求而灵活转换,并在训练过程中动态调整注意力窗口位置或大小,以适应不同尺度的遥感目标,既保持了全局信息,又减少了不必要的计算;并可对遥感图像细节进行快捷的反演分析计算,量化信息提取,增强了对下游任务的通用泛化性。

三、行业应用

1、农业大模型训练

农业行业使用遥感技术的主要需求包括作物监测、病虫害检测、产量预测、土壤湿度分析等。这些任务需要处理大范围的农田图像,具有高分辨率和大尺寸的特点;同时,农业遥感应用具有自身难点,如地物复杂、季节性变化等,需处理多光谱数据、多时相数据(如播种、抽穗、收割期),模型需动态适应。

免切片发布处理:数简基础平台支持对高分辨率与大尺寸的卫星、无人机遥感图像实时在线全分辨率浏览,保留农田全局信息,让模型更易理解复杂地物,如,玉米田的连续垄沟在整图中更易识别,切割后可能断裂;

多波段、多时相实时处理:支持直接输入多波段遥感影像、实时在线动态波段映射,遥感智算框架结合注意力机制可跨波段整合信息,并在集群中分配计算资源,整体降低显存,提升模型对作物的判断能力;支持多时相完整数据,可对不同季节的影像(如播种期与成熟期)建立注意力关联,识别光谱特征,捕捉生长规律。

多模态集中管理:支持多模态数据集中管理应用模式,如融合卫星影像、气象数据与土壤传感器数据,可构建“多模态注意力”模式,提升预测精度。

2、水利大模型训练

水利行业的业务需求包括洪水监测、水域变化检测、水库管理、干旱预警等,挑战在于需要短时间内统筹采集、获取、管理、处理、生产与融合TB甚至PB级多源遥感数据,包括雷达影像、光学影像等;而在流域防洪的应急状态下,需要做高精度的时空分析,如多时相数据用于监测水位变化,支持“四预”应用。

数简平台提供涵盖多源卫星遥感、无人机影像以及气象、矢量等多源时空数据的“统筹规划、多源汇聚、智能处理、管理分发、综合应用、服务共享”一站式平台,适应水利模型训练中所需的多模态、多时相、高精度数据的高效需求。

在流域防洪应急场景下,能够为模型实时自动化生产提供就绪的最新影像数据,支持模型对高分辨率时空数据的学习与理解,实现对洪水趋势的准确预测,支持防洪决策;

矢量在线编辑工具,其“魔棒”工具支持快速预标注水体边界,与人工修正复杂区域(如淹没区与道路交错处)结合,提升训练效率。

平台对于多模态数据的统一管理、自动化生产、并行计算能力,支持模型融合卫星数据、地面传感器(水位计)与气象预报数据,构建全域水利数字孪生的多模态感知

多普勒雷达图像+天地图底图

数简遥感数据实时在线动态处理核心技术,与自研产品线遥感智算框架等模组化结合,动态满足业务多样化需求,平台算法库内置包括水体、建筑物、林地、坝体、植被、行洪障碍物图斑、淹没范围、水域岸线遥感监测等遥感解译算法,支持传统模型赋能大模型,联合决策,验证调优。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐