【Claude深度研究】智能多旋翼飞行机器人研究综述（2020–2025）

DARPA OFFSET挑战赛（2023）展示了通过VR头显+语音指挥130架无人机完成城市任务的能力（90%任务完成率），标志着人-集群交互从概念走向系统验证。主要研究力量集中在苏黎世大学RPG组（Scaramuzza）、浙江大学FAST Lab（高飞）、MIT ACL（How）、HKU MARS Lab（张）、东京大学（Zhao/Inaba）和GWU（Lee），它们的开源生态（EGO-Plan

十年一梦实验室

708人浏览 · 2026-04-01 07:30:22

十年一梦实验室 · 2026-04-01 07:30:22 发布

多旋翼无人机正经历从"能飞"到"能思考、能接触、能协作"的范式转变。 2023年ETH Zurich的Swift系统在Nature发表，以深度强化学习击败人类世界冠军无人机飞手，标志着AI驱动的敏捷飞行步入新纪元；同年浙江大学FAST Lab的微型集群登上Science Robotics封面，展示了十架仅依靠机载算力的无人机在野外密林中自主编队飞行的能力。与此同时，全驱动平台、神经辐射场建图、大语言模型任务规划等技术正在重塑这一领域的边界。本文从控制与规划、机体设计、感知与SLAM、自主性与人机交互四个维度，对2020–2025年间的核心进展进行系统性综述。

一、控制理论与规划算法：从几何优雅到数据驱动

SE(3)几何控制的持续演进

Lee、Leok、McClamroch于2010年CDC/2013年TAC提出的SE(3)几何跟踪控制框架，至今仍是多旋翼控制研究的数学基石。该方法直接在特殊欧氏群SE(3)上建立无坐标刚体动力学模型，利用旋转矩阵定义姿态误差函数 Ψ(R, Rₐ) = ½ tr(I − Rₐᵀ R)，通过李代数so(3)的hat/vee映射设计控制律，从根本上避免了欧拉角奇异性和四元数双覆盖歧义，实现几乎全局渐近稳定的跟踪控制。

2020–2025年间，这一框架沿三个方向持续拓展。自适应与鲁棒融合方面，Bisheban与Lee（IEEE TCST 2020）将神经网络嵌入几何控制器以补偿风场扰动；Liang、Chen和Yao（IEEE Trans. Ind. Electron. 2021）实现了含气动阻尼的完全惯性补偿几何自适应鲁棒控制。与现代优化方法结合方面，2024年的一项工作利用Koopman算子将SE(3)非线性动力学升维线性化，首次在SE(3)流形上实现实时线性MPC（arXiv 2409.12374）。工程部署方面，GWU的fdcl-gwu/uav_geometric_control项目提供了C++/Python/MATLAB/ROS全栈实现，ZJU FAST Lab的Fast-Racing则基于SE(3)规划构建了开源竞速基线。

该方向的核心瓶颈在于：经典几何控制本质为PD型，缺乏系统性约束处理能力；SO(3)的拓扑结构决定了不可能存在全局连续反馈稳定器（仅能实现almost global稳定性）；高速飞行中复杂气动效应的建模仍需借助数据驱动方法。

非线性MPC与采样优化的实时化突破

非线性模型预测控制（NMPC）在2022–2025年间完成了从理论到机载实时部署的跨越，成为敏捷飞行控制的主流方案之一。ETH RPG组的系列工作最具代表性：Torrente、Kaufmann、Scaramuzza等（RA-L 2021）使用高斯过程学习气动效应并嵌入MPC，将高速跟踪误差降低70%；Hanover、Foehn、Scaramuzza等（RA-L 2022）提出的L1-NMPC将L1自适应控制级联于NMPC前端，在70 km/h飞行速度下实现90%以上的跟踪误差降低，且在Jetson TX2上达到100 Hz求解频率。Sun、Romero、Scaramuzza等（RA-L 2022）的对比研究证实NMPC在72 km/h下追踪动态不可行轨迹的性能优于微分平坦控制器。

求解器方面，acados（GitHub，BSD-2许可）已成为事实标准，基于CasADi建模与HPIPM二次规划求解器，支持Jetson系列嵌入式平台。Salzmann等（RA-L 2023）进一步将物理引导的深度学习模型嵌入NMPC，拓展了数据驱动MPC的可能性。

MPPI（Model Predictive Path Integral）作为免梯度采样优化方法，在2024年首次完成真实飞行验证。 Minařík、Pěnička、Saska等（IROS 2024）在Jetson Orin Nano（1024核GPU）上以100 Hz运行MPPI，实现44 km/h、约20 m/s²加速度的敏捷飞行。后续工作包括Feedback-MPPI引入Riccati反馈增益减少重优化需求，以及Zhai与Scaramuzza（arXiv 2025）提出的PA-MPPI将感知驱动探索嵌入MPPI框架。GMPPI（arXiv 2025）则将SE(3)几何控制器的rollout与MPPI采样结合，实现了几何方法在采样优化中的自然融合。

强化学习与Sim-to-Real：Swift系统的里程碑

Kaufmann、Bauersfeld、Loquercio、Müller、Koltun与Scaramuzza发表于Nature 2023的Swift系统是该领域的标志性成果。Swift使用PPO训练的RL策略输出集体推力与体角速率指令（CTBR），由PX4低层PID执行，在仿真中积累数十亿步经验后通过系统辨识缩小sim-to-real差距，最终在真实竞速中以25局15胜击败人类世界冠军FPV飞手并创下最快圈速。

此前，Loquercio等（Science Robotics 2021）的"Learning High-Speed Flight in the Wild"通过特权学习（learning-by-cheating）框架实现了5–10 m/s的野外高速飞行零样本迁移。Foehn、Kaufmann等（Science Robotics 2022）推出的Agilicious开源软硬件平台为敏捷飞行研究提供了标准化基础设施。

2024–2025年的进展集中在降低sim-to-real差距和提升在线适应能力。清华大学的SimpleFlight（arXiv 2024）识别出五个关键因素（速度+旋转矩阵输入、动作差分平滑奖励、系统辨识+选择性域随机化），将零样本迁移误差降低50%以上。UZH RPG组的Ren等（arXiv 2025）提出自适应训练调度（ATS）加在线残差学习，仅100秒真实飞行即从保守飞行适应到7.3 m/s敏捷模式。Geles等（RSS 2024，杰出演示论文奖）更进一步，实现了无需显式状态估计、直接从像素到控制指令的端到端敏捷飞行，速度达40 km/h。

当前瓶颈包括：RL策略缺乏形式化安全证明、户外无外部定位系统时状态估计精度不足、固定策略在分布外场景泛化能力有限。

轨迹优化：从Minimum Snap到MINCO

多旋翼轨迹优化利用微分平坦性——四旋翼的所有状态和输入均可由平坦输出（位置+偏航角）及其有限阶导数表示——将问题转化为低维优化。Mellinger与Kumar（ICRA 2011）的minimum snap方法至今仍是基础性工作。

2020年以来，浙江大学FAST Lab主导了一系列突破。Zhou等（RA-L 2021）提出的EGO-Planner采用ESDF-free策略，直接比较碰撞轨迹与无碰撞引导路径生成梯度，省去了欧氏符号距离场的构建（节约约70%计算量），规划时间仅约1 ms。Wang、Zhou、Gao等（TRO 2022）提出的MINCO（最小控制量）轨迹表示统一了平滑性、碰撞约束和动力学可行性的优化。MIT ACL组的Tordesillas与How（TRO 2022）提出FASTER规划器，同时优化已知与未知空间的轨迹并提供安全后备保证。Foehn、Romero与Scaramuzza（Science Robotics 2021）通过互补进度约束（CPC）实现了真正意义上的时间最优航点飞行。

开源生态方面，ZJU-FAST-Lab/ego-planner、HKUST-Aerial-Robotics/Fast-Planner、ZJU-FAST-Lab/GCOPTER构成了完整的规划工具链。

多机集群：十架无人机穿越密林

Zhou、Wen、Wang、Gao等（Science Robotics 2022，封面文章）实现了10架微型无人机在野外密林中仅依靠机载传感与计算的自主集群飞行，是该领域最具影响力的系统集成成果之一。其技术基础包括EGO-Swarm的分布式异步规划范式——每架无人机基于局部信息独立规划，通过广播轨迹实现隐式协调。Tordesillas与How（TRO 2022）的MADER则解决了多机+动态障碍环境下的分布式轨迹规划问题。

可扩展性是核心挑战：计算和通信开销随无人机数量指数增长，异构集群协调缺乏统一框架，10架规模虽已突破性但远未达到真正大规模应用需求。

鲁棒控制：L1自适应与扰动观测器

L1自适应控制以其清晰的架构（状态预测器+自适应律+低通滤波器）和极低计算开销（约10 μs）成为抗扰动控制的热门选择。L1-NMPC（Hanover等，RA-L 2022）展示了其与NMPC的高效级联。扩展状态观测器（ESO）/ADRC框架将内外扰动统一为"总扰动"进行估计补偿（MDPI Actuators 2024综述系统比较了ESO、DOB、SMO等方法）。Shao等（IEEE/ASME T-Mech 2022）解决了输入饱和约束下的自适应滑模控制问题。CTU Prague的MRS UAV System提供了含SE(3)控制器和多种鲁棒方案的模块化开源框架。

二、机体结构与驱动设计：突破欠驱动的物理限制

全驱动多旋翼实现真正的6-DOF控制

传统四旋翼是经典的欠驱动系统——仅能产生沿机体z轴的推力，无法在保持任意姿态的同时独立控制位置。全驱动（fully-actuated）多旋翼通过倾斜旋翼配置使控制分配矩阵B ∈ ℝ⁶ˣⁿ达到行满秩（rank=6），从而在SE(3)中实现力-力矩解耦的独立6-DOF控制。

ETH Zurich的Voliro系列是该方向的标杆。Kamel、Verling、Siegwart等（IEEE RA Magazine 2018）的原型采用六旋翼+可倾斜转子实现了全域全向飞行；Bodie、Siegwart、Nieto等（IJRR 2020）的VoliroX改进了效率并实现了6D几何控制。其商业衍生产品Voliro T（2022年发布）已在风电叶片超声波检测中投入商用。

近年代表性工作包括：Aboudorra、Franchi等（J. Intell. Robot. Syst. 2024）的OmniMorph，一个8旋翼可形变全向UAV，通过单伺服电机同步倾斜实现欠驱动/全驱动/全向三种模式切换；Ruggia等（Robotics & Autonomous Systems 2025）的MOMAV采用6臂八面体构型+滑环设计+SQP优化控制分配，高对称性使飞行效率不受姿态影响。Hamandi与Franchi（IJRR 2021）建立了基于输入分配矩阵的多旋翼设计分类学，为该方向提供了系统的数学框架。

全驱动设计的主要代价是悬停效率损失约15–30%（固定倾斜构型中的寄生内力对消）以及机械复杂性增加。紧凑化设计（如FLOAT Drone，arXiv 2025）正在尝试解决体积过大的问题。

变形态无人机：一机多构型

Falanga、Mintchev、Floreano等（RA-L 2019）的可折叠四旋翼首次展示了四个独立旋转臂可在X/H/O/T多种构型间切换、无需对称即可稳定飞行的能力。东京大学Zhao、Okada、Inaba的DRAGON（RA-L 2018 / IJRR 2023）代表了另一极端——多连杆结构通过双旋翼万向节模块实现每连杆2-DOF力矢量化，可像蛇一样在空中变形并执行全身抓取。

Ryll、Bicego、Franchi等（IEEE/ASME T-Mech 2022）提出的FAST-Hex用仅1个额外电机实现6个螺旋桨的同步倾斜，在欠驱动与全驱动之间平滑切换——若任务中不到37%的时间需要全驱动能力，FAST-Hex的续航优于固定倾斜方案。这种"按需全驱动"理念代表了效率与灵活性的最优折中。

动力学建模采用Euler-Lagrange方法将变形参数纳入广义坐标，推导时变惯量矩阵。控制策略从在线LQR增益自适应（Foldable Drone）、模型参考自适应控制MRAC到NMPC不等。变形速度与稳定性的矛盾是核心开放问题。

驱动系统效率与能源瓶颈

多旋翼续航瓶颈的根源在于锂聚合物电池约150–260 Wh/kg的能量密度上限。螺旋桨效率优化使用叶素动量理论（BEMT），Gao等（2024）通过NSGA-II对桨叶弦长与扭转角分布进行双目标优化（最大推力+最大悬停效率），CFD验证偏差小于6%。电调（ESC）方面，FOC磁场定向控制算法替代传统方波驱动可提升电机效率5–10%。

能源技术的突破性进展来自氢燃料电池。Intelligent Energy的IE-SOAR系列（800W–2.4kW）已实现约1 kg/kW的功率密度；Cellen H2-6实现了150分钟飞行时间（锂电3倍以上）；JOUAV CW-25H更达到330分钟航程。氢燃料电池无人机市场预测从2024年的4100万美元增长至2031年的21亿美元（CAGR 76%）。固态电池（约400–500 Wh/kg）和锂硫电池（理论2600 Wh/kg）也在积极发展中。

三、感知与SLAM：从特征点到神经辐射场

VIO与LiDAR SLAM的工程成熟

视觉惯性里程计方面，HKUST Qin等的VINS-Fusion（TRO 2018基础上扩展）仍是UAV部署的标准参考，已在Jetson TX2/Xavier/Orin上验证，社区维护活跃（GitHub 3000+ stars）。Delaware大学Geneva等的OpenVINS（ICRA 2020）基于MSCKF-EKF滤波，以更低计算量和更好的模块化设计成为研究平台首选，已被ModalAI Starling 2商业平台采用。基于学习的VIO正在崛起——Princeton的DPVO（NeurIPS 2023）通过稀疏patch匹配+可微分束调整在EuRoC上超越DROID-SLAM，仅需1/3显存和3倍速度；其扩展版DPV-SLAM（ECCV 2024）增加了回环检测能力。

激光SLAM领域，HKU MARS Lab的FAST-LIO2（Xu等，TRO 2022）是里程碑——采用直接原始点云配准+紧耦合迭代EKF+增量式ikd-Tree，扫描更新仅2 ms，甚至可在Raspberry Pi 4B上实时运行。在280 mm四旋翼+Livox Avia平台上，角速度1200°/s的极端翻转也能生成无漂移3D地图。后续工作Point-LIO（HKU，Advanced Intelligent Systems 2023）实现逐点融合（9 μs/点），Faster-LIO（Bai等，RA-L 2022）用iVox哈希体素结构替代ikd-Tree进一步提速。最新的FAST-LIVO2（Zheng等，TRO 2024）实现了LiDAR-视觉-惯性三传感器紧耦合，是首个用于真实自主UAV飞行的LIVO系统，在25个公开数据集序列上全面超越R3LIVE、LVI-SAM和FAST-LIO2。

轻量化硬件方面，Livox Mid-360非重复扫描固态LiDAR（重量<265 g）已成为小型UAV的标准选择，FAST-LIO2/FAST-LIVO原生支持。

事件相机开启微秒级感知

事件相机每个像素独立异步检测亮度变化，具备微秒级时间分辨率、高动态范围（>120 dB）和极低功耗的优势，天然适合高速飞行场景。UZH RPG组（Scaramuzza团队）主导了大量开创性工作：Falanga与Scaramuzza（Science Robotics 2020）利用事件流时间信息在仅3.5 ms端到端延迟下实现了相对速度10 m/s的动态避障。RPG组的工作（CVPR 2023最佳论文提名）推进了数据驱动的事件特征跟踪。

更前沿的是完全神经形态系统——Paredes-Vallés等（Science Robotics 2024）将事件相机与脉冲神经网络部署在单一神经形态芯片（Intel Loihi类）上，端到端实现视觉与控制，展示了极致能效的可能性。事件相机当前面临高事件率（约1M events/s）实时处理、标准化仿真平台缺乏、以及分辨率仍低于传统相机等挑战。

NeRF与3D Gaussian Splatting重构建图范式

3D Gaussian Splatting（3DGS）（Kerbl等，SIGGRAPH 2023）以其实时渲染能力（100+ FPS，远超原始NeRF的约1 FPS）正迅速取代NeRF成为UAV建图的首选神经表征。针对UAV场景的专门工作包括：DroneSplat（Tang等，CVPR 2025）利用DUSt3R几何先验初始化并消除动态干扰物（如行驶车辆），实现野外无人机图像的鲁棒重建；C3DGS（Qian等，IEEE JSTARS 2025）通过计算高斯贡献分数剪枝冗余原语，解决大规模UAV图像表面重建的内存问题。

更令人兴奋的是3DGS与机器人规划的交叉。SAFER-Splat（arXiv 2024）将控制障碍函数与在线高斯建图结合实现安全导航；ActiveGS（RA-L 2025）和ActiveGAMER（CVPR 2025）利用3DGS进行主动场景重建优化视角选择。UZH RPG组的Zou与Scaramuzza（TRO 2026）融合事件流和运动模糊图像帧优化NeRF，专门解决高速飞行中的图像退化问题。

核心瓶颈在于：大规模场景内存需求巨大、嵌入式平台上的实时训练/优化仍不可行（需高端GPU）、在线增量建图能力不足。

实时避障的工程全链路

体素地图表征从ETH的Voxblox（Oleynikova等，IROS 2017）演进到NVIDIA的nvblox（arXiv 2023），后者利用GPU加速实现约7倍的ESDF计算加速，2 cm分辨率下仍比Voxblox 10 cm分辨率更快。ZJU FAST Lab的EGO-Planner通过ESDF-free策略直接绕过了距离场构建。深度感知方面，Intel RealSense D435i、OAK-D和ZED系列是主流硬件选择，学习方法（Depth Anything V2，Yang等2024）为单目深度估计提供了零样本能力。完整的感知→建图→规划pipeline通常需要Jetson Orin NX/AGX级别算力（6核ARM + 384核Volta GPU，8–16 GB）。

四、人机交互与任务自主性：从遥控到认知协作

LLM/VLM驱动的高层任务规划

大语言模型用于无人机控制处于早期但快速发展的探索阶段。Microsoft的Vemprala、Bonatti、Kapoor等（MSR Technical Report 2023）的"ChatGPT for Robotics"首次系统性地研究了通过API提示工程让ChatGPT生成无人机导航和巡检代码。**代码生成范式（Code-as-Policy）**是主流方法——LLM接收任务描述+预定义API库（takeoff、move_to、detect_object等），输出可执行控制代码。

后续工作沿两个方向深化。降低幻觉与延迟方面，TypeFly（2024）设计了MiniSpec微型语言约束LLM输出格式，成本和延迟降低2倍以上；LLVM-Drone（Knowledge-Based Systems 2025）通过结构化提示+领域知识将任务成功率从直接使用ChatGPT的38.5%提升至91.5%。标准化接口方面，Ramos-Silva与Burke（arXiv 2025）基于MCP协议构建了兼容ChatGPT/Claude/Gemini的LLM-无人机通用接口。Lin、Tian等（arXiv 2025）的大规模综述分析了997篇论文和1509个GitHub项目。

关键限制是安全关键场景的不可控性：LLM可能生成语法正确但语义危险的控制代码；云端推理延迟使其不适合实时低层控制；相同任务可能给出不同结果，影响可重复性。当前共识是LLM适合高层任务分解和非实时场景，低层控制仍需传统方法保障。

空中操作：从实验室到接触作业

Ollero、Tognon、Suarez、Lee与Franchi的权威综述（TRO 2022）梳理了空中操作从直升机悬吊到全向多旋翼+多DOF操作臂的五代演化。EU AEROARMS项目（H2020，€572万预算）开发了首个多臂空中遥操作系统，在油气管道NDT检测中验证了双臂+多向推力平台的力/顺应性控制，预计为典型炼油厂年节省约€70万检测费。

近年最具创新性的工作包括：东京大学的DRAGON（IJRR 2023），通过多连杆矢量推力实现空中全身抓取；MIT的Ubellacker、Carlone等（npj Robotics 2024）开发了首个配备完全机载感知的软体空中机械手，实现3+ m/s高速多目标视觉定位抓取；Science Advances 2024发表的仿生攀缘植物卷须抓手实现了无需精确定位的自适应抓取。浙大高飞组的仿人手空中抓取机器人（Nature Communications 2026）进一步推进了力感知与自主交互。

控制方面形成三种主要范式：阻抗控制建立位置误差与接触力的二阶动态关系；Port-Hamiltonian无源性控制（Rashad等，RA-L 2019）在SE(3)上利用能量罐方法保证交互稳定性；无传感器力估计（Khalifa等，Scientific Reports 2024）通过扰动观测器从系统动力学反推接触力，避免额外传感器增重。有效载荷限制、动态耦合和户外风扰仍是主要瓶颈。

行为树与任务框架的工程实践

行为树（BT）凭借模块性、可扩展性和天然反应性，正逐步取代有限状态机（FSM）成为复杂UAV任务编排的首选。Iovino等（Robotics and Autonomous Systems 2022）综述了BT在机器人中的应用；Pereira等（ICUAS 2024）展示了电池感知BT实现自主巡检（低电量→自动返航→更换→续飞）的完整工作流。实践中，PX4/ArduPilot核心栈仍以FSM为主，但通过ROS 2 companion computer集成BehaviorTree.CPP开源库是当前推荐的工程方案。新兴趋势包括BT+RL（RL优化各节点策略）和BT+LLM（LLM动态生成或修改BT结构）。

人-集群交互：从单操作员到共享自主

DARPA OFFSET挑战赛（2023）展示了通过VR头显+语音指挥130架无人机完成城市任务的能力（90%任务完成率），标志着人-集群交互从概念走向系统验证。交互界面从传统遥控器扩展到手势（IROS 2024的OmniRace通过6D手势估计引导竞速无人机，降低45%认知负荷）、脑机接口（Zeng等，IEEE T-NSRE 2023的混合注视+BCI免手操控）、AR/VR（HoloLens2+BCI组合）和自然语言。

共享自主是核心理论框架——人提供高层意图，机器人自主执行底层动作，动态权重分配根据任务阶段和信号质量调整人/机控制比例。Science Advances 2025发表的皮肤贴合多模态传感系统实现了触觉反馈闭环控制。BCI带宽极低（通常仅4–7类离散指令）和户外电磁干扰是制约实用化的根本障碍。

整体发展趋势与未来方向

2020–2025年多旋翼飞行机器人领域呈现五大交汇趋势：

控制与学习的深度融合已成定局。 Swift（Nature 2023）、Neural-Fly（Science Robotics 2022）和L1-NMPC（RA-L 2022）分别代表纯RL、元学习自适应和自适应+最优控制的路线，三者正在汇聚——可微物理仿真（Nature Machine Intelligence 2025）作为桥梁使得端到端策略可以结合物理先验训练。未来方向是在形式化安全保证（如控制障碍函数CBF）框架下嵌入学习组件。

SE(3)几何方法从控制贯穿到规划与学习。 从经典几何跟踪控制→SE(3)上的MPC→GMPPI采样→Port-Hamiltonian交互控制→集群规划，李群/李代数已成为贯穿全栈的数学语言。Koopman-SE(3) MPC（2024）和GMPPI（2025）标志着几何方法与现代优化/采样方法的融合。

全驱动与变形态正从学术新奇走向工业应用。 Voliro T已商用于风电检测，FAST-Hex的"按需全驱动"理念平衡了效率与灵活性。未来全驱动平台将成为空中操作的标准底盘，而非特殊研究平台。

3DGS正在取代NeRF成为UAV建图的神经表征标准。 100+ FPS的渲染速度使其可用于实时规划闭环，DroneSplat和SAFER-Splat已展示了与安全导航的结合。在线增量式3DGS SLAM将是下一个突破点。

自主性栈正在形成层次化架构： LLM理解任务意图→BT编排子任务→NMPC/RL执行底层控制→共享自主保持人的监督。每层技术的成熟度不同（底层控制最成熟、LLM规划最初期），但整体架构已清晰可见。

核心开放问题包括：续航瓶颈（氢燃料电池是最有希望的突破口）、RL策略的安全认证（CBF与RL的结合是活跃方向）、大规模集群的通信与可扩展性（超越10架的户外验证仍是空白）、以及动态非结构化环境中的鲁棒自主性（从实验室到真实世界的最后一公里）。主要研究力量集中在苏黎世大学RPG组（Scaramuzza）、浙江大学FAST Lab（高飞）、MIT ACL（How）、HKU MARS Lab（张）、东京大学（Zhao/Inaba）和GWU（Lee），它们的开源生态（EGO-Planner系列、Agilicious、FAST-LIO系列、acados、PX4）构成了该领域的基础设施。