
无人机(UAV)正在从"能飞的传感器"变成"能听、能思考、能协作"的智能节点——前提是要把 LLM 和 MLLM 塞进机载资源受限、链路不稳的环境。由 Yousef Emami、Hao Zhou、Radha Reddy、Atefeh Hajijamali Arani、Biliang Wang、Kai Li、Luis Almeida、Zhu Han组成的 8 人团队(含 4 位 IEEE Senior Member + 1 位 IEEE Fellow)发布了一份 40 页长综述,把 LLM 辅助的 UAV 操作与通信拆成四条主线:
作者同步给了 DCS-ICL 端到端案例(10 传感器、100m×100m 场景):Grok 和 Mistral-Large-3 在 2–3 步收敛到 0 丢包,LLaMA 停在约 8 个包。全文 13 张表格梳理 50+ 代表性工作与 UAVBench、UAVThreatBench 两个标准评测基准。
论文信息
论文把 UAV 接入 LLM 的必要性归结为三点传统方法难以同时满足的挑战:状态/动作空间维度高(UAV 高机动+有限感知+间歇连接,对地面设备信息不完整)、环境高度动态(精确解析建模不可行,deep RL 有 sim-to-real gap)、需要跨层信息协同(同时处理网络拓扑、信道、任务描述、历史解——LLM 的语义理解正好补齐)。
UAV 市场数据:2024 年 36.41 亿美元 → 2032 年 125.91 亿美元,CAGR 17.3%。
论文的系统级抽象把 LLM-UAV 融合分三层:认知与决策层(LLM 作 meta-controller,任务目标+环境上下文+系统约束 → 结构化任务描述、分解、重规划);感知层(LLM 作多模态语义桥,视觉/LiDAR/频谱/IMU → 对象/活动/意图描述);控制与通信层(高层计划 → 控制命令、轨迹、通信策略)。
四条适配路线的核心权衡:
维度 | Pre-training | Fine-tuning | Prompt Eng | RAG |
|---|---|---|---|---|
资源强度 | 极高 | 中–高 | 极低 | 低–中 |
UAV 适用性 | 基础模型层 | 特定任务(充足数据) | 实时低延迟 | 需动态协议/数据 |
从零预训练 LLaMA 3.1 (405B) 需数千万 GPU 小时+数千万美元成本——对 UAV 场景,微调+RAG+提示工程的组合更可行。

PEFT 6 种方法:Adapters、LoRA、QLoRA、Prefix-tuning、Prompt-tuning、P-tuning——让 GPT-3/BERT/LLaMA 级别模型能在有限硬件上适配到 UAV。
RAG 的 UAV 落地代表性数据:Hybrid LLM-RAG [40] 动态环境 IoD 任务 92% 决策准确率、94% 任务成功率;Augmented LLM-RAG [41] 多 UAV 协同 BLEU 0.82、cosine 0.87、决策延迟 120 ms;GraphRAG / HybridRAG 把语义检索 (VectorRAG) 与图关系推理 (GraphRAG) 结合。评估工具:RAGAS(参考无关三维评估)、RAGCHECKER(细粒度组件评估)。
Prompt Engineering 四大策略:ICL(任务+示例+查询,单模型仅推理,适合 few-shot 实时决策)、CoT(任务+多步推理示例,可解释性、结构化多步推理)、Prompt-Based Planning(高层目标+约束,长 horizon 规划)、Self-Refinement(初始+自批评,错误纠正、鲁棒性)。
ICL 在应急 UAV 的代表工作:ICLDC[52] UASNets 应急数据采集(vs DQN 和 Max Channel Gain 基线累积丢包显著降低);FRSICL[53] 野火监测(AoI 更低 vs PPO);AIC-VDS[55] 多 UAV 灾后监测(91% 丢包降低vs MADQN);LLM-CRF[56] SAR 人机协同(64.2% 任务时间降低、94% 成功率、42.9% 认知负荷降低)。
LLM 推理部署:Centralized Edge Inference(实时决策但依赖稳定连接)、Local On-Device(隐私低延迟但能耗高)、Split Inference(降 UAV 算力但需协调)、Collaborative Device-Server(带宽友好,适合不稳定链路)。边缘参数上界 P = M × 8 / b(M 字节数、b 每参数比特精度)——8–16 GB RAM 理论支持 4–8B FP16 或 16–32B 4-bit 量化,实际限在 1–10B,与 Gemini Nano、Qualcomm 10B 级规模一致。
长上下文处理:Selective Context(token 自信息过滤)、LLMLingua(分层压缩)、Short-Term Working Memory(动态缓冲)、Long-Term Summary Memory(关键模式抽象)、AGI-Assisted Designs(episodic + semantic 记忆)。
Section III 分 4 个子方向。
导航/规划/放置 8 个代表框架:SPINE[77] 城市与农村环境公里级语言指定任务;MSDTMD-SG[78] 多步思考运动决策采样 + RL 奖励,任务完成率胜 DRL 与 Ant Colony;Multi-UAV Placement[79] 迭代结构化提示优化 IAB 网络部署;FlockGPT[81] GPT-4 把几何命令翻译成 SDF 群飞控制代码;RALLY[82] LLM+MARL 动态角色分配(Commander/Coordinator/Executor);SwarmChain (CoLLM)[83] 张量并行 + 自适应负载分发,蜂群片上推理 1.9–2.3× 加速、无云依赖;TypeFly[84] MiniSpec 流式解释+重规划,响应时间最多 62% 降低。
安全/自治/网络优化:LLM-HFACS[85] UAV 事故调查 macro-F1 0.58–0.76(18 类)、最佳类别 F1 0.76;LLM-Satellite-UAV-IoT[86] 6G 集成网络优化,微调 LLaMA-3 70B,27% 频谱效率提升、35% 决策延迟降低;Embodied Aerial Intelligent Agent[88] 开放世界 UAV 任务,14B 模型边缘部署、5–6 tokens/s @220W;LLM-Assisted UTM[89] 无人交通管理 最高 91.7% 决策准确率、平均响应 5.7 秒。
多 LLM 架构定义 3 种部署范式:Parallel/Ensemble(并行融合)、Hierarchical(Onboard→Edge→Cloud 分层资源感知)、Distributed Specialized Agents(角色分工)。代表工作 Aero-LLM(分层安全决策)、AEC 行业多 Agent 视觉检查框架(Router/PathPlanner/Controller/Perceptioner/Retriever)。
两个新的评测基准:UAVBench[100] 50,000 验证场景 + 50,000 MCQ + 10 种推理风格,评测 32 个 SOTA LLM——当前模型在感知和策略推理较好,但伦理判断、资源受限规划、多目标权衡仍弱;UAVThreatBench924 专家场景 + 4,620 RED 映射威胁,GPT-4o 接近 87% 的总威胁匹配率,小模型在可用性和后端层显著弱。
两项新兴推理机制:MCoT(Multimodal CoT)把 CoT 扩展到多模态;M-ICL(Multimodal ICL)推理时无梯度更新、用少量多模态示例对直接激活 LMM。
VLN 框架对比5 个代表:UAV-VLN[109] 把 VLN 重构为 QA、开放词汇视觉感知,强 zero-shot 泛化;SkyVLN[110] VLN 集成 NMPC 安全控制;LLMIR[111] OOD 指令改写器,绝对成功率 +1.39%、OOD 测试集 +1.51%;DuAI-VLN (AeroDuo)[112] 双 UAV 高/低空协作;AerialVLN[113] 连续 3D 城市空间 UAV VLN 基准。
MLLM 在 UAV 蜂群 6 个框架覆盖人-蜂群交互、队形控制、灾难监测、威胁检测等:自主蜂群 [105] 82.7% 命令提取准确率、83.8% 队形规划成功率;PromptPilot[107] 自然语言 UAV 控制 97.58% 视频选择效率。
MLLM 关键挑战 6 项:模型不确定性与幻觉、决策可解释性缺失、机载算力受限、复杂环境感知、人机意图理解、长上下文建模。
DCS-ICL 端到端案例:10 传感器、100m×100m,每传感器 50 J 电池、40 packets 队列、100 mW 发射功率,DCS-ICL 边缘 LLM 输出调度决策,基线 MADQN。核心发现:GPT-4o-mini 下 DCS-ICL 与 MADQN 收敛后可比;但不同 LLM 差异极大——Grok 和两个 Mistral 模型前 2–3 步收敛到 0 丢包,LLaMA 停在约 8 个。
治理层 6 组件:Observability、Prompts & Feedback Logging、Tracing、Latency & Usage Monitoring、Safety Verification Layer、LLM + Safety Verifier 集成。核心论断:Observability + Safety Verifier + HITL三层叠加是从"功能组件"升级到"可治理系统"的底线。

在此基础上,有几点值得进一步思考:
综述的最大价值不在具体技术判断,而在把跨学科快速演进的领域系统化——让后续研究者能在 13 张表格组织的坐标系里找到位置。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。