每周AI论文速递（260309-260313）

叶子的技术碎碎念

发布于 2026-03-27 12:17:12

3040

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

[几何引导的强化学习实现多视角一致的3D场景编辑](https://arxiv.org/abs/2603.03143)

利用2D扩散模型的先验进行3D编辑已成为一种有前景的范式。然而，在编辑结果中保持多视角一致性仍然具有挑战性，而3D一致性编辑配对数据的极度稀缺使得监督微调（SFT）——这一编辑任务最有效的训练策略——无法实施。本文观察到，虽然生成多视角一致的3D内容极具挑战性，但验证3D一致性是可行的，这自然将强化学习（RL）定位为一个合适的解决方案。受此启发，我们提出了RL3DEdit，一个基于RL优化的单次前向传播框架，采用源自3D基础模型VGGT的新型奖励机制。具体而言，我们利用VGGT从海量真实世界数据中学到的强大先验，输入编辑后的图像，并将输出置信度图和姿态估计误差作为奖励信号，通过RL有效地将2D编辑先验锚定到3D一致的流形上。大量实验表明，RL3DEdit实现了稳定的多视角一致性，并以高效率在编辑质量上超越了SOTA方法。为促进3D编辑领域的发展，我们将发布代码和模型。

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

[Penguin-VL：基于LLM视觉编码器探索VLM的效率极限](https://arxiv.org/abs/2603.06569)

视觉语言模型（VLM）的发展主要依赖于扩大模型规模，这阻碍了其在计算受限的移动和边缘设备（如智能手机和机器人）上的部署。本文探索了紧凑型（如2B和8B参数）VLM的性能极限。我们挑战了主流做法，即SOTA VLM必须依赖通过大规模对比预训练（如CLIP/SigLIP）初始化的视觉编码器。我们识别出一个目标不匹配问题：对比学习针对区分任务优化，强制执行粗粒度和类别级的不变性，这抑制了密集描述和复杂VLM推理所需的细粒度视觉信息。为解决这一问题，我们提出了Penguin-VL，其视觉编码器从纯文本LLM初始化。实验表明，Penguin-Encoder是传统对比预训练的更优替代方案，为多模态理解解锁了更高程度的视觉保真度和数据利用效率。在各种图像和视频基准测试中，Penguin-VL在数学推理方面实现了与领先VLM（如Qwen3-VL）相当的性能，并在文档理解、视觉知识和多视角视频理解等任务上超越了它们。值得注意的是，这些成果是通过轻量级架构实现的，表明改进的视觉表示而非模型缩放是性能提升的主要驱动力。消融研究显示，Penguin-Encoder持续优于对比预训练的编码器，保留了对密集感知和复杂推理至关重要的细粒度空间和时间信息。这使其成为计算高效VLM的强力替代方案，能够在资源受限环境中实现高性能。代码：https://github.com/tencent-ailab/Penguin-VL

OpenClaw-RL: Train Any Agent Simply by Talking

[OpenClaw-RL：仅通过对话即可训练任何智能体](https://arxiv.org/abs/2603.10165)

每个智能体交互都会产生次态信号，即跟随每个动作的用户回复、工具输出、终端或GUI状态变化，然而现有的智能体强化学习系统未能将其作为实时的在线学习源。我们提出了OpenClaw-RL，一个建立在简单观察之上的框架：次态信号是普遍存在的，策略可以同时从所有信号中学习。个人对话、终端执行、GUI交互、软件工程（SWE）任务和工具调用轨迹并非独立的训练问题，它们都可用于在同一循环中训练同一策略。次态信号编码两种形式的信息：评估信号，指示动作执行效果，并通过PRM评判器提取为标量奖励；以及指令信号，指示动作应有的差异，通过后见式引导的在轨蒸馏（OPD）恢复。我们从次态中提取文本提示，构建增强的教师上下文，并提供比任何标量奖励都更丰富的Token级方向优势监督。得益于异步设计，模型处理实时请求，PRM评判器评估进行中的交互，训练器同时更新策略，三者之间零协调开销。应用于个人智能体时，OpenClaw-RL使智能体能够通过使用即获得改进，从用户重新查询、更正和明确反馈中恢复对话信号。应用于通用智能体时，同一基础设施支持跨终端、GUI、SWE和工具调用场景的可扩展RL，我们还额外展示了过程奖励的效用。代码：https://github.com/Gen-Verse/OpenClaw-RL

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

[迷失在故事中：LLM长故事生成中的一致性缺陷](https://arxiv.org/abs/2603.05890)

当讲故事的人忘记自己的故事时会发生什么？大语言模型（LLM）如今可以生成跨越数万词的故事，但它们往往无法在全文中保持一致性。在生成长篇故事时，这些模型可能与自己既定的事实、角色特征和世界规则相矛盾。现有的故事生成基准主要关注情节质量和流畅性，而一致性错误鲜有探索。为解决这一问题，我们提出了ConStory-Bench，一个旨在评估长篇故事生成中叙事一致性的基准。它包含跨越四种任务场景的2000个提示词，并定义了一个包含五种错误类别和19种细粒度子类型的分类体系。我们还开发了ConStory-Checker，一个自动化流程，用于检测矛盾并将每个判断建立在明确的文本证据基础上。通过五个研究问题评估一系列LLM，我们发现一致性错误显示出明显的倾向：它们在事实和时间维度上最为常见，倾向于在故事中段出现，发生在具有更高Token级熵的文本片段中，且某些错误类型倾向于共同出现。这些发现可以为未来改进长篇故事生成一致性的工作提供指导。项目页面：https://picrew.github.io/constory-bench.github.io/

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

[Holi-Spatial：将视频流演化为整体3D空间智能](https://arxiv.org/abs/2603.07660)

空间智能的发展根本上依赖于大规模、细粒度3D数据的获取。然而，现有方法主要通过从有限的手工标注数据集生成问答（QA）对来构建空间理解基准，而非系统地从原始网络数据中标注新的大规模3D场景。因此，它们的可扩展性受到严重制约，模型性能也进一步受制于这些窄范围策划数据集中的领域差异。本文提出了Holi-Spatial，首个完全自动化、大规模、空间感知的多模态数据集，从原始视频输入构建，无需人工干预，使用所提出的数据整理流程。Holi-Spatial支持多层次空间监督，范围从几何精确的3D高斯溅射（3DGS）重建及渲染深度图，到对象级和关系语义标注，以及相应的空间问答（QA）对。遵循规范化且系统化的流程，我们进一步构建了Holi-Spatial-4M，首个大规模、高质量的3D语义数据集，包含12K个优化的3DGS场景、130万张2D遮罩、32万个3D边界框、32万个实例描述、120万个3D锚定实例和120万个涵盖各种几何、关系和语义推理任务的空间QA对。Holi-Spatial在数据整理质量方面表现卓越，在ScanNet、ScanNet++和DL3DV等数据集上显著优于现有的前馈和单场景优化方法。此外，使用该数据集在空间推理任务上微调视觉语言模型（VLM）也带来了模型性能的显著提升。

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

[Spatial-TTT：基于测试时训练的流式视觉空间智能](https://arxiv.org/abs/2603.12255)

人类通过视觉观察流来感知和理解现实世界空间。因此，能够从潜在无边界视频流中实时维护和更新空间证据，对空间智能至关重要。核心挑战不仅在于更长的上下文窗口，而在于空间信息如何随时间被选择、组织和保留。本文提出了Spatial-TTT，面向基于流式视觉的空间智能与测试时训练（TTT），它适配参数子集（快速权重）以捕获和组织跨越长时域场景视频的空间证据。具体而言，我们设计了混合架构，并采用分块更新与滑动窗口注意力并行的机制，以实现高效的空间视频处理。为进一步增强空间感知，我们引入了空间预测机制，应用于带有3D时空卷积的TTT层，鼓励模型捕获跨帧的几何对应和时间连续性。除架构设计外，我们还构建了包含密集3D空间描述的数据集，引导模型以结构化方式更新其快速权重，从而记忆和组织全局3D空间信号。大量实验表明，Spatial-TTT改进了长时域空间理解，并在视频空间基准测试上达到了SOTA性能。项目页面：https://liuff19.github.io/Spatial-TTT

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

[Flash-KMeans：快速且内存高效的精确K-Means](https://arxiv.org/abs/2603.09229)

K-means算法历史上主要被定位为离线处理的基本操作，通常用于数据集组织或嵌入预处理，而非作为在线系统的核心组件。本文在现代AI系统设计的视角下重新审视这一经典算法，使K-means成为在线基本操作。我们发现，现有K-means的GPU实现仍主要受限于底层系统约束，而非理论算法复杂度。具体而言，赋值阶段因高带宽内存（HBM）中N×K距离矩阵的大量显式实现而面临严重的IO瓶颈；同时，质心更新阶段因不规则、散射式的Token聚合而受到硬件级原子写争用的严重影响。为弥合这一性能差距，我们提出了flash-kmeans，一个面向现代GPU工作负载的IO感知且无争用的K-means实现。Flash-kmeans引入了两个核心级创新：（1）FlashAssign，将距离计算与在线argmin融合，完全绕过中间内存实现；（2）排序逆更新，显式构造逆映射，将高争用原子散射转换为高带宽、段级局部归约。此外，我们整合了算法-系统协同设计，包括分块流重叠和缓存感知编译策略，确保实际可部署性。在NVIDIA H200 GPU上的广泛评估表明，flash-kmeans相比最佳基线实现了高达17.9倍的端到端加速，同时分别超越行业标准库cuML和FAISS 33倍和200倍以上。

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

[通过思考来回忆：推理如何解锁LLM中的参数化知识](https://arxiv.org/abs/2603.09906)

虽然LLM中的推理在数学、代码生成和多跳事实问题中发挥自然作用，但其对简单单跳事实问题的影响仍不明确。这类问题无需逐步逻辑分解，使得推理的价值显得反直觉。尽管如此，我们发现启用推理显著扩展了模型参数化知识回忆的能力范围，解锁了原本无法获取的正确答案。当不存在复杂推理步骤时，为何推理仍能辅助参数化知识回忆？为解答这一问题，我们设计了一系列假设驱动的对照实验，并识别出两个关键驱动机制：（1）计算缓冲机制，模型利用生成的推理Token执行独立于其语义内容的潜在计算；（2）事实激活机制，生成主题相关的事实作为语义桥梁，促进正确答案的检索。重要的是，后一种生成式自检索机制存在固有风险：我们证明推理过程中对中间事实的幻觉会增加最终答案产生幻觉的可能性。最后，我们表明通过优先选择包含无幻觉事实陈述的推理轨迹，可直接利用这些发现来提升模型准确性。

BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

[BandPO：通过概率感知边界桥接信任区域与比率裁剪的LLM强化学习](https://arxiv.org/abs/2603.04918)

近端约束对大语言模型强化学习的稳定性至关重要。虽然PPO中的标准裁剪机制作为信任区域的高效替代方案，但我们识别出一个关键瓶颈：固定边界严格限制了低概率动作的向上更新幅度，过度抑制高优势尾策略，导致熵快速崩溃。为解决这一问题，我们引入了带约束策略优化（BandPO）。BandPO用Band替代标准裁剪，Band是一个统一的理论算子，将由f散度定义的信任区域投影到动态的、概率感知的裁剪区间。理论分析证实，Band有效解决了这一探索瓶颈。我们将这一映射表述为凸优化问题，保证了全局最优数值解，同时为特定散度推导出解析解。在跨多种模型和数据集的广泛实验中，BandPO持续优于标准裁剪和Clip-Higher，同时稳健地缓解了熵崩溃问题。

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

[LoGeR：具有混合记忆的长上下文几何重建](https://arxiv.org/abs/2603.03269)

前馈几何基础模型在短时域重建中表现强劲，但将其扩展至时长数分钟的视频时，受到二次注意力复杂度或循环设计中有限有效内存的瓶颈制约。我们提出了LoGeR（长上下文几何重建），一种新颖架构，可将密集3D重建扩展至极长序列，无需后处理优化。LoGeR分块处理视频流，利用强双向先验实现高保真的分块内推理。为应对跨块边界连贯性的关键挑战，我们提出了基于学习的混合记忆模块。这一双组件系统结合了参数化测试时训练（TTT）记忆以固定全局坐标框架并防止尺度漂移，以及非参数化滑动窗口注意力（SWA）机制以保留原始上下文用于高精度相邻对齐。值得注意的是，该记忆架构使LoGeR能够在128帧序列上训练，并在推理期间泛化至数千帧。在标准基准及新重新利用的VBR数据集（包含高达19k帧的序列）上的评估显示，LoGeR显著优于此前的SOTA前馈方法——在KITTI上将ATE降低超过74%——并在前所未有的时域范围内实现了稳健的全局一致重建。

How Far Can Unsupervised RLVR Scale LLM Training?

[无监督RLVR能将LLM训练扩展到多远？](https://arxiv.org/abs/2603.08660)

具有可验证奖励的无监督强化学习（URLVR）为突破LLM训练的监督瓶颈提供了一条路径，通过在无真实标签的情况下派生奖励。近期工作利用模型内在信号显示出早期收益，但其潜力和局限性仍不明确。本文重新审视URLVR，并提供了涵盖分类、理论和广泛实验的综合分析。我们首先基于奖励来源将URLVR方法分类为内在与外在，然后建立了统一的理论框架，揭示所有内在方法都收敛于锐化模型的初始分布。这种锐化机制在初始置信度与正确性一致时奏效，但错位时会灾难性失败。通过系统性实验，我们发现内在奖励跨方法始终遵循先升后降的模式，崩溃时间由模型先验而非工程决策决定。尽管存在这些扩展限制，我们发现内在奖励在小数据集的测试时训练中仍有价值，并提出模型崩溃步来测量模型先验，作为RL可训练性的实用指标。最后，我们探索将验证建立在计算不对称性上的外在奖励方法，初步证据显示它们可能突破置信度-正确性上限。我们的发现为内在URLVR描绘了边界，同时为可扩展替代方案指明了方向。

你好，我是叶子，9年Java开发老司机，待过小的创业公司也待过上市厂子。擅长各种姿势的CRUD，但现在工作重心逐渐往中间件开发转移。喜欢折腾技术，AI是个人爱好驱动去学习的。但不管是Java还是AI还是其他非技术行业的知识，我都希望能和大家共同学习进步，如果文章有用，还请大家点击关注，希望我们能一起在技术的道路上走的更远！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-03-14，如有侵权请联系 cloudcommunity@tencent.com 删除

论文