2026-05-11 论文列表 - Yuki N 的世界

1

VEGA: 面向空间感知的视觉-语言-动作模型的视觉编码器接地对齐 VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models

Hao Wang, Xiaobao Wei, Jingyang He 等13人

2

DeepSight：通过潜在状态预测实现长时域世界建模，用于端到端自动驾驶 DeepSight: Long-Horizon World Modeling via Latent States Prediction for End-to-End Autonomous Driving

Lingjun Zhang, Changjie Wu, Linzhe Shi 等9人

3

具身人工智能实践：2026年SAE世界大会关于安全、信任、机器人及实际部署的洞见 Embodied AI in Action: Insights from SAE World Congress 2026 on Safety, Trust, Robotics, and Real-World Deployment

Jan-Mou Li, Paul Schmitt, Wei Tong 等7人

4

VRA：基于电压受限驱动的离散时间关节加速度 VRA: Grounding Discrete-Time Joint Acceleration in Voltage-Constrained Actuation

Lingwei Zhang, Jiaming Wang, Tianlin Zhang 等8人

5

5G O-RAN网络中面向非地面用户的xApp赋能资源管理 xApp Empowered Resource Management for Non-Terrestrial Users in 5G O-RAN Networks

Mohammed M. H. Qazzaz, Syed Ali Zaidi, Aubida A. Al-Hameed 等5人

6

ObjView-Bench：对以物体为中心的视角规划的难度与部署的再思考 ObjView-Bench: Rethinking Difficulty and Deployment for Object-Centric View Planning

Sicong Pan, Hao Hu, Xuying Huang 等5人

7

基于安全集的分散式应急模型预测控制用于非线性多智能体碰撞避免 Decentralized Contingency MPC based on Safe Sets for Nonlinear Multi-agent Collision Avoidance

Max Studt, Georg Schildbach

8

C-CoT: 基于视觉语言模型的反事实思维链用于安全自动驾驶 C-CoT: Counterfactual Chain-of-Thought with Vision-Language Models for Safe Autonomous Driving

Kefei Tian, Yuansheng Lian, Kai Yang 等5人

9

MAGS-SLAM: 单目多智能体高斯溅射SLAM用于几何和光度一致的重建 MAGS-SLAM: Monocular Multi-Agent Gaussian Splatting SLAM for Geometrically and Photometrically Consistent Reconstruction

Zhihao Cao, Qi Shao, Shuhao Zhai 等6人

10

ALAM：视觉-语言-动作模型的代数一致潜变量转换 ALAM: Algebraically Consistent Latent Transitions for Vision-Language-Action Models

Zuojin Tang, Haoyun Liu, Xinyuan Chang 等14人

11

高效人类引导VLA适应的统一噪声导向 Unified Noise Steering for Efficient Human-Guided VLA Adaptation

Junjie Lu, Xinyao Qin, Yuhua Jiang 等9人

12

你的驾驶世界模型是全能选手吗？ Is Your Driving World Model an All-Around Player?

Lingdong Kong, Ao Liang, Tianyi Yan 等23人

13

使用磁势场的自主无人机安全空中三维路径规划 Safe Aerial 3D Path Planning for Autonomous UAVs using Magnetic Potential Fields

Haechan Mark Bong, Giovanni Beltrame

14

CapVector：在参数空间中学习面向视觉-语言-动作模型的可迁移能力向量 CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models

Wenxuan Song, Han Zhao, Fuhao Li 等10人

15

MDrive：面向端到端多智能体系统的闭环协同驾驶基准测试 MDrive: Benchmarking Closed-Loop Cooperative Driving for End-to-End Multi-agent Systems

Marco Coscoy, Zewei Zhou, Seth Z. Zhao 等12人

16

通过多边际最优传输和薛定谔桥实现最优且可扩展的MAPF Optimal and Scalable MAPF via Multi-Marginal Optimal Transport and Schrödinger Bridges

Usman A. Khan, Joseph W. Durham

17

RoboMemArena：一个全面且具有挑战性的机器人记忆基准测试 RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark

Huashuo Lei, Wenxuan Song, Huarui Zhang 等13人

18

PriorVLA: 保持先验的视觉-语言-动作模型适应方法 PriorVLA: Prior-Preserving Adaptation for Vision-Language-Action Models

Xinyu Guo, Bin Xie, Wei Chai 等7人

19

基于神经倾斜的莱维过程驱动随机微分方程的变分推断 Variational Inference for Lévy Process-Driven SDEs via Neural Tilting

Yaman Kindap, Manfred Opper, Benjamin Dupuis 等5人

20

HarmoWAM：通过自适应世界动作模型协调通用与精确操控 HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models

Qiuxuan Feng, Jiale Yu, Jiaming Liu 等11人

论文列表 2026-05-11