kaiyun 更全面的具身智能真机评测来了！CVPR 2026 ManipArena挑战赛邀你打榜

发布日期：2026-03-20 02:47点击次数：89

剪辑｜Panda

夙昔一年，具身智能领域迎来了爆发式增长。从后空翻到托马斯回旋，从整理衣物到冲泡咖啡……各类令东谈主惊艳的机器东谈主演示视频雨后春笋。

然而，在这些本领闹热的背后，行业正濒临一个愈发中枢的拷问：咱们到底应该怎么判断一个具身智能模子是确实取得了泛化才智的卓绝，照旧只是针对特定任务与场景进行了全心优化？

在真实的物理寰宇中，评测一项操作任务的复杂性远超 LLM 等纯软件领域。现时的好多测试时时依赖于预设环境中的 sweet spot 或是无数次的重试。具身智能产业正加快从本领研发向限制化落地全面跃迁，而合资、高模范的真机评测体系耐久缺位，已成为行业发展的核肉痛点。

这一缺位不仅无法为产业缔造澄清的发展基准，更奏凯制约了模子的迭代效力。旷日长久，研发资源极易过度流向容易出视觉效果的饰演形状，使得整个这个词具身智能行业濒临「劣币驱散良币」的交易风险。

伸开剩余94%

在具身智能走向限制化落地的关键节点，建立科学的可量化、可复现、高信度的真机评测标尺已成为亟待惩办的行业共鸣。

为了破解这一困局，中山大学联袂自变量机器东谈主、MBZUAI 等机构，在 CVPR 2026 的 Embodied AI Workshop 上讲求推出了官方竞赛：ManipArena。

官网地址：https://maniparena.x2robot.com/ 本领评释：ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation 评释地址：https://maniparena.x2robot.com/maniparena.pdf 数据集：https://huggingface.co/datasets/ManipArena/maniparena-dataset

不同于传统仿真评测或直爽桌面抓取测试，ManipArena 提供了 20 个真机任务（包括 5 个预赛任务和 15 个决赛任务，波及奉行推理、语义推理、移动操作三种任务类型）、10812 条高质料遥操作轨迹，并通过独到的绿幕可控环境和分层 OOD 评估贪图，构建了一个不错精确会诊模子泛化才智的科学化评测框架。

ManipArena 的三种任务类型

行为当今限制最大的真机操作评测平台之一，ManipArena 旨在通过极其严谨的实验贪图与科学化框架，精确会诊视觉-讲话-动作模子（VLA）或寰宇模子（WAM）在真实寰宇中的通用推理与泛化才智，勉力为行业缔造一个表率且平允的评测新标杆。

事实上，基于该平台的首批基准测试仍是给出了极具价值的行业知悉。ManipArena 团队对代表 VLA 的 π₀.₅ 与代表寰宇模子的 DreamZero 进行了大限制真机对比测试。

初步的评测数据澄清地勾画出两类模子互补的才智范围：多任务 VLA模子具备更强的精粹操作才智，但泛化阐明脆弱，面对散布外物体易出现晦气性退化；寰宇模子则展现出权贵的泛化鲁棒性，但仅限于粗粒度操作，在精粹任务上力不从心。两种范式各有长处，改日的通器具身操作系统或需深度交融二者的上风。

深度剖判 ManipArena

精确会诊泛化瓶颈的科学框架

针对行业痛点，ManipArena 淡薄了三个中枢的评测转换。这套体系旨在给模子作念「全面的体检」，让真实的性能互异浮出水面。

分层 OOD 评估，精确会诊泛化瓶颈

以往的评测时时只给出一个最终的总分，很难反应模子的真实才智范围。而 ManipArena 会为每个任务进行 10 次测试，且每个任务的 10 次测试按难度进行了分层贪图。

其中，T1 至 T4 测试域内才智，举例让机器东谈主操作西宾诱骗见过的不同位置的不锈钢勺。T5 至 T8 引入视觉偏移，要求模子处理阵势不同但仍在西宾散布内的物品，举例儿童勺。最艰苦的 T9 至 T10 则是语义 OOD 测试，平台会引入西宾中从未见过的全新材质或类别，举例玄色的塑料勺。

「将勺子放入碗里」任务的勺子泛化示例

这种路子状的贪图，使得单次评估就能为模子画图出完整的泛化衰减弧线。

初步评测收尾：揭示现时 VLA 模子的泛化范围

本领评释败露了部分基线模子的初步评测数据。收尾高慢，现时的主流视觉讲话动作模子在面对多变量重复的散布外测试时，依然存在严重的泛化软肋。

在单孑然分发生更变时，模子尚能保持一定的任务完成度。举例在耳机分类任务中，仅更变耳机类型时，模子平均能取得 2.0 分。一朝面对复合型散布外测试，即同期更变耳机的类型和神采，模子的阐明会坐窝出现晦气性崩溃，平均得分奏凯降为 0 分。而在勺子抛弃任务中，当材质和神采同期发生更变时，模子的得分呈现出极点的南北极分化，要么拿满分，要么奏凯得 0 分。

此外，评测数据还揭示了一个蹙迫应许：关于现时的模子而言，物体阵势的相似度比语义类别的包摄愈加蹙迫。在眼镜抛弃任务中，自然测试物品在语义上都属于「眼镜」，但模子对不同物品的阐明互异巨大。与西宾集阵势调换但尺寸更小的儿童眼镜取得了 10.0 分的满分。阵势相似但作风不同的墨镜取得了 8.5 分。阵势王人备不同的护目镜得分则急剧下落至 5.0 分，况兼方差极大。

这些真实的评测数据标明：现时的具身智能模子时时阐明出一种脆弱的泛化才智。它们很难作念到优雅地左迁，时时只会在齐全奏效与透澈失败之间横跳。这进一步印证了 ManipArena 建造多层级、多变量评估体系的工程价值，即匡助研发东谈主员看清模子学到的究竟是深层的语义见地，还只是是针对特定阵势的抓取战略。

绿幕可控环境与系统化万般性，牵记科学严谨性

在真实的通达环境中，爽朗的微小偏移都会导致模子动作失败。为了撤废此类环境打扰，ManipArena 将整个的评估都抛弃在带有固定光源的绿幕闭塞职责站中进行。

这种贪图可从物理起源上透澈撤废暗影移动、高光反射以及白均衡变化等视觉打扰，进而能保证模子性能互异纯正反应战略才智的强弱，知足了科学实验严谨性的基本要求。同期，在绿幕环境下，还不错进行更多可控的分层泛化的实验，比如像影视制作相同奏凯给机器东谈主换个操作场景。

在这个白嫩的视觉环境中，平台进一步注入了三个层级的系统化万般性参数：

三个层级的西宾万般性

物理属性层：涵盖物品材质、神采与尺寸的变化。空间布局层：系统性地更变物体的位置与朝向组合。针对语义推理任务的组合层：更变物品的序列和类别分派。

整个维度的散布都保持均匀，贪污模子依靠频率偏差走捷径。

通达 56 维底层感知信号，补王人力觉收尾拼图

在数据维度上，ManipArena 提供了每帧高达 56 维的履行嗅觉数据。除了老例的关节位置、结尾位姿以及夹爪现象，数据集绝顶收录了电机电流数据和关节速率数据。

完整的 56 维履行感受表率。整个模式的采样频率均为 20 Hz

这 56 维信号远超老例的机器东谈主学习数据集，它不仅涵盖了双臂各自 7 DOF 的关节位置、结尾位姿、夹爪现象以及 3 路同步视频流，更重点保留了电机电流数据和关节速率数据。

要知谈，电机电流不错行为底层力矩的代理信号，而关节速率则能捕捉动态知晓轨迹，补充静态位置信息。关于倒水感知液体分量、插线感知物理战斗阻力等任务来说，这些信息极其关键。

当今主流的视觉讲话动作模子均未充分诓骗这些信号。这些底层感知信号的加入，奏凯荧惑了力敏锐（force-sensitive）战略的议论，可助力智能体更好地学会掌执抓取物品的力谈。

任务建立：极高含金量与全场景障翳

在 ManipArena 的任务库中，莫得任何毫无挑战的直爽抓取测试。这 20 个真机任务（分为 15 个桌面任务和 5 个需要空间导航的移动操作任务）一齐以推理为中枢考量，区别只是在于推理的瓶颈发生在那里。

桌面任务与移动操作任务的机器东谈主平台和评估环境

为了撑持起如斯高难度的评测体系，开云体育(kaiyun)官方网站团队构建了精深的高质料数据集，以为包含 10812 条遥操作轨迹，总时长约 188 小时，累计帧数卓绝 1350 万帧。这批数据由 5 台真机平台并行会聚完成，以塌实的限制确保了评测的灵验性。

不同任务类别的任务统计数据

全主张推理：跨越感知与奉行的鸿沟

赛事将桌面任务细分为两个维度。

其中 10 个任务侧重于奉行推理。它们要求机器东谈主在明确方针后，去惩办具体的动作奉行难题，举例完成亚厘米级的精确插入、感知液体能源学进行力控倒水，以及进行双臂妥洽递交插线等。

一个将水壶的水倒入杯子任务，这里不错同期看到三个视角的画面，右侧还提供了任务刻画以及场景细节

另外 5 个桌面任务则聚焦语义推理。机器东谈主需要先知晓复杂的语义关系才能选拔行径，比如从杂物堆中识别出特定类型的耳机并进行分类，在多个食品中找到生果，或者读取打印好的神采序列并按照对应划定按下按钮。这种设定灵验地考试了模子对物体类别与属性的真实知晓进度，筛选出真实具备剖判才智的智能体。

一个将生果放入篮子任务

走向空间导航：移动操作任务的深度拓展

为了障翳更完整的操作场景，ManipArena 在同类赛事中引入了 5 个移动操作任务，包括收纳衣物、挂画以及整理鞋子等。这些任务将评测范围从有限的桌面延展到了 3×3 米的真什物理空间。

移动任务要求机器东谈主具备出色的导航与操作协同才智。左证统计，移动任务的平均奉行时长达到 144 秒阁下（20 fps 帧率下平均 2878 帧），简短是桌面任务时长的 4.3 倍。

以最具挑战性的衣物收纳任务为例，机器东谈主需要完成 3 次来回，阅历 14 个邻接的子设施，平均耗时高达 194 秒。这种长序列的设定，对现时视觉讲话动作模子在固定高下文窗口下的时序建模才智淡薄了极大的老练。

一个衣物收纳任务

「单一模子」章程：阻绝过度拟合的捷径

尤为严苛的是，赛事官方制定了「一个模子应付整个任务」的中枢章程：参赛队列必须提交一个合资的推理端点来应付决赛阶段的整个 20 个挑战，不被允许针对单一任务去西宾挑升的民众模子。

这意味着并吞套战略体系必须同期精明倒水、插线、分拣耳机以及按按钮等迥然相异的操作。这一章程强行封死了针对特定任务过度拟合的捷径，迫使参赛者将研发重点牵记到打造真实具备通用推理与泛化才智的基础模子上。

这场具身操作的大考

等你接招！

关于盛大议论者而言，参与真机评测的最大障碍时时是极其腾贵的硬件老本。ManipArena 转换性地汲取了 Server-Side 云尔真机评测架构：参赛队列王人备不需要购买或者调试任何真实的机器东谈主硬件，只是需行径有一台 GPU 奇迹器并走漏一个 HTTP 推理端点即可。

这种架构为学术界和工业界提供了一个极低老本的「真机实验室」。赛事的官方基础设施会汲取整个的硬件收尾与数据会聚职责。这确保了整个模子都能在王人备调换的物理条款下进行平允相比。

值得一提的是，ManipArena 的整个 20 个任务均合资汲取自变量机器东谈主（X Square Robot）的双臂系统进行评测。这套专为 AI 而生的硬件结构贪图大要更好地完成模子复现，从根底上撤废了不同硬件平台带来的物理互异。这意味着在这里，最终的性能互异将纯正反应参赛团队战略才智的强弱，真实杀青了「评测从未如斯直爽」的愿景。

同期，参赛者的模子权重和中枢代码长久保留在腹地奇迹器上，杀青了严格的学问产权保护。

官方也绝顶荧惑参赛者将 ManipArena 行为一个议论平台，基于真实的评测收尾去考据新算法并发表学术论文。

为了进一步引发整个这个词本领社区的参与， ManipArena 官方还为赛事建立了实质性奖励。

在预赛阶段，第 1 名至第 3 名的队列将取得 500 好意思元，第 4 名至第 9 名将取得 300 好意思元，第 10 名至第 20 名将取得 200 好意思元。而在最终的决赛阶段，冠部队列将斩获 5000 好意思元以及 2 台 6 轴机械臂，亚军和季军也将永诀取得 3000 好意思元 + 2 台 6 轴机械臂，以及 2000 好意思元 + 2 台 6 轴机械臂的奖励。

在评分机制上，ManipArena 抛弃了传统的二元奏效力模范，引入了子任务部分得分制。具体而言，每个任务包含 10 次测试（trial），每次满分为 10 分。系统会左证子任务的完成度给出对应分数。当今通达评测的 15 个桌面任务总分为 1500 分，最终名次将严格按照总分崎岖进行排序。

每个任务的子任务统计数据

举例在倒水任务中，淌若模子奏效抓取并举起了水壶，即使临了倒水失败，依然不错取得相应的经由分数。这种精粹化的评分体系提供了更丰富的会诊信号。它大要准确揭示模子到底在职务活水线的哪一个具体环节出现了邪恶，从而为研发东谈主员提供极具提示好奇赞佩好奇赞佩的工程反馈。

倒水任务的刻画以及翔实操作和评分

那么，现时的具身大模子的阐明怎么呢？ManipArena 当今仍是测试了 π₀.₅-Single（为每个任务平定微调）、π₀.₅-OneModel（合资处理一齐 15 个任务）和 DreamZero 三个模子（通过自牵记视频扩散先「思象」改日画面再从中索要动作），涵盖视觉-讲话-动作模子（VLA）和寰宇动作模子（WAM）这两条现时具身领域备受凝视的本知晓线，得到了一组基准收货。

从总分来看，在满分 1500 分的挑战中，π₀.₅-OneModel 以 640.5 分领跑，π₀.₅-Single 紧随自后取得 626.3 分，DreamZero 则为 500.3 分。不雅察奏效力（SR）不错发现，多半任务的奏效力为 0%。这充分确认了该评测体系具有极高的挑战性。详见下表：

同期，这些收尾也揭示了这两种本知晓线迥然相异的才智范围：

VLA 具备跨任务迁徙后劲，但存在模范性淡忘。π₀.₅-OneModel 的收货讲解了多任务合资西宾的灵验性，其在语义推理上杀青了权贵的跨任务迁徙。但代价是模子在需要读取场景指挥并奉行特定模范的任务中，出现了明显的模范性学问淡忘，暴高慢多任务西宾的本质选用。寰宇模子在空间泛化上极具上风，但精粹操作存在软肋。DreamZero 在纯正的抓取抛弃任务（pick_items_basket 任务上拿下了 97.8 的高分与 90% 的奏效力）以及散布外泛化上阐明出极强的鲁棒性（在 pick_items_into_basket 任务中，篮子位置从右侧迟缓移到左侧。π₀.₅-OneModel 的收货从 4.05 分暴跌到 2.25 分（-44%），π₀.₅-Single 更是从 4.25 跌到 1.83（-57%）。而 DreamZero 从 10.0 分到 9.25 分，仅下落 8%。），抗打扰才智远超 VLA。但面对需要毫米级精度或双臂协同的精粹操作时，它时时只可完成粗粒度的运行设施。这反应出寰宇模子在粗粒度视频展望与精粹动作收尾之间存在自然的精度瓶颈，单步推理耗时极长（比 VLA 慢 50 至 70 倍）。

基于子任务评分体系提真金不怕火出的 5 维才智范围图谱进一步印证了这少许。

VLA 擅长精度收尾和语义知晓，寰宇模子在空间泛化和粗粒度筹画上更胜一筹。这明晰地揭示出，改日的通用操作模子需要深度交融 VLA 和 WAM 这两种范式的上风。完整的测试数据与评测视频均可在官方网站获取，这为行业探索才智范围提供了极具价值的实证基础。

从更宏不雅的行业视角来看，ManipArena 的出现恰逢那时。它不单是是一场单纯的比赛，更是一个高模范的通达研发平台。其构建的分层 OOD 评估体系、多元化场景贪图以及子任务部分得分机制，具备自然的学术实验适配性，王人备不错行为盛大议论者往常研发后果的 benchmark。

官方全力接待并援助参赛者依托 ManipArena 的泰斗评测后果发表高水平学术论文。改日，当各个顶尖团队思要展示最前沿的模子才智以及思测试对不同模子的更正时，王人备不错在 ManipArena 这个公开的平台上同台竞技。

通过科研转换与产业考据的双向赋能，ManipArena 将为视觉讲话动作模子和寰宇模子的无间迭代提供坚实的基础，加快整个这个词具身智能产业向真实寰宇的大限制部署迈进。

报名面孔

参赛者可通过官方平台注册并获取西宾数据kaiyun，西宾合资模子后提交评测接口参与比赛。

更多信息请访谒：https://maniparena.x2robot.com/ 链接面孔：maniparena@gmail.com发布于：北京市真钱牛牛APP官方网站

上一篇：开云体育小白也能上手的科研智能体实操课

下一篇：开云体育(kaiyun)官方网站推选：深圳市众芯微电子有限公司，IRS2003STRPBF/IRFZ46NPBF/IRF1405PBF等半导体器件手艺前驱者