清华腾讯联手让机器人“读懂“人类动作

张

张建站

2026/4/22 8:02:20

10分钟阅读

这项研究由清华大学深圳国际研究生院、腾讯机器人实验室Tencent Robotics X和鹏城实验室联合完成论文以arXiv预印本形式发布于2026年4月10日编号为arXiv:2604.08921。感兴趣的读者可通过该编号在arXiv平台检索完整论文。**机器人想帮你却找不准你的手在哪里**假设你坐在轮椅上一台护理机器人正要伸手扶你站起来。它的摄像头就装在自己身上距离你只有不到一米拍到的画面里满是你的上半身——但它能否准确判断出你的腋下、肩膀此刻在空间中的精确位置差了十厘米它可能会戳到你差了二十厘米可能根本够不着。这个看似简单的问题在机器人技术领域困扰了研究人员很长时间。正是为了解决这一难题来自清华大学、腾讯机器人实验室和鹏城实验室的研究团队开发了一个名为TAIHRI的系统。这是业内首个专门为近距离人机交互场景设计的视觉语言模型——换句话说它不仅能看图还能理解人说的话并把两者结合起来精准定位人体上那些对当前任务最关键的位置。研究团队将整个问题归结为一句话机器人不需要了解你全身每一块肌肉的形状它只需要知道在做这件事的时候最重要的那几个点在哪里。这个思路看起来朴素但实现起来却需要一套全新的技术方案。---一、为什么已有的技术不够用在理解TAIHRI之前有必要先说清楚现有方法面临的困境。过去十多年里研究人员开发了许多从单张照片重建人体姿态的技术比如著名的SMPL系列人体模型以及基于它的各种估计方法。这些技术的共同目标是给定一张照片输出整个人体所有关节的三维坐标。听起来很全面但它们几乎无一例外地使用了一种叫做根坐标系的评估方式——简单说就是以人体的骨盆作为原点描述各个关节相对于骨盆的位置。这种方式在拍全身照的场景下很好用就像你在相册里看一张集体合影知道每个人的大致姿势就够了。然而机器人面对的场景完全不同它的摄像头贴着自己的身体距离被服务的人往往不到两米看到的画面里可能只有对方的上半身甚至局部肢体。在这种情况下这个人的左手腕相对于他骨盆的位置这个信息对机器人几乎没有意义——机器人需要的是左手腕此刻在我机器人的摄像头坐标系下距离我多远、在哪个方向。近些年有一些方法开始尝试引入摄像头的内参一种描述摄像头光学特性的参数类似于镜头的规格说明书从而把姿态估计的结果换算到真实的三维空间里。这是一大进步但新的问题随之出现在近距离拍摄时画面里的人往往是被截断的——你只能看到上半身或者只有一只手臂。传统方法依赖对完整人体的理解来推断全身位置一旦看不到完整的人估计精度就会急剧下降而且这种误差偏偏会集中体现在那些离躯干最远的部位比如手腕、脚踝——而这些恰好是机器人最需要精确定位的地方。研究团队在论文中展示了一个令人印象深刻的对比案例当一个人站在离机器人约两米处时多个当前最先进的方法对其手腕位置的估计误差高达几百毫米有的甚至超过了九百毫米——将近一米的误差对于任何需要实际接触的任务都是不可接受的。---二、 TAIHRI的核心思路把问题想小把精度做高TAIHRI的解题思路可以用一个日常场景来理解。假设你是一位厨师有人告诉你今天要做一道红烧肉你的注意力会自然集中在猪肉、酱油、糖和葱姜这几种核心食材上而不是去盘点整个厨房里所有的调料。TAIHRI的任务感知逻辑与此相似——用户或机器人控制系统告诉它要握手它就把注意力集中到右手腕说要搀扶它就去找腋下和肩膀。为了实现这一目标TAIHRI被构建为一个视觉语言模型它的底座来自阿里巴巴开源的Qwen3-VL参数量分别为2亿和4亿两个版本。这类模型的特点是能够同时处理图像和文字并以预测下一个词的方式逐步生成回答——就像聊天机器人回答你的问题一样只不过TAIHRI输出的不是文字而是一系列代表三维空间坐标的数字标记。研究团队在这个框架上做了几项关键设计缺一不可。第一项是离散化交互空间。直接预测精确的三维坐标对语言模型来说很困难因为这些模型天生擅长处理离散的符号比如文字而不是连续的数值。研究团队的解决方案是把机器人前方的空间切成一个个小格子就像把一个立方体蛋糕切成一千乘一千乘一千的小方块每个方块用一个编号来代表。宽度方向、高度方向、深度方向各分一千格任何一个位置都可以用三个零到九百九十九之间的整数来精确描述。这样预测位置就变成了从词汇表里选词的问题与语言模型的工作方式天然契合。第二项是统一焦距处理。不同摄像头有不同的焦距这个参数决定了画面的视野宽窄和透视关系直接用不同焦距的图片训练模型会让模型很困惑。研究团队采用了一个聪明的处理方式把所有输入图像统一缩放到对应焦距为一千的尺寸就像把不同比例尺的地图统一换算成同一个比例尺然后再进行分析。与此同时他们用随机裁剪的数据增强方式来模拟不同主点偏移的情况使模型能够适应各种摄像头配置。第三项也是最有新意的一项是先看二维、再想三维的推理链设计。这个设计受到思维链技术的启发——在人工智能领域让模型在给出最终答案之前先写出推理过程往往能显著提升准确率就像数学考试时要求写出解题步骤而不是直接填答案。TAIHRI在预测关节的三维坐标之前会先预测它们在图像平面上的二维像素位置然后再根据这些二维位置和空间深度关系推算出三维坐标。这个设计非常合理从一张照片里找到一个人的手腕在图像上的大概位置二维定位比直接猜它距离摄像头有多远要容易得多有了准确的二维位置后再结合已知的摄像头参数推算深度精度自然大幅提升。---三、训练用的数据从零搭建一个近距离互动图书馆再好的方法也需要数据来训练。然而现有的人体姿态数据集几乎全是从远处拍摄的全身照完全不符合机器人近距离服务场景的需求。为此研究团队专门构建了一个名为CloseHRI的数据集。整个制作过程分为几个阶段有点像用积木搭建一个虚拟的人机交互训练场。第一步团队从AMASS这个大型动作捕捉数据库里抽取了大量真实人体动作序列然后用Blender一个专业的三维建模软件把这些动作渲染成法线图——法线图是一种特殊的图像格式记录的是物体表面每个点的朝向看起来像是五颜六色的人形轮廓可以精确描述人体的形态而不带任何纹理细节。在渲染时他们把虚拟摄像机放置在距离人体零点五到三米的位置高度和朝向随机变化模拟真实机器人上摄像头的各种可能角度。第二步以这些法线图为控制信号团队使用了SDXL一款高质量的人工智能图像生成模型配合各种文字描述比如一个穿红色衬衫的人站在客厅里来生成看起来真实自然的照片。这些生成的照片背景各异、人物衣着多样但身体姿态和与摄像机的空间关系是完全受控的。第三步是质量过滤。用SAM3一种图像分割工具检查生成图像里人体区域与预期形态的重合程度只保留重合度IoU超过0.9的高质量图像再用VitPose一种二维姿态估计工具重新检测图像中的关节点位置只保留检测误差在十五像素以内的样本。经过这套流程CloseHRI最终包含超过一百万张图像。加上额外引入的BEDLAMv1、BEDLAMv2和PDhuman等数据集中的近距离样本过滤掉人体平均深度超过三米的样本最终训练集约有一百二十万张图像。研究团队还专门为训练准备了一个包含六千多条不同表述方式的交互指令词库覆盖了帮人从轮椅上站起来、给人按摩肩膀、和人握手等各种真实场景的描述。---四、强化学习让模型从及格进化到精准TAIHRI的训练分两个阶段完成可以用学开车来类比。第一阶段是教练示范、学员模仿的有监督训练SFT阶段给模型看大量图片同时告诉它正确答案应该是什么让它学会基本的推理模式。这一阶段结束后模型已经能给出大致合理的结果但还不够精准。第二阶段是自己练习、根据反馈调整的强化学习RFT阶段模型对同一张图片生成多个不同的预测结果然后根据这些结果与正确答案的差距获得奖励分数得分高的预测策略会被强化得分低的会被削弱。这个过程类似于一个棋手通过大量对弈来磨练棋感——不是死记硬背棋谱而是通过反馈逐渐形成更好的判断。具体来说研究团队使用了一种叫做GRPO的强化学习算法。奖励函数的设计是一大亮点它综合了两种信号一是用胡伯损失一种对极端误差不那么敏感的数学工具就像裁判打分时会去掉最高分和最低分取中间值衡量所有可见关节的平均预测误差二是统计有多少关节的误差在一个预设阈值以内类似命中率。两者加权组合后形成最终奖励既关注整体精度也关注极端失误的频率。这个设计有一个重要细节研究团队发现如果在强化学习阶段改用最简单的均方误差MSE作为损失函数性能会急剧下降——均方误差对极端误差的惩罚过重会导致模型的梯度更新出现偏差就像教练对学员每一个小错误都严厉批评反而让学员越来越紧张、越练越差。改用胡伯损失和命中率的组合后模型的收敛更加稳定最终精度也显著提升。---五、实验结果数字背后的真实差距研究团队在两个独立的测试数据集上验证了TAIHRI的性能分别是Harmony4D-Egocentric包含6389帧近距离人与人互动的画面用20台外置摄像机的多视角三角测量获取精确三维标注和EgoBody从中筛选了5000帧三米以内的近距离样本。评估指标是全局坐标系下的平均关节位置误差G-MPJPE单位是毫米这个指标不做任何对齐或修正直接衡量预测位置与真实位置在三维空间中的欧氏距离——对机器人实际应用来说这是最直接也最严苛的评估标准。为了全面考察模型的任务感知能力测试设计了四种不同的关节组合上肢关节双侧肩膀和双侧肘部、下肢关节双侧髋部和双侧膝盖、左侧上肢左肩、左肘、左腕和右侧上肢右肩、右肘、右腕。在Harmony4D数据集上TAIHRI的4B版本在上肢关节的误差为93.83毫米而目前最优秀的对比方法SAM 3D Body基于DINOv3主干网络的误差为124.91毫米CameraHMR的误差更是高达167.50毫米。在左侧上肢这一项TAIHRI达到107.81毫米而SAM 3D Body为143.13毫米PromptHMR为158.25毫米。这些差距在实际操作中意味着什么简单说TAIHRI的误差大约相当于一根手指的宽度而部分竞争方法的误差超过了一个拳头的大小。在EgoBody数据集上TAIHRI同样领先——上肢误差为75.77毫米比SAM 3D Body的89.87毫米低了约16%比CameraHMR的94.92毫米低了约20%。与通用大模型的比较同样说明问题。研究团队抽取了50个典型样本让GPT-5.2、Qwen3-VL-235B-A22B-Instruct和Gemini-2.5 Pro也来做同样的测试。GPT-5.2根本不支持从单张图片预测三维坐标Qwen3-VL虽然能给出数字但误差高达1298.3毫米基本没有实用价值Gemini-2.5 Pro表现最好但误差仍有436.9毫米是TAIHRI97.2毫米的四倍多。此外研究团队还测试了一种先检测二维关节点再用深度估计模型推算三维坐标的方案。具体做法是先用VitPose检测图像中的关节点位置然后分别用Depth Anything 3和DepthLM这两种深度估计模型读取对应像素的深度值再反投影到三维空间。尽管这类方法在通用场景下表现不错但在近距离人机交互场景中误差分别为352.2毫米和282.3毫米远逊于TAIHRI。这是因为深度估计模型对图像中每个像素独立预测深度并不理解人体的结构约束遇到关节被遮挡或位于人体内部的情况时估计结果就会出现系统性偏差。---六、消融实验拆开来看哪块功劳最大研究团队还做了一系列拆零件的对比实验逐个验证设计中每个环节的必要性。关于摄像头内参的处理方式实验显示如果完全不给模型提供摄像头参数误差在上肢关节上从93.83毫米猛增到425.13毫米如果改用一种可学习的射线嵌入让模型自己从数据中学习如何处理不同摄像头参数来代替研究团队设计的焦距统一化方案误差降至380.29毫米有所改善但仍远不如原方案。这说明把摄像头参数以统一焦距图像缩放方式注入模型的设计是精准定位的关键基础。关于二维推理环节如果跳过二维关节预测、直接让模型输出三维坐标上肢误差从93.83毫米升至126.67毫米。这验证了先定位二维再推算三维的思路确实有效——二维预测为三维推断提供了必要的视觉锚点。关于强化学习阶段去掉这一阶段后上肢误差从93.83毫米升至101.82毫米。单看差距似乎不大但在实际机器人操作中七八毫米的精度提升足以区分稳健完成任务和偶尔失误的差距。而一旦改用均方误差作为强化学习的奖励信号误差飙升至795.24毫米比完全不做强化学习还糟糕得多——这一现象有力印证了奖励函数设计的重要性。---七、实际应用从实验室到真实机器人研究的最终价值要在现实中接受检验。研究团队将TAIHRI部署在一台双臂机器人上搭配安装在机器人身上的Orbbec Femto Bolt摄像头720p分辨率开发了一套完整的闭环控制流程。整个流程的运作方式是用户发出一条自然语言指令比如和他握手摄像头拍摄当前画面TAIHRI结合画面和指令输出任务关键的三维关节坐标这些坐标被传递给运动规划系统通过逆运动学计算一种根据目标位置反推各关节应该转到什么角度的计算方法控制机器人的手臂运动。整个过程形成感知-行动的闭环机器人可以根据人的动态变化持续更新运动目标。研究团队用这套系统演示了握手、肩部按摩等多种交互任务结果显示TAIHRI提供的定位结果足够稳定机器人能够可靠地完成这些需要精确接触的动作。TAIHRI还支持另一个有用的下游任务全局坐标系下的人体网格恢复。传统人体重建方法给出的是以骨盆为原点的相对姿态无法直接告诉机器人这个人的整个身体在空间中的绝对位置。TAIHRI预测的三维关节点可以作为锚点将传统方法重建的人体网格平移旋转到正确的全局位置上。实验显示使用一个到三个锚点都能显著改善对齐精度而且使用右臂关键点作为锚点时对右手腕位置的估计误差从一百多毫米降低到十几毫米——降幅超过了90%。---说到底TAIHRI解决的是一个很具体的工程问题让服务机器人在近距离接触人的时候能够更准确地判断该去哪里、该够向何处。这个问题不像机器人能不能思考那样哲学也不像机器人会不会取代人类那样宏大但它是一切实用人机交互的基础——没有准确的空间感知机器人再聪明也无从下手。这项研究的贡献在于把视觉语言模型这种近年大热的技术方向与精准三维定位这个传统机器人感知问题结合在了一起并且给出了一套完整的工程方案数据怎么来、空间怎么表示、推理怎么设计、训练怎么优化每个环节都有针对性的处理。代码已在GitHub的Tencent/TAIHRI仓库开放。当然这套系统目前也有其局限它假定摄像头的内参是已知的对多人同时出现在画面中的场景支持有限在极度遮挡的情况下比如人完全背对镜头仍然存在较大误差。这些都是未来工作可以深入的方向。归根结底机器人真正融入日常生活还有很长的路要走但TAIHRI代表的这类任务感知精准定位的思路很可能是这条路上不可绕过的一个关键节点。对这一领域有兴趣的读者可以通过arXiv编号2604.08921查阅完整论文。---QAQ1TAIHRI和普通的人体姿态估计技术有什么区别A普通人体姿态估计技术通常是估计整个人体在以骨盆为原点的相对坐标系下的姿态主要关注全身姿势是否准确。TAIHRI的不同之处在于它直接在摄像头的真实三维空间里定位关节点而且可以根据任务指令比如握手、扶起只关注最关键的几个关节特别适合机器人近距离与人接触的场景。Q2TAIHRI需要什么样的硬件才能运行A论文中的训练实验在4块NVIDIA H20 GPU上完成模型本身有2亿和4亿参数两个版本。实际部署时搭配了Orbbec Femto Bolt摄像头。模型的推理对算力的具体要求论文中未详细说明但基于Qwen3-VL的架构配备中等水平推理GPU的机器人系统应该可以支持。Q3CloseHRI数据集是真实拍摄的吗ACloseHRI数据集主要是合成生成的不是真实拍摄的。团队先从真实动作捕捉数据库中获取人体动作再用三维渲染软件生成人体法线图最后用SDXL图像生成模型配合文字描述合成看起来逼真的照片。所有生成图像都经过严格质量过滤最终保留超过一百万张高质量样本用于训练。