2026年6月！北大联合研究揭示AI生成人体动作难题

haihua0318 2026-06-27 00:07:03 5 0

一个隐藏了十年的编码陷阱

你可曾思索过, 在AI生成一个奔跑动作之际, 它全然不知晓你的脚究竟何时落地? 这并非是技术方面存在的缺陷, 而是由编码方式所埋下的系统性盲点。在2026年最新的研究中发现, 传统的单流编码将关节姿态以及运动速度混合在一起进行处理, 致使模型始终都学不会物理细节——所生成的动作在前半部分尚可, 后半部分就开始出现身体漂移、关节错位的情况, 仿佛是在冰面上跳舞那般失控。

频率分析：发现不对称的起点

为什么5个成分就能覆盖93%的姿态信息

研究团队针对每帧动作数据的各个维度, 开展了细致入微的频谱分析, 运用“低频比例”这一指标, 对信号平滑度予以量化。其结果, 着实令人大为震惊: 用于描述关节位置的信号, 呈现出极为“低频”之态, 恰似一首曲子当中的舒缓旋律那般, 仅仅借助5个低频成分, 便能够涵盖整个信号93%的能量。这所蕴含的意义在于, 姿态信息呈现出高度集中之状况, 具备巨大的压缩空间。

速度信号却需要25个成分才能覆盖80%

然而, 用于描述关节移动速度的信号, 其呈现出的状态是完全相反的, 该信号所具备的能量, 分散于更为宽广的频率范围之中。若要达成覆盖80%的物理流能量这一目标, 起码需要25个频率成分, 此数量是姿态信号所需频率成分数量的5倍。实际上, 这两种信号在本质层面, 属于两套不同的语言信息, 当前运用同一本字典去进行翻译, 最终必然会偏向更具“主流”性质的姿态一方。

双流编码：把两套语言分开翻译

基础流保留5个低频成分，物理流保留25个

DSFT方案的核心要点在于, 不再将各方面进行混淆处理, 基础流仅仅留存下最先的5个低频成分, 并专门用以保存姿态结构, 物理流则保留前25个成分, 从而完整地覆盖速度的高频细节, 在压缩结束之后, 它们各自经由独立的BPE编码器, 进而生成基础词元和物理词元这两套序列。

双流方案的rFID从0.9461骤降至0.1868

更为重要的是效果方面的对比，一项衡量着生成动作分布跟真实动作分布之间差异的rFID指标显现在此时, 单流方案所对应的该指标数值为0.9461, 与之形成鲜明对比的是, 双流方案的此项数值径直下降到了0.1868, 实现了5倍的提升幅度。单流编码的情况是, 因高频信息出现丢失现象, 致使生成的动作分布已然严重地偏离了真实数据, 然而双流独立编码却完整地保留住了两类信号各自的统计特性, 出现这样的对比结果。

两步生成：先定姿态再补物理细节

注意力机制让物理流回头看姿态词元

让危化品员工掌握五懂五会__人体动作示范书

倘若物理信号是依存姿态基础, 脚部如何移动, 取决于腿部所处哪种姿态, 那么生成顺序必然得进行分层。模型先是生成基础流词元, 之后再去生成物理流词元。当物理流进行生成时, 能借着注意力机制“回头瞧”所有已然生成的姿态词元, 从而做出更为准确的物理预测。

扩展Qwen3.5词汇表新增8195个运动专用词元

研究群体将原本Qwen3.5的二四八万三千二百个词汇扩充至二十五万六千五百一十五个, 新增有四千零九十六个基础流词元、四千零九十六个物理流词元, 再加上开始、分隔、结束这三个结构标记。每一个动作样本被表征成一个统一序列: 开始标记到基础流词元到分隔标记到物理流词元到结束标记。

两阶段训练：冻结大模型只练新技能

第一阶段500步让模型认识新词元

训练不是一下子就能完成的, 第一阶段称作“词元嵌入预热”, 需冻结Qwen3.5所有层的参数, 仅训练新增的8,195个词元嵌入, 运用优化器跑500步, 以此让模型明白这些新词元大致处于怎样的语义空间, 这如同先教导一个人认识新汉字, 接着教他利用这些字撰写文章。

第二阶段用LoRA适配同时保持原始权重冻结

依据23384条带有文字描述的动作数据, 在第二阶段开展纯文本驱动式训练。全过程里, Qwen3.5的原始权重一直维持冻结状态, 既存留着预训练语言模型的通用解读能力, 又借助LoRA适配促使其学会运动从而生成全新技能。另外存在一个生成方面的约束点, 用以防止两种流词元相互混杂在一起, 保证基础姿态先于物理细节出现。

性能实测：多样性得分9.548逼近真实数据9.503

场景图像辅助下对比方法全面落败

在标准测试集当中, DSFT于多样性指标方面, 获取到了把真实数据分布最靠近的得分9.548, 其中真实数据的值是9.503；在多模态性这一方面, 达到了2.821, 此为所有生成方法里最高的。需要特别提及的是, DSFT还另外运用了场景图像当作输入条件, 然而对比方法均仅仅使用文字描述——在条件更为丰富的情形下效果更佳, 表明场景视觉信息的确能够助力生成更契合实际情境的动作。

真实机器人跑起来验证动作生成无误

测试了三个示例的研究团队, 是在真实机器人之上进行的测试, 且全部成功完成了文字所描述的动作。那这就意味着, 整套技术链路, 不但在数据方面呈现出良好的状态, 而且在实际硬件方面也是能够顺畅运行的。有着更少的脚滑现象, 有着更丰富多样的动作变化, 有着更契合场景的整体表现, 这些皆是双流编码所带来的直接益处。

现如今, 我满心好奇, 你认为在AI生成动作期间, 最令你记忆深刻的“翻车”情景是啥, 是行走之际脚模进地面, 还是跑步之时身体陡然旋转一百八十度, 欢迎于评论区域分享你所目睹的AI动作翻车的著名场景, 点赞并收藏此文本, 下次碰见朋友探讨AI时, 你便能告知他们真正的魔鬼并非存在于算法当中, 而是在字典里面?

询问: 于你所见识过的, 由AI产出的动作之中, 最为离奇的物理错误是怎样的情况呢? 敬请在评论区域进行吐槽！