Unitree G1：语音驱动实时任意动作生成

Unitree Robotics发布了G1人形机器人的最新演示：机器人根据语音指令实时执行物理动作。

视频为一镜到底，现场收音，没有后期剪辑，也没有预编程的动作序列。操作员发出语音指令，G1的AI系统即时将其转化为运动。Unitree指出，由于动作由AI实时自主生成，可能存在轻微延迟，动作流畅度也会有所降低。

这与该公司此前的演示有本质区别。早期演示主要基于模仿学习（机器人观察人类动作并复现）或通过强化学习实现的高难度动作——如后空翻和街舞。语音驱动的任意动作生成意味着不同的系统架构：系统需要理解自然语言、生成运动规划并执行——整个反馈回路必须足够快，使动作看起来连贯。

这一演示与Unitree在语言模型集成方面的整体推进一致。2026年3月，公司开源了UnifoLM-VLA-0——基于Qwen2.5-VL-7B的视觉-语言-动作模型，为G1提供了覆盖12类任务的可部署操作基线。最新固件（v3.2+）也在G1 EDU版本的Jetson Orin上增加了初步的大语言模型支持。

背景数据：G1身高1.32米，重35公斤，顶配版本拥有最多43个自由度。2025年Unitree出货超过5,500台人形机器人——超过所有美国竞争对手的总和——2026年目标为10,000至20,000台。公司A股IPO预计于年中完成，估值约5.8亿美元。