Unitree Robotics发布了G1人形机器人的最新演示:机器人根据语音指令实时执行物理动作。
视频为一镜到底,现场收音,没有后期剪辑,也没有预编程的动作序列。操作员发出语音指令,G1的AI系统即时将其转化为运动。Unitree指出,由于动作由AI实时自主生成,可能存在轻微延迟,动作流畅度也会有所降低。
这与该公司此前的演示有本质区别。早期演示主要基于模仿学习(机器人观察人类动作并复现)或通过强化学习实现的高难度动作——如后空翻和街舞。语音驱动的任意动作生成意味着不同的系统架构:系统需要理解自然语言、生成运动规划并执行——整个反馈回路必须足够快,使动作看起来连贯。
这一演示与Unitree在语言模型集成方面的整体推进一致。2026年3月,公司开源了UnifoLM-VLA-0——基于Qwen2.5-VL-7B的视觉-语言-动作模型,为G1提供了覆盖12类任务的可部署操作基线。最新固件(v3.2+)也在G1 EDU版本的Jetson Orin上增加了初步的大语言模型支持。
背景数据:G1身高1.32米,重35公斤,顶配版本拥有最多43个自由度。2025年Unitree出货超过5,500台人形机器人——超过所有美国竞争对手的总和——2026年目标为10,000至20,000台。公司A股IPO预计于年中完成,估值约5.8亿美元。