首页 > 科技 >正文

智元机器人再掀具身智能浪潮，全球首个ViLLA架构大模型GO-1正式开源

2025-09-24 15:11:00 来源：- 作者：-

9月23日，继今年1月AgiBot World具身智能百万真机数据集开源后，智元机器人正式宣布其通用具身基座大模型GO-1（Genie Operator-1）也在GitHub开源，成为全球首个采用Vision-Language-Latent-Action（ViLLA）架构、向全球开发者免费开放的通用具身智能模型，将降低具身智能的技术门槛，加速产业发展进程。

作为具身智能领域的重大技术突破，GO-1采用的ViLLA架构通过引入隐式动作标记，成功填补了图像-文本输入与机器人执行动作间的语义鸿沟。该架构采用三层协同设计：VLM多模态理解层基于InternVL-2B构建，可处理多视角视觉图像、力觉信号、语言输入等多模态信息，为系统提供卓越的场景感知和指令理解能力；Latent Planner隐式规划器通过预测隐式动作标记完成复杂任务的高层次理解和规划；Action Expert动作专家则依托扩散模型生成高频精准的连续动作序列，确保机器人执行精细操作。相较传统的VLA架构，ViLLA在动作理解与执行精度上实现质的提升。

此外，智元机器人专为具身智能场景打造了Genie Studio，作为一站式开发平台为开发者和合作伙伴提供全栈式解决方案。该平台提供从数据采集与管理、模型训练微调、仿真评测等全流程的支持，开箱即用的GO-1基座模型更是集成Video Training方案和统一训练框架，内置完整开发工具链，实现真机一键编译和部署，有效提升开发效率，加快具身智能技术的落地和应用。

在社区共建层面，GO-1虽然仅基于AgiBot G1机器人数据预训练，但已在松灵机器人、方舟机器人、Franka机械臂等不同本体上完成充分验证测试，展现出良好的可移植性。仿真环境测试中，其在Genie Sim和Libero等主流仿真平台均取得了领先的性能表现。在真机部署场景中，为满足用户多样化平台需求，GO-1模型特别集成通用LeRobot数据格式，确保非Genie本体的机器人也能完成数据采集、模型微调与部署。