銀河通用聯合北京智源人工智能研究院(BAAI)及北京大學和香港大學研究人員,研發出首個全面泛化的端到端具身抓取基礎大模型 GraspVLA。其預訓練完全基于合成大數據,訓練數據達到了有史以來最大的數據體量——十億幀「視覺-語言-動作」對,掌握泛化閉環抓取能力、達成基礎模型;預訓練后,模型可直接 Sim2Real在未見過的、千變萬化的真實場景和物體上零樣本測試,全球首次全面展現了七大卓越的泛化能力,滿足大多數產品的需求;而針對特別需求,后訓練僅需小樣本學習即可遷移基礎能力到特定場景,維持高泛化性的同時形成符合產品需求的專業技能。
針對零售商超場景,銀河通用自行研發的GroceryVLA采用端到端模型架構,突破傳統“視覺+軌跡規劃”方案,自主識別并完成商品抓取。模型無需路徑規劃,即可在緊密排布、涵蓋數十種 SKU的真實貨架上穩定作業,無需針對每種商品包裝單獨調參,支持軟包裝(如袋裝面包、鹵蛋)、硬盒、塑料瓶、透明果凍杯等多樣形態商品的精準抓取,實現了跨品類的統一抓取策略。無論是剛性包裝還是柔性物體,都能精準取放,滿足全品類零售場景需求,可以直接泛化至全新環境。并在抓取過程中,具備實時閉環策略調整能力,能夠快速處理現場人為干擾(如貨物被移走/推擠),任務連續性達99%以上,遠超行業平均水平。