本发明公开了一种序列拨推采样归置策略迭代生成学习方法,用于在有限的工作空间、丰富的碰撞和高度耦合的情况下生成连续的推送动作,将随机分散在有限容器内的任意形状的物体自主归置,从而为未来的未知物体挤出尽可能多的空间,自主实现最大化装箱。本方法采用任务和运动规划思想,将任务学习抽象为一个两层问题。高层任务规划使用基于近端策略优化(PPO)的强化学习进行顺序推送决策。在底层运动规划中,采用传统的轨迹线性规划方法结合碰撞检测生成机器人推送操作。本方法能够以高效灵活的方式排列未知对象,同时将策略学习和机械臂控制解耦,从而具有更好的从仿真到现实世界的可移植性。
声明:
“序列拨推采样归置策略迭代生成学习方法及系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)