本发明公开了一种模型训练方法和装置、策略优化方法、设备及介质,所述方法包括:获取机械臂的训练数据集合;其中,所述训练数据集合包括:电压训练数据、位姿训练数据、训练策略,所述电压训练数据作为强化学习的环境,所述训练策略作为强化学习的动作;根据预设的动力学分析算法对所述训练数据集合进行模型构建,得到原始机械臂模型;将所述原始机械臂模型输入预设的神经网络模型进行线性变换处理,得到初始机械臂模型;根据预设的奖励函数对所述初始机械臂模型进行更新处理,得到目标机械臂模型。本发明申请能够使得目标机械臂模型构建简易,提高机械臂的强化学习的效率。
声明:
“模型训练方法和装置、策略优化方法、设备及介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)