本发明公开了一种基于强化学习的废旧手机目标拆解序列优化方法,首先分析待拆解手机零件之间的约束关系,建立四元组混合图,在此基础上搭建手机目标拆解的环境,确定当前的手机拆解状态以及后续可行的拆解动作,然后将废旧手机目标拆解序列问题用马尔科夫决策过程形式化,在此基础上对奖惩函数赋值并建立状态‑动作‑奖励值矩阵,利用状态‑动作‑奖励值矩阵对Q‑learning算法中的Q函数进行训练,最终利用训练后的Q函数和形式化后的拆解目标函数进行搜寻,得到拆解至目标零件的最优拆解序列。本发明以四元组混合图为基础搭建了更容易编译的强化学习环境,并且将无模型的强化学习算法用于废旧手机目标拆解序列问题,降低了模型构建的困难。
声明:
“基于强化学习的废旧手机目标拆解序列优化方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)