本发明公开了一种基于强化学习的解决气体勘测问题的方法,包括如下步骤:S1:定义解决气体含量勘测问题需要的动作空间和状态空间,为actor‑演员角色和critic‑评论家角色分别建立神经网络来处理动作的生成和评价的反馈;S2:将初始动作传递给问题环境,得到对应的状态和动作结果的奖惩值,以及loss值,将loss值和奖惩值反馈给神经网络进行梯度下降处理得到下一步的动作;S3:将得到的状态(气体含量)进行气体勘测,平衡多种约束条件再次利用强化学习概率选择的能力去寻求最优解。本发明利用算法强大的学习能力和神经网络高运算速率的优势去解决气体勘测问题中寻找最优解问题,解决了传统遗传算法时间长,复杂度高问题。
声明:
“基于强化学习的解决气体含量勘测问题的方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)