针对强化学习中Q‑learning算法在复杂环境下难以进行路径规划的问题,将深度卷积神经网络的特征提取能力与强化学习的决策能力相结合,提出了一种基于深度强化学习的改进算法。该方法用值函数近似法代替Q‑learning中的动作值函数,设计了包含4层结构的深度卷积神经网络,以网络的输出代替传统的Q值表,解决了Q‑learning在状态空间较大时产生的维数灾难问题。在栅格环境下进行仿真实验,结果表明该方法相较于Q‑learning算法能够在复杂的环境下进行路径规划,并在新的测试集上取得了87%的识别率,具有较强的泛化能力。
声明:
“基于深度强化学习的机器人路径规划方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)