本发明公开了一种基于强化学习的智能体探索未知环境方法,通过制定局部信息提取规则,计算环境参数特征表示中的局部信息和对环境参数特征表示进行预测的预测特征表示中的局部信息之间的差异度,构建了深度强化学习的内部奖励函数,该种方法构建的奖励函数能够赋予智能体感性选择能力,也就是具备人类在看到一部分环境特征的时会有感兴趣的感受的能力,使得智能体在环境探索中可以沿着感兴趣的环境特征进行探索,结构化了智能体的环境探索方式,同时,放大了智能体环境特征表示局部信息和实际环境状况的关联程度,使得智能体的行为意图可预测,有利于在工业领域对智能体进行把控,推动深度强化学习在工业领域的落地。
声明:
“基于强化学习的智能体探索未知环境方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)