一种用于训练控制软件以使用视觉输入来强化安全性约束的方法,包括:使用用于每个对象的视觉模板来针对强化学习(RL)代理的动作空间的图像中的每个对象执行模板匹配,其中RL代理的动作空间中的每个对象被检测;将每个检测到的对象映射到针对每个对象的在RL代理的动作空间中的平面坐标的集合;通过将针对RL代理的动作空间的安全性规范应用于针对RL代理的动作空间中的每个对象的坐标的变量集合,来确定用于RL代理的安全动作的集合;针对RL过程的当前状态向RL代理输出该安全动作的集合;以及在RL代理采取动作之前防止RL代理执行不安全的动作。
声明:
“针对视觉输入的形式上安全的符号化强化学习” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)