本发明涉及提供强化学习代理和用其控制自主交通工具的方法和装置。与使用强化学习代理来控制自主交通工具相关的方法包括多个训练会话,其中该代理与环境交互,多个训练会话分别具有不同初始值并且产生取决于状态(s)和动作(a)的状态动作分位数函数方法进一步包括第一不确定性估计,其基于针对状态动作对评估的多个状态动作分位数函数的平均数的、与相对于分位数τ的变异性相关的变异性测量和第二不确定性估计,其基于针对状态动作对评估的所述多个状态动作分位数函数的、与集合变异性相关的变异性测量状态动作对可以与在执行之前验证的试验性决策相对应,或与代理对指导附加训练的可能决策相对应。
声明:
“提供强化学习代理和用其控制自主交通工具的方法和装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)