本发明涉及一种基于强化学习的导航滤波器参数优化方法。首先,基于∈贪心策略,根据状态动作值函数选择不同系统噪声和测量噪声方差的组合;同时,通过导航滤波器在应用环境中进行探索,并根据导航滤波器的测量残差计算得到奖赏;进而,根据计算得到的奖赏,利用时序差分方法更新状态动作值函数,其取值反映了所选择的噪声方差与实际应用环境的匹配程度;随着导航滤波过程的进行,通过迭代计算,能够以较大的概率选择与实际应用环境相匹配的噪声方差,从而实现自适应地调整导航滤波器中系统噪声方差和测量噪声方差的目的。所提方法能够增强导航滤波器克服系统噪声和测量噪声方差不确定性影响的能力,改善卫星自主导航精度。
声明:
“基于强化学习的导航滤波器参数优化方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)