本发明公开了一种乒乓球机器人灵活击球策略的实现方法,方法包括:在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器;自监督学习方法的任务包括异常轨迹的修正与轨迹预测;将特征提取器迁移至现实环境中进行迁移式学习以对特征提取器进行再训练;迁移式学习的数据标签是通过采集的乒乓球轨迹与物理学分析得出的真实乒乓球轨迹;将特征提取器应用于强化学习中,得到击球策略;强化学习中,针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏;击球策略直接输出乒乓球机器人的关节位置。本发明结合了自监督学习、强化学习以及迁移学习,可大幅降低机器人与现实环境交互次数,提升机器人击球策略灵活性。
声明:
“乒乓球机器人灵活击球策略的实现方法、系统及存储介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)