基础金属	铜电解铜铜精矿铜管铜棒废铜铜排铜合金精铜杆再生铜杆铜板带铝铝土矿氧化铝电解铝铝辅料铝棒铝合金锭废铝铝杆铝型材铝板卷铅铅精矿铅锭铅蓄电池再生精铅还原铅废铅蓄电池铅合金锌锌精矿电解锌锌合金氧化锌锌粉锡锡精矿锡锭锡材镁兰炭硅铁镁锭
稀有金属	稀土稀土矿稀土氧化物稀土金属钕铁硼稀散金属锑铋铟锗镓硒钽铌锆贵金属白银钨钨精矿 APT(仲钨酸铵)钨粉碳化钨钨酸钠钨条钨铁钨材钼钼精矿工业氧化钼钼铁钼化工高纯三氧化钼钼金属钛钛精矿钛渣四氯化钛海绵钛钛金属钛白粉
新能源	锂锂矿锂化合物金属锂镍镍矿镍铁精炼镍镍盐高冰镍 MHP 钴电解钴钴粉氯化钴四氧化三钴硫酸钴钴中间品氧化钴碳酸钴钴酸锂锰锰矿电解锰电池级硫酸锰锂电正负极三元前驱体磷酸铁正极材料石油焦针状焦包覆沥青人造石墨硅碳负极硅氧负极电解液隔膜隔膜电解液电芯硅硅石有机硅硅粉三氯氢硅工业硅再生硅光伏多晶硅硅片电池片组件组件成本指数海外组件废旧组件

基础金属

铜电解铜铜精矿铜管铜棒废铜铜排铜合金精铜杆再生铜杆铜板带铝铝土矿氧化铝电解铝铝辅料铝棒铝合金锭废铝铝杆铝型材铝板卷铅铅精矿铅锭铅蓄电池再生精铅还原铅废铅蓄电池铅合金锌锌精矿电解锌锌合金氧化锌锌粉锡锡精矿锡锭锡材镁兰炭硅铁镁锭

稀有金属

稀土稀土矿稀土氧化物稀土金属钕铁硼 稀散金属锑铋铟锗镓硒钽铌锆 贵金属白银钨钨精矿 APT(仲钨酸铵)钨粉碳化钨钨酸钠钨条钨铁钨材钼钼精矿工业氧化钼钼铁钼化工高纯三氧化钼钼金属钛钛精矿钛渣四氯化钛海绵钛钛金属钛白粉

新能源

锂锂矿锂化合物金属锂镍镍矿镍铁精炼镍镍盐高冰镍 MHP 钴电解钴钴粉氯化钴四氧化三钴硫酸钴钴中间品氧化钴碳酸钴钴酸锂锰锰矿电解锰电池级硫酸锰 锂电正负极三元前驱体磷酸铁正极材料石油焦针状焦包覆沥青人造石墨硅碳负极硅氧负极 电解液隔膜隔膜电解液电芯硅硅石有机硅硅粉三氯氢硅工业硅再生硅光伏多晶硅硅片电池片组件组件成本指数海外组件废旧组件

基于Q学习模型的结果推送方法和系统

1463 编辑：管理员来源：北方有色网

2023-03-19 08:56:59

本发明涉及一种基于Q学习模型的结果推送方法和系统，包括以下步骤：将状态st、推送结果at，下一状态st+1和奖励值rt+1组成一个数据组，并将其存储至经验池D中；从经验池D中提取若干数据组，计算网络参数下的全梯度均值，此时的网络参数为锚点网络参数；随机提取上一步骤中的数据组，并计算其在当前网络参数下和锚点网络参数下的目标Q值和梯度值，将梯度值和全梯度均值带入方差缩减公式实现梯度更新；重复上述步骤直至训练结束，获得最终的Q学习模型，将待测状态输入最终的Q学习模型获得最佳推送结果。其通过将方差缩减技术引入到随机梯度下降的Q学习模型中，提高了强化学习的训练过程的稳定性。

登录解锁全文

声明：

“基于Q学习模型的结果推送方法和系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究，如用于商业用途，请联系该技术所有人。

我是此专利(论文)的发明人(作者)