本发明公开了一种基于双向长短记忆模型的药物小分子活性预测的方法,包括:获取数据集;对所述数据集进行预处理,包括将所述数据集中的所有化合物分子用SMILES表示,对所有分子的SMILES表达式做标准化处理,统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序,利用分子的InChIKey,进行去重复化处理;对预处理的数据集进行编码,其中通过独热编码对SMILES序列的单个元素、单个数字、单个符号以及整个方括号看作一个序列令牌,每个令牌本身具有化学意义和指向性,任何令牌的组合符合化学规则;构建双向长短记忆核心片段识别模型;将编码数据输入所述双向长短记忆核心片段识别模型,得到隐藏状态矩;以及对上述双向长短记忆核心片段识别模型进行评估。
声明:
“基于双向长短记忆模型的药物小分子活性预测的方法和系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)