1.本发明涉及污染物溯源技术领域,特别是涉及一种基于耦合机器学习和相关性分析的大气污染物溯源方法。
背景技术:
2.随着我国经济快速发展、工业化和城镇化进程不断加速、能源消耗增加,出现了一系列的大气环境问题。相比于水体、土壤等环境中的污染物,大气污染物更具有易扩散、易混合、污染路径不清晰等的特性,会受到排放源、污染过程、气象条件等影响。其中,排放源是内因、气象条件是外因、污染过程是动因。由于动因和外因主要受到自然客观规律的影响,以至于人力难以控制,因此,控制内因则是大气污染防治、环境管理最有效的方法,其核心就是找准污染源头,厘清污染成因,实现靶向治理,提高控制效率。
3.找准大气污染源头可分为两大类,一是污染溯源,侧重于时空分布上的排放源追溯;二是排放源解析,侧重于排放源成分和行业解析。大气精细化网格体系是环境空气质量精准治理及科学管控的主要手段,应用较为广泛。基于网格化的环境专业统计学数据分析可实现粗略的大气污染溯源,但响应时间较长。因此,研究者们采用基于模型软件、机器学习算法的大气污染溯源来提高响应时间,但是现有的方法在实现大气污染溯源时存在着不足,具体表现如下:(1)后向轨迹法:是一种用于计算和分析气流运动、沉降及扩散轨迹的综合模式系统,其核心是通过三维气象场中的风向、风速来计算和描述气团的运动,进而通过气团轨迹锁定污染源位置。但该方法对风场数据的依赖性较强,且受到多种气象要素输入场的局限,目前研究主要集中于短时间尺度的长距离输送和外来污染源的确定,在应对境外污染源、区域联防联控治理方面可提供理论借鉴,但在应对小尺度的区域内源污染溯源方面暂不适用。(2)概率方法:主要是针对大气污染物理化学过程的复杂性和数值模式的离散性而发展一种污染溯源方法,主要原理是将可用的浓度观测数据与先验信息相结合,基于大量历史数据分析和挖掘得到的后验参数的不确定性及置信区间。在应用时需要有大量的数据进行支撑,且需要已知污染源的先验信息,这在大气应急响应中是难以实现的。(3)颗粒物来源解析法:通过分析环境空气中的颗粒物和污染源样品的物理化学特性,定性识别污染源。同时,可结合数理统计、数值模式模拟定量计算污染源贡献率。但该方法着重解析的是排放源成分和行业,尚不能获得地理空间上的污染源锁定及源贡献率,因此,该方法难以满足大气污染精准溯源、难以实现大气污染靶向治理与高效管控的需求。
4.现阶段根据模型进行溯源的方式多从边界条件对污染物扩散影响的角度进行溯源分析,如风向、风力等因素,此类模型不具备普适性,无法实现不同区域场景的快速部署,需要具有一定知识背景的人员进行本地化参数调整。同时,也没有考虑污染物传输过程中实时数据的变化,因此属于稳态建模,无法根据时空污染物浓度瞬态数据对模型进行动态响应修正;并且现有模型无法有效考虑污染物浓度传输过程中的延时效应以及污染物事件有效时间窗口不确定的问题。
技术实现要素:
5.本发明的目的是提供一种基于耦合机器学习和相关性分析的大气污染物溯源方法,根据区域网格源时空污染物浓度数据,利用耦合机器学习和相关性分析方法,对污染物传输通道和污染源区域进行智能识别。
6.为实现上述目的,本发明提供一种基于耦合机器学习和相关性分析的大气污染物溯源方法,具体包括以下步骤:
7.s1、获取目标区域内每个网格源站点的实时时空数据和历史时空数据;
8.s2、根据所述实时时空数据和所述历史时空数据,构建数据库;并从所述数据库中提取一段时间内的历史时空数据;
9.s3、根据所述一段时间内的历史时空数据,构建污染物浓度分布瞬态模型;
10.s4、利用高斯回归对所述污染物浓度分布瞬态模型进行特征提取,并对提取的特征进行标准化处理;
11.s5、利用机器学习算法构建可能污染源选取模型,并将提取的所述一段时间内的历史时空数据作为训练集对所述可能污染源选取模型进行训练;然后将所述提取的特征输入到训练完成的可能污染源选取模型中,输出网格源是否在传输路径上的结果;
12.s6、将所述实时时空数据重复步骤s3~s4,获取特征r2,μ,δ,并对所述特征进行标准化处理,得到预处理后的新增数据;
13.s7、将所述预处理后的新增数据作为输入到训练完成的可能污染源选取模型中,输出网格源是否在传输路径上;并将输出的结果增加到所述训练集中对所述可能污染源选取模型进行优化和不间断学习。
14.优选的,所述实时时空数据和所述历史时空数据均包括:地理位置信息、各污染物浓度信息、采样时间和气象信息。
15.优选的,所述s3具体为:
16.从所述历史时空数据中提取各污染物浓度信息,然后以传输通道网格源k构建的层级树结构为基础,并根据设定的污染事件得到有效时间窗口i和传输响应延时j,实时构建逐级待比较矩阵和相关系数矩阵,即污染物浓度分布瞬态模型。
17.优选的,所述s4具体为:
18.将所述相关系数矩阵转换成相关系数向量,然后利用高斯回归对所述相关系数向量进行特征提取,得到高斯回归特征值r
2k
、μ
k
,δ
k
。
19.优选的,所述可能污染源选取模型的表达式为:
[0020][0021]
其中,y
k
∈[0,1],0代表网格源k不在传输路径上,1代表网格源k在传输路径上;f
k
表示可能污染源选取模型,根据f
k
对每一个站点进行分析,记录y
k
=1的网格源k。
[0022]
优选的,所述机器学习算法包括随机森林、决策树、聚类、贝叶斯分类、支持向量机、em和adaboost。
[0023]
优选的,所述s7具体为:
[0024]
对污染事件发生时刻和污染事件浓度向量重新赋值,重复步骤s1~s5,并进行逐级标记,直至相关系数最低,输出标记结果,即为传输通道与可能的污染源区域,结束迭代
计算,实现模型不间断学习和优化。
[0025]
优选的,构建所述污染物浓度分布瞬态模型的方法具体为:
[0026]
步骤1、根据国家标准设定污染事件触发条件,自动标记污染事件发生时刻t;
[0027]
步骤2、基于所述步骤1,并通过设定的污染事件有效时间窗口i和传输响应延时j构建污染事件浓度向量x
i
和逐级待比较向量y
i,jk
:
[0028]
步骤3、根据所述逐级待比较向量y
i,jk
,构建逐级待比较矩阵z
i,jk
;
[0029]
步骤4、基于所述逐级待比较矩阵z
i,jk
,构建网格源k的相关系数矩阵r
i,jk
,即污染物浓度分布瞬态模型。
[0030]
与现有技术相比,本发明具有以下技术效果:
[0031]
由于现阶段溯源模型多为考虑边界对污染物扩散影响的稳态建模,且没有考虑污染物浓度传输过程中的延时效应和污染物事件有效时间窗口不确定的问题,以及存在无法不间断的提升模型稳定性、普适性和准确度的问题,本发明通过基于区域网格源时空污染物浓度数据的瞬态建模方式,并结合高斯回归和相关性分析的手段对污染物浓度时空相关性矩阵进行特征提取,解决污染物浓度的延时响应和时间窗口不确定的问题,并利用机器学的算法实现了模型训练数据的不间断更新,从而保证了溯源算法准确度的持续有效提升。
附图说明
[0032]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0033]
图1为本发明方法流程图。
具体实施方式
[0034]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0035]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0036]
实施例1
[0037]
参照图1所示,本发明提出一种基于耦合机器学习和相关性分析的大气污染物溯源方法,具体包括以下步骤:
[0038]
s1、获取目标区域内每个网格源站点的实时时空数据和历史时空数据;
[0039]
实时时空数据和历史时空数据均包括:地理位置信息(经度、纬度)、采样时间、气象信息(风力、风向等)、各污染物浓度信息等。
[0040]
s2、根据实时时空数据和所述历史时空数据,构建数据库;并从所述数据库中提取一段时间内的历史时空数据;
[0041]
s3、基于所述一段时间内的历史时空数据,构建污染物浓度分布瞬态模型,提高模型动态响应速度;
[0042]
从所述历史时空数据中提取各污染物浓度信息,然后以传输通道网格源k构建的层级树结构为基础,并根据设定的污染事件有效时间窗口i和传输响应延时j,构建逐级待比较矩阵和相关系数矩阵,即污染物浓度分布瞬态模型,具体为:
[0043]
s3.1、根据国家标准设定污染事件触发条件,自动标记污染事件发生时刻t。
[0044]
s3.2、构建污染事件浓度向量x
i
,如式(1)所示:
[0045]
x
i
=(x
t
,x
t+1
,
…
,x
t+i
)
???
(1)
[0046]
其中,x
t
表示发生标准事件的网格源在t时刻污染物浓度;i表示设定的污染物事件有效时间窗口,i∈[3,i];
[0047][0048]
i表示i的取值上限;运算符表示向上取整;t为污染事件前驱时长;
△
t为网格源数据监测周期。
[0049]
s3.3、构建逐级待比较向量y
i,jk
,如式(3)
?
(5)所示:
[0050]
y
i,jk
=(y
t
?
jk
,y
t
?
j+1k
,
…
,y
t
?
j+ik
)
???
(3)
[0051][0052][0053]
其中,y≠x,y
i,jk
表示k站点在t
?
j时刻染物浓度;j表示设定的污染物传输响应延时,j∈[1,j];j表示j的取值上限;v为风速;α为风向与空间两点的夹角;d为任意两个网格源平均距离;m、n∈k,k为网格源总数;d
m,n
为网格源m和n之间的距离;为从k个网格源中取出任意2个网格源的组合数。
[0054]
s3.4、根据逐级待比较向量y
i,jk
,构建逐级待比较矩阵z
i,jk
,如式(6)所示:
[0055][0056]
s3.5、基于所述逐级待比较矩阵z
i,jk
,构建网格源k的相关系数矩阵r
i,jk
,如式(7)所示:
[0057]
[0058][0059]
s4、利用高斯回归对网格源污染物浓度相关系数矩阵进行特征提取,并对提取的特征进行标准化处理,得到高斯回归特征值:r
2k
、μ
k
,δ
k
;
[0060]
将相关系数矩阵转r
i,jk
换成向量r
rk
;
[0061]
r=(i
?
2)
·
j
???
(9)
[0062]
再利用高斯回归对r
rk
进行特征提取,得到高斯回归特征值:r
2k
、μ
k
,δ
k
;r2表示高斯回归拟合效果,μ表示相关系数的平均值,δ表示相关系数的方差。
[0063]
s5、利用机器学习算法构建可能污染源选取模型,并将提取的所述一段时间内的历史时空数据作为训练集对所述可能污染源选取模型进行训练;然后将所述提取的特征输入到训练完成的可能污染源选取模型中,输出网格源是否在传输路径上的结果,对污染物传输通道和污染源区域进行智能识别,降低人工分析难度,提高模型的普适性;具体为:
[0064]
利用随机森林的机器学习算法,结合污染物浓度分布瞬态模型f
k
进行可能污染源选取模型的建立,如式(10)所示:
[0065][0066]
其中,y
k
∈[0,1],0代表网格源k不在传输路径上,1代表网格源k在传输路径上;此处采用专业人士人工标注该网格源站点是否在污染传输路径上(0代表网格源不在传输路径上,1代表网格源在传输路径上)。
[0067]
再根据f
k
对每一个站点进行分析,记录y
k
=1的网格源k。
[0068]
其中,机器学习算法包括随机森林、决策树、聚类、贝叶斯分类、支持向量机、em和adaboost等多种机器学习算法没包括但不限于随机森林;利用多种机器学习算法进行建模,选出冠军模型作为可能污染源选取模型;
[0069]
s6、当有新的污染途径网格源(新增数据)出现后,即实时时空数据,然后提取新的地理位置信息:经度、纬度;各污染物浓度信息等;采样时间;气象信息:风力、风向等,重复步骤s3~s4进行相关性动态分析,获取特征r2,μ,δ,并对特征进行标准化处理,得到预处理后的新增数据;
[0070]
s7、将得到的预处理后的新增数据输入到所述可能污染源选取模型,得到该网格源是否在传输路径上的结论;并根据可能污染源选取模型的应用反馈,增加到训练集,实现模型可以根据新增数据不间断学习和优化,从而提高判断精度。
[0071]
根据公式(11)和(12)重新赋值,循环步骤s1~s5,并逐级标记k
w
,直至相关系数r
i,jk
过低,输出k
w
,即为传输通道与可能的污染源区域,结束迭代计算,实现模型不间断学习和优化。w表示第w次循环。
[0072]
t=t
?
j
???
(11)
[0073][0074]
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。技术特征:
1.一种基于耦合机器学习和相关性分析的大气污染物溯源方法,其特征在于,具体包括以下步骤:s1、获取目标区域内每个网格源站点的实时时空数据和历史时空数据;s2、根据所述实时时空数据和所述历史时空数据,构建数据库;并从所述数据库中提取一段时间内的历史时空数据;s3、根据所述一段时间内的历史时空数据,构建污染物浓度分布瞬态模型;s4、利用高斯回归对所述污染物浓度分布瞬态模型进行特征提取,并对提取的特征进行标准化处理;s5、利用机器学习算法构建可能污染源选取模型,并将提取的所述一段时间内的历史时空数据作为训练集对所述可能污染源选取模型进行训练;然后将所述提取的特征输入到训练完成的可能污染源选取模型中,输出网格源是否在传输路径上的结果;s6、将所述实时时空数据重复步骤s3~s4,获取特征r2,μ,δ,并对所述特征进行标准化处理,得到预处理后的新增数据;s7、将所述预处理后的新增数据作为输入到训练完成的可能污染源选取模型中,输出网格源是否在传输路径上;并将输出的结果增加到所述训练集中对所述可能污染源选取模型进行优化和不间断学习。2.根据权利要求1所述的基于耦合机器学习和相关性分析的大气污染物溯源方法,其特征在于,所述实时时空数据和所述历史时空数据均包括:地理位置信息、各污染物浓度信息、采样时间和气象信息。3.根据权利要求2所述的基于耦合机器学习和相关性分析的大气污染物溯源方法,其特征在于,所述s3具体为:从所述历史时空数据中提取各污染物浓度信息,然后以传输通道网格源k构建的层级树结构为基础,并根据设定的污染事件得到有效时间窗口i和传输响应延时j,实时构建逐级待比较矩阵和相关系数矩阵,即污染物浓度分布瞬态模型。4.根据权利要求3所述的基于耦合机器学习和相关性分析的大气污染物溯源方法,其特征在于,所述s4具体为:将所述相关系数矩阵转换成相关系数向量,然后利用高斯回归对所述相关系数向量进行特征提取,得到高斯回归特征值r
2k
、μ
k
,δ
k
。5.根据权利要求1所述的基于耦合机器学习和相关性分析的大气污染物溯源方法,其特征在于,所述可能污染源选取模型的表达式为:其中,y
k
∈[0,1],0代表网格源k不在传输路径上,1代表网格源k在传输路径上;f
k
表示可能污染源选取模型,根据f
k
对每一个站点进行分析,记录y
k
=1的网格源k。6.根据权利要求5所述的基于耦合机器学习和相关性分析的大气污染物溯源方法,其特征在于,所述机器学习算法包括随机森林、决策树、聚类、贝叶斯分类、支持向量机、em和adaboost。7.根据权利要求5所述的基于耦合机器学习和相关性分析的大气污染物溯源方法,其特征在于,所述s7具体为:
对污染事件发生时刻和污染事件浓度向量重新赋值,重复步骤s1~s5,并进行逐级标记,直至相关系数最低,输出标记结果,即为传输通道与可能的污染源区域,结束迭代计算,实现模型不间断学习和优化。8.根据权利要求3所述的基于耦合机器学习和相关性分析的大气污染物溯源方法,其特征在于,构建所述污染物浓度分布瞬态模型的方法具体为:步骤1、根据国家标准设定污染事件触发条件,自动标记污染事件发生时刻t;步骤2、基于所述步骤1,并通过设定的污染事件有效时间窗口i和传输响应延时j构建污染事件浓度向量x
i
和逐级待比较向量步骤3、根据所述逐级待比较向量构建逐级待比较矩阵步骤4、基于所述逐级待比较矩阵构建网格源k的相关系数矩阵即污染物浓度分布瞬态模型。
技术总结
本发明公开了一种基于耦合机器学习和相关性分析的大气污染物溯源方法,具体包括以下步骤:利用区域网格源时空污染物浓度数据,建立污染物浓度分布瞬态模型;利用高斯回归对网格源污染物浓度相关系数矩阵进行特征提取,耦合机器学习算法对污染物传输通道和污染源区域进行智能识别。本发明基于区域网格源时空污染物浓度数据的瞬态建模方式,并结合高斯回归和相关性分析的手段对污染物浓度时空相关性矩阵进行特征提取,解决污染物浓度的延时响应和时间窗口不确定的问题,并利用机器学的算法实现了模型训练数据的不间断更新,从而保证了溯源算法准确度的持续有效提升。溯源算法准确度的持续有效提升。溯源算法准确度的持续有效提升。
技术研发人员:庞继伟 张栩 郭炜 李丽芬 高敏
受保护的技术使用者:中节能天融科技有限公司
技术研发日:2021.08.12
技术公布日:2021/11/5
声明:
“基于耦合机器学习和相关性分析的大气污染物溯源方法与流程” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)