本技术属于大气污染领域,主要使用数据分析的方法用于研究大气污染领域的污染成因分析。
背景技术:
在污染成因分析方面,现有方法主要采用基于物理化学分析的源解析,例如环保局和中科院大气所都采用此类方法。总的来说,形成空气污染的原因主要有污染物总排放量(源强度)和大气扩散等气象条件。但要分析具体某一天的空气质量及变化原因,除了要掌握各个污染源的排放情况,需要了解气象扩散条件(包括局地气象、中尺度气象乃至大尺度气象情况影响),还要有可靠的理论和模型分析。目前要做可靠的分析还比较困难。
2014年,中科院欲斥资5亿建世界最大雾霾实验室,模拟大气中发生的反应,研究二次污染颗粒的形成机制,为揭示污染成因、有效控制雾霾提供理论依据。这种分析主要针对城市级别,成本较高,对污染源的定位较宏观,也缺乏对演变规律和传播路径的分析。
目前有一些研究者采用数据挖掘的方法发掘污染影响因素之间的关联,如李令军等人利用时间序列分析的方法对空气污染指数(api)大于200的空气重污染做了系统分析。刘彩霞等人的研究指出地面风场对空气质量的影响具有双重性,不同降水强度对空气污染的作用也是有差异的。李德平等人统计分析2001年-2007年北京地区3级以上api与气象要素之间的相关关系,并对出现4级以上重污染日的污染源进行了分析。杨素英等人则从北京秋季一次重污染过程出发,分析了空气污染的形成原因。
然而直接采用数据挖掘分析大气污染的成因,还没有相关工作。本课题拟采用因果关联挖掘的方法,深入挖掘污染源和相关特征变量的因果关系,从而逐步推导出污染成因以及传播路径。
技术实现要素:
本发明要解决的技术问题是,提供一种采用因果关联挖掘的放法,挖掘大气污染的成因。首先采用granger因果关系检验对所有大气污染数据进行检验,然后对检验结果进行筛选,选出具有单向granger原因的数据(一种污染物是另外一种污染物的granger原因,反过来则不是)。筛选出来的具有单向granger因果关系的两条数据,它们之间的关系为一条数据能够影响另外一条数据,相反的话则不能影响。因此可以通过这两条数据确定一个大气污染传播路径。
本发明面向大气污染多维时序数据,提供了一种通过大气污染多维时序数据挖掘大气污染传播路径的方法。使用granger因果关系检验挖掘具有granger因果关系的数据,从而通过数据挖掘大气污染污染物之间的因果关系,从而发现大气污染传播路径。相对于其他方法,granger因果关系检验可以在透过污染物浓度变化的复杂性以及相互影响的情况,揭示大气污染不同污染物之间相互影响的本质关系,从数据中挖掘出具有因果关系的污染物。
为了实现上述目的,本发明采用以下技术方案:进行格兰杰因果关系检验的一个前提条件是时间序列必须具有平稳性,否则可能会出现虚假回归问题。因此在进行格兰杰因果关系检验之前首先应对各指标时间序列的平稳性进行单位根检验(unitroottest)。常用增广的迪基—富勒检验(adf检验)来分别对各指标序列的平稳性进行单位根检验。对平稳的时间序列可以直接进行granger因果关系检验,而对不平稳的时间序列用差分来使时间序列平稳,通过一阶差分和二阶差分平稳后的时间序可以进行granger因果关系检验。格兰杰因果关系检验对于滞后期长度的选择有时很敏感。其原因可能是被检验变量的平稳性的影响,或是样本容量的长度的影响。不同的滞后期可能会得到完全不同的检验结果。因此,通过var模型确定滞后阶,确定滞后值,然后进行granger因果关系检验。
一种挖掘大气污染传播路径的方法包括以下步骤:
步骤1、获取大气污染数据集,并对大气污染数据集中的数据进行预处理,得到经过预处理后的大气污染数据集,并且在步骤1.1-步骤1.3对大气污染数据集进行操作。
步骤1具体包括以下步骤:
步骤1.1使用最近距离决定填补法填补缺失值,由于大气污染数据集中的数据为时序数据,并且时间因素对数据变化的影响不明显。所以使用最近距离决定填补法填补缺失值有效贴近实际值。
步骤1.2采用离群点分析的方法,通过聚类检测离群点,由于污染物浓度不会突然大幅度变化,通过聚类检测离群点,纠正数据,减少数据噪声。
步骤1.3删除数据集中缺失数据超过10%的不合格的数据,以免造成实验结果不准确。
步骤2、对大气污染数据集进行adf检验,对不平稳的时序数据进行差分,得到平稳的大气污染时间序列。
步骤3、对通过步骤2得到的平稳时间序列建立var模型,然后滞后结构和滞后长度标准得到赤池信息量准则和施瓦兹准则,然后根据这两个准则选择滞后值。
步骤4、基于步骤2得到的平稳大气污染时间序列进行granger因果关系检验,检验滞后期选择步骤3得到的滞后值。
步骤4.1将当前的y对所有的滞后项y做回归计算,即y对y的滞后项yt-1,yt-2,…,yt-q的回归,但在这一回归计算中没有把滞后项x包括进来,这是一个受约束的回归计算。然后从此回归计算得到受约束的残差平方和rssr。y为平稳时间序列,yt-1,yt-2,…,yt-q指y的不同的滞后项,yt-1为y的滞后值为1的滞后项,yt-q为y的滞后值为q的滞后项。
步骤4.2做一个含有滞后项x的回归计算,即在步骤4.1中的回归计算中加进滞后项x,这是一个无约束的回归计算,由此回归计算得到无约束的残差平方和rssur。
步骤4.3零假设是h0:α1=α2=…=αq=0,即滞后项x不属于此回归计算。
步骤4.4为了检验此假设,用f统计量捕捉残差平方和的变化,即:
该统计量遵循自由度为q和(n-k)的f分布。此处,n是样本容量,q等于滞后项x的个数,即有约束回归方程中待估参数的个数,k是无约束回归中待估参数的个数,rssr为受约束的残差平方和,rssur为无约束的残差平方和。
步骤4.5如果在选定的显著性水平α上计算的f值超过临界值fα,则拒绝零假设,这样滞后x项就属于此回归,表明x是y的原因。
步骤4.6为了检验y是否是x的原因,将变量y与x相互替换,重复步骤4.1~4.5。
步骤5、对步骤4得到的结果进行筛选,选出具有单向granger因果的大气污染数据,从而得到大气污染的污染物之间因果关系,从而得到大气污染的传播路径。
与现有技术相对,本发明具有以下明显优势:
目前在大气污染传播方面,现有方法主要采用基于物理化学分析的源解析,需要考虑风俗、温度、湿度、扩散速度,二次污染等各种情况,还要建立可靠的理论和分析模型。使得大气污染传播的研究极为困难,二本发明通过监测到的数据,从数据层面,通过挖掘数据,挖掘大气污染各种污染物之间的关系,从而得到大气污染的传播路径。将传统通过物理化学方法研究大气污染成因分析所考虑的复杂的因素以及建立理论个模型分析等步骤化简为通过研究大气污染数据,使用数据挖掘技术,得到大气污染传播路径,从而研究大气污染传播情况,极大的简化了研究大气污染的步骤,从而为研究大气污染传播情况提高了效率,并且能有节约大气污染治理的成本。在研究大气污染传播方面甚至成因分析方面具有极大的优势。
附图说明:
图1为本发明所涉及的方法流程图。
图2为本发明大气污染路径示意图。
具体实施方式:
以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明所用到的硬件设备有pc机1台;
如图1所示,本发明提供了一种挖掘大气污染传播路径的方法。
具体包括如下步骤:
步骤1、获取大气污染数据集,并对大气污染数据集中的数据进行预处理,得到经过预处理后的大气污染数据集,并且在下面的步骤对大气污染数据集进行操作。
步骤1具体包括以下步骤:
步骤1.1使用最近距离决定填补法填补缺失值,由于大气污染数据集中的数据为时序数据,并且时间因素对数据变化的影响不明显。所以使用最近距离决定填补法填补缺失值有效贴近实际值。
步骤1.2采用离群点分析的方法,通过聚类检测离群点,由于污染物浓度不会突然大幅度变化,通过聚类检测离群点,纠正数据,减少数据噪声。
步骤1.3删除数据集中缺失数据超过10%的不合格的数据,以免造成实验结果不准确。
步骤2、对大气污染数据集进行adf检验,对不平稳的时序数据进行差分,得到平稳的大气污染时间序列。
步骤3、对通过步骤2得到的平稳时间序列建立var模型,然后滞后结构和滞后长度标准得到赤池信息量准则和施瓦兹准则,然后根据这两个准则选择滞后值。
步骤4、基于步骤2得到的平稳大气污染时间序列进行granger因果关系检验,检验滞后期选择步骤3得到的滞后值。
步骤4.1将当前的y对所有的滞后项y做回归计算,即y对y的滞后项yt-1,yt-2,…,yt-q的回归,但在这一回归计算中没有把滞后项x包括进来,这是一个受约束的回归计算。然后从此回归计算得到受约束的残差平方和rssr。y为平稳时间序列,yt-1,yt-2,…,yt-q指y的不同的滞后项,yt-1为y的滞后值为1的滞后项,yt-q为y的滞后值为q的滞后项。
步骤4.2做一个含有滞后项x的回归计算,即在步骤4.1中的回归计算中加进滞后项x,这是一个无约束的回归计算,由此回归计算得到无约束的残差平方和rssur。
步骤4.3零假设是h0:α1=α2=…=αq=0,即滞后项x不属于此回归计算。
步骤4.4为了检验此假设,用f统计量捕捉残差平方和的变化,即:
该统计量遵循自由度为q和(n-k)的f分布。此处,n是样本容量,q等于滞后项x的个数,即有约束回归方程中待估参数的个数,k是无约束回归中待估参数的个数,rssr为受约束的残差平方和,rssur为无约束的残差平方和。
步骤4.5如果在选定的显著性水平α上计算的f值超过临界值fα,则拒绝零假设,这样滞后x项就属于此回归,表明x是y的原因。
步骤4.6为了检验y是否是x的原因,将变量y与x相互替换,重复步骤4.1~4.5。
步骤5、对步骤4得到的结果进行筛选,选出具有单向granger因果的大气污染数据,从而得到大气污染的污染物之间因果关系,从而得到大气污染的传播路径。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
技术特征:
技术总结
本发明公开了一种挖掘大气污染传播路径的方法,本方法面向大气污染多维时序数据,提供了一种通过大气污染多维时序数据挖掘大气污染传播路径的方法。使用granger因果关系检验挖掘具有Granger因果关系的数据,从而通过数据挖掘大气污染污染物之间的因果关系,从而发现大气污染传播路径。相对于其他方法,Granger因果关系检验可以在透过污染物浓度变化的复杂性以及相互影响的情况,揭示大气污染不同污染物之间相互影响的本质关系,从数据中挖掘出具有因果关系的污染物。
技术研发人员:刘博;苏鹏方
受保护的技术使用者:北京工业大学
技术研发日:2018.09.30
技术公布日:2019.01.08
声明:
“挖掘大气污染传播路径的方法与流程” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)