Deep Distributed Fusion Network for Air Quality Prediction

摘要:基于对大气污染的领域知识,提出了一种基于深度神经网络(DNN)的方法(Deep-air),该方法由空间变换组件和深度分布式融合网络组成。考虑到大气污染物的空间相关性,组件将空间稀疏的空气质量数据转换为一致的输入,以模拟污染物源。后一种网络采用神经分布式结构,融合城市异质数据,同时捕捉影响空气质量的因素,如气象条件。该系统预测300+城市的48小时天气情况。

 

空气质量预测的主要问题:

多种影响因子、影响因子的相互关系复杂、一些因素引起的突变。

模型结构

组件将空气污染检测站点的PM2.5读数当作间接污染源(second-hand pollutant sources),通过空间插值、聚集和发散的方法把空间稀疏的输入转化为一种固定的输入(AQI)。之后将AQI和其他的影响因子如气象因素、天气预报等等合并成为城市融合数据。降维以得到因素之间的相互关系,使用embedding of AQI来模拟当地排放和区域运输的直接因素,其余数据集的embedding作为间接因素。四个子网络用于计算historical weather(HW)、weather forecast(WF)、secondary productions(SP)以及meta properties from time and terrain(MP)对直接因素的影响关系。除此之外使用另一个子网络(HI)来模拟所有因素的历史影响。五个子网络共同作用,赋予不同的权重得到最后的结果。

空气质量预测python 空气质量预测论文_子网

SPATIAL TRANSFORMATION:

由于污染物分布在地理空间中,地理位置的空气质量不仅取决于其先前的空气质量,而且还取决于其邻近地区的空气质量。spatial transformation其实就是把空间稀疏的数据稠密化(插值)的过程

主要步骤是:

1、spatial partition 分割

用四条线和两个圆将地理空间划分为16个区域,例如20公里和100公里的半径。如图5(b)所示,所有区域共用目标监测站(以黑点表示),作为共同中心,内圆区域面积小,外圆区域面积大。此外,不同角度的区域适合八个风向,气象条件可能会进一步捕捉到这些风向。

2、 spatial aggregation 聚类

汇总了区域内监测站记录的空气质量读数,如图5(c)所示。因此,至少有一个站点的区域将具有一个平均AQI。然而,从北京市的分区结果来看,不同的目标站有不同的缺失模式,约33%的地区没有监测站。

3、spatial interpolation 插值

在图5(d)所示的这些区域中填充缺失的值。更具体地说,我们首先随机在这些地区生成一些假监测站。然后,利用经典的空间插值方法——反距离加权法(idw)对伪监测站的aqi进行插值。

在一个时间戳中得到17个AQI,其中1个来自目标站,16个来自邻近地区。对每个监测站执行相同的过程。

空气质量预测python 空气质量预测论文_插值_02

这个机制的优点:1、模拟二手传染源的空间扩散 2、遵从空间相关性(距离) 3、使稀疏数据可量测,也限制了输入的维度

 DEEP DISTRIBUTED FUSION

尽管空气质量受多种因素的影响,但这些因素的影响程度可能不同。

设置五个不同的子网络,并得到不同的权重值

空气质量预测python 空气质量预测论文_子网_03

其中

空气质量预测python 空气质量预测论文_插值_04

是预测值,

空气质量预测python 空气质量预测论文_空气质量预测python_05

是五个子网络的输出值 ;。是 Hadamard积(逐项相乘);?ℎ?, ???, ???, ???, ?ℎ? 都是需要学习的参数

模型架构

在大多数情况下,所有间接因素都会同时决定直接因素的发展环境。此外,每个间接因素对影响未来空气质量的直接因素都有各自的影响。分布式融合体系结构突出了主特征,将主特征分别与各辅助特征交互,学习辅助特征的影响得到联合效应。

这里就有点像attention了,其实attention就是两个要点,一个是对全局依次比较,一个是加权求和

在本文中,主特征是AQI,其他是辅助特征,并分别建立子网络。主特征在所有子网之间共享,所有子网都具有相同的网络结构FusionNet。

主特征和辅助特征拼接同等对待,然后使用一些全连接层(FC)以非线性方式学习高交互阶特征。Residual FC layers用于快速传导信息

空气质量预测python 空气质量预测论文_插值_06

子网络

historical weather subnet (HW) 和 weather forecast subnet (WF)用于处理天气历史序列(天气、风向、风速、湿度、气压)和天气预报序列(天气、风向、风强),在输入AQI和以上因素之后,可以得到?ℎ? 和 ???

a secondary production subnet (HI)模拟一些导致PM2.5变化的化学反应因素,输入AQI和化学因素((PM10, NO2, CO, O3, and SO2)得到 ???

Meta property subnet (MP)模拟影响空气质量的时间和地形特性。用时间(DayOfWeek、TimeOfDay)来模拟时间维度的空气质量模式(例如,由于温度升高,冬季的空气质量指数始终高于夏季);使用 station ID来模拟影响空气质量的地形(例如建筑区的空气质量总是比开放区差)。综合AQI、时间和 station ID得到???

 holistic influence subnet (HI)将所有直接和间接因素融合在一起,学习整体影响。因为除个别影响外,所有间接因素都将同时决定影响未来空气质量的直接因素。因此得到 ?ℎ

 Embedding

利用embedding获得时间依赖性,并学习每个影响因素的内部动态机制。

对定性数据,embedding可以得到编码后的真值向量以及得到不同类别之间的相似性

对定量数据,embedding可以降维并得到隐藏的信息表示

算法

1-11行构造数据实例,之后通过后向传播算法减少预测值和已知值的绝对误差

空气质量预测python 空气质量预测论文_插值_07

实验情况

空气质量数据:中国302个城市每小时2296个官方空气质量监测站的大气污染物数据,每个站点数据都包括PM2.5, PM10, NO2, CO, O3以及 SO2六个指标

气象数据: 3,514个城市的逐小时气象数据

预报数据:2,612 cities/districts,the forecasts for the next three days for each update

主要范围: 2014/5/1 to 2017/4/30的(Beijing, Tianjin, Shanghai, Nanjing, Hangzhou, Guangzhou, Shenzhen, Chengdu, and Chongqing

实验精度:

空气质量预测python 空气质量预测论文_数据_08

空气质量预测python 空气质量预测论文_数据_09

空气质量预测python 空气质量预测论文_数据_10

空气质量预测python 空气质量预测论文_插值_11

空气质量预测python 空气质量预测论文_空气质量预测python_12