和我一起,成为更好的自己
前言
最近有一些读者后台咨询如何针对疫情数据做一些分析,甚至还有做毕业论文的
关于如何获得最新的疫情数据,在之前的文章已经详细介绍了5种方法,此处便不再赘述。今天给大家简单分享一些自己的和其他人关于疫情数据分析的几个思路,感兴趣的读者可以从文末下载最新数据进行分析。
探索性分析
首先拿到数据可以做一些描述性分析,值得关注的是将疫情数据分为湖北地区和非湖北地区地区来对比分析,比如从确诊和新增数据来对疫情的趋势进行综合分析(之前文章也对全球疫情绘制了动态趋势图)
其次从一些资料中可以发现“正在接受医学观察”这个指标非常值得关注。那么可以基于该指标与其他指标进行综合分析
传染病模型
用疫情数据去拟合SIR模型(易感-感染-恢复)是绝大多数数据分析爱好者的思路,在历史文章我们也尝试去使用SIR模型去做一些分析,虽然能够成功拟合出模型
上图是2月初做的预测,显示新增感染人数会在60天左右开始下降,但是由于国内及时采取了一系列的管制比如大规模的检疫、严格的交通管制和对疑似病例的监控,这些都会导致模型不够准确,事实上大约半个月前新增病例就已经趋于平缓了,并且可以发现一些病例的病毒潜伏期很长,因此如果使用传染病模型可以考虑尝试SEIR模型(易感-暴露-感染-恢复)
对比分析
可以搜集2003年非典相关数据与疫情数据来对比分析两次疫情的流行特征、流行趋势等,或者对经济走向做一个预测也是不错的思路。其次由于国内疫情已经趋于稳定,所以可以使用国内疫情相关数据对全球/疫情严重的国家的发展趋势做一个预测,这些数据的获取并不困难,尤其是可以建立模型分析政府干预下的疫情变化趋势,我已经整理好数据,感兴趣的读者可以从文末获取数据并研究。
回归分析
提取一些重要的影响因素建立回归模型也是一些研究人员所感兴趣的,比如有学者以数据驱动,通过收集实验室确诊的9病例和死亡人数,并将其分为三个组:武汉市,湖北省其他城市以及中国大陆其他省份。应用简单的线性回归模型来对病死率进行估计。或者建立感染率/治愈时长与年龄段/性别等因素的多元回归模型,但是有一个难点是样本不太好采集,因为大部分地区卫健委并不公布此类数据,有兴趣的读者可以尝试。
其他想法
除了在第一节所说的“正在接受医学观察”这个指标非常值得关注,还有一些指标关注,比如我们提过之所以我们建立的SIR模型需要被修正就是政府采取了一系列的管制措施,比如停运火车,封闭社区等,那么是否可以从这个角度去量化研究这些措施对疫情发展的影响,但是如何采集相关数据却是一个难题。
最后想要说一句,给出分析思路其实是件有点心虚的事情,毕竟有太多优秀的科研人员在研究,自己的经验与方法也有一定的局限性,因为最近有一些读者在咨询相关问题,诚惶诚恐写了一点,仅供参考。
参考资料
Early estimation of the case fatality rate of COVID-19 in mainland China: a data-driven analysis http://atm.amegroups.com/post/view/early-estimation-of-the-case-fatality-rate-of-covid-19-in-mainland-china-a-data-driven-analysis
Transmission and epidemiological characteristics of Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2) infected Pneumonia (COVID-19): preliminary evidence obtained in comparison with 2003-SARS: https://www.medrxiv.org/content/10.1101/2020.01.30.20019836v4
我已经将目前搜集的有关疫情的最新数据与部分代码上传,有兴趣的读者可以后台回复【最新数据】获取最新疫情数据进行分析(包含爬虫、kaggl发布的数据集、钻石公主号邮轮相关数据等。部分数据为手工整理。如您发现任何谬误,请及时指正)
都看到这里了,只要一元即可和我互动~