简介:姚静,英国格拉斯哥大学城市大数据研究中心(UBDC)高级讲师、博士生导师,主要从事空间分析与优化方面的教学科研。

 

空间分析在公共卫生服务中的应用历史,最早可以追溯到1854年伦敦霍乱的爆发,当时的专家们做了各种分析以了解霍乱发生的原因。Dr John Snow绘制了一幅地图,将死亡病例、街道数据和当地的水泵信息叠加到一起,观察到大部分死亡病例分布在水泵周围。经过对当地的水源采样分析,人们发现导致霍乱的原因是当地的水源污染。这是GIS中的叠加分析在疾病数据分析中最早的应用。

 

空间分析技术用于公共卫生服务数据的分析和建模,相关的方法主要可以分为四类。

 

第一个是空间数据探索性分析,一般用来观察疾病案例的空间分布。第二个是回归分析,可以检验疾病案例和相关因素的关系,比如年纪、性别、生活环境。第三个是时间序列方法,可以预测短期疾病对医疗资源的需求。第四个是空间优化方法,主要用于医疗卫生设施的位置评价和选址。

 

空间分析技术方法的应用案例

 

第一个例子是疾病的空间分布,我们利用非洲莫桑比克的数据,分析与艾滋病相关的健康状况的空间分布,主要考虑两个变量:一是否做了艾滋病检测;二是否采取了计划生育的手段。方法上主要使用了空间点模式分析,包括K function,spatial scan statistic和local Moran’s I三种方法。点模式分析主要关注数据在空间上的分布是随机的、集聚的还是分散的。

 

对于K function结果的解读:如果实际值在置信区间以上,我们认为该分布具有聚集现象;如果实际值在置信区间以下是分散分布;如果实际值在置信区间内为不显著,不显著的情况不予考虑。研究发现上述两个变量在大部分空间尺度上都存在空间聚集现象,分布不是随机的。

 

为了研究聚集的空间位置,可以选择另外两种识别方法。首先是spatial scan statistic, 这个方法是用圆形或者椭圆形的扫描窗口沿着整个研究区域扫描,判断窗口内的案例数是否显著高于或低于窗口外的数目。另外一个方法是局部莫兰指数,用以检测局部空间相关性。

 

第二个案例是医疗卫生设施的可达性分析,还是使用与上述案例相同的研究区域和数据。研究使用了三种方法,首先基于重力模型定义一个可达性指标,分子为供(诊所)需(村庄)双方的属性,分母为距离衰减函数。

 

研究使用诊所的属性来综合定义它的服务水平,包括医院护士、床位数、是否存在干净水源等。得到可达性指标后,我们利用kernel density estimation方法生成一个连续表面,以显示可达性在连续地理空间上的分布。最后,使用回归分析检验了可达性与Health outcome之间的相关性。研究发现,可达性与Health outcome是显著相关的。

 

第三个案例是关于公共卫生服务设施选址和资源分配的问题,同样还是使用莫桑比克的数据。公共卫生服务设施的位置也是非常重要的,可以决定可达性和服务效率。研究使用空间优化方法,模型是p-median problem (PMP)和Extended PMP。

 

在研究区一共有53家诊所,但只有32家提供艾滋病检测。研究通过优化模型,考虑最大化可达性(最小化加权距离和),来分析是否选择现存的32家诊所是较为合理的?如果需要另选诊所以替代现存的,或需新增诊所提供艾滋病检测服务,应该如何选择?

 

优化模型主要包括三个部分:目标函数(最小化平均加权通行距离和),限制条件(每户人家去最近的诊所做检测)和决策变量 (某家诊所是否被选中提供艾滋病检测)。结果表示目前提供艾滋病检测的32个诊所保留21个的时候(将服务分配给另外的11家诊所)对目标函数值的提高是最大的,即可以最大程度上减少平均通行距离。

 

如果保留目前的32个艾滋病检测诊所,新增诊所提供检测服务的时候对通行距离会有什么影响?研究发现,新增数量较少的时候,诊所的增加对目标函数值的降低有非常明显的作用,随着新增数量的增加,该影响逐渐下降,在增加到第19个诊所的时候就达到最优。

 

疾病建模的相关问题

 

第一是现有研究更关心空间分析技术,但相关的领域专业知识是更重要的。只有了解具体疾病发生的机理,才能做出正确的数据分析和得到有意义的发现。

 

第二是数据的不确定性。传统统计方法涉及到的样本是通过一定采样方法得到的,因此统计分析的结果可以从样本推广到母体。大数据比如社交数据是自采样的,由此得到的结论是否适合母体这是存疑的。

 

三是分析方法的问题。不同分析方法针对同样的数据会出现不同的结果。这涉及到不同的分析方法,但如果研究人员不清楚空间过程/现象的本质,较难选择合适的分析方法,从而得到有意义的结果。所以现在学术界在强调开源,数据和方法都开源,研究要有可复制性,公开研究方法,以供读者探究该方法是否符合数据本身相关的机理,这是很重要的。

 

与新冠病毒建模有关的一些问题

 

一是确诊和死亡数据都有时间滞后性。数据检测和结果公布存在时间差。并且检测技术也在不断更新变化,检测时间不断缩减,这就要求研究者了解数据的采集和处理过程。

 

二是在面对大规模流行病,政府需要做实时决策,但是科研在很大程度上较难满足实时的需求。做科学研究的一般步骤是文献阅读,数据采集和分析,如果投期刊要还要经过几个月的同行评审,在这之后,科研成果才能对外发布。科研结果发布存在时间周期。怎样让科学研究满足实时决策的需求,这对于我们是一个挑战。

 

最后是详细的数据与个人隐私的关系。目前使用新的技术手段追踪个人实时位置非常方面,这对疾病的防控有明显效果。但也涉及到个人隐私保护的问题,目前在西方国家实施比较困难。

 

编辑:李碧莹


投稿、合作、联系我们:futurecity@xjbsmartcity.com