在新冠肺炎疫情的战役中,大数据扮演着不可或缺的关键角色。确诊病例信息、人口迁徙数据和物资供应管理后,有一张不可见的数据之网,将个体、组织与平台相连接。与17年前的SARS时期相比,新冠病毒传播性更强,疫情初期人口流动性更大,都给疾病防控带来了巨大的挑战。


但与此同时,我们开始能够通过互联网实时关注确诊病例的数量变化、分布位置甚至未来发展趋势。官方机构通过大数据技术确定感染者行动轨迹,追溯其接触史,以便更高效率地防控疫情;一些科技公司上线谣言鉴别、疫情地图和确诊患者交通工具同乘查询系统,满足用户的及时搜索需求;科研团队利用获取的大数据进行建模估算,试图破解未来疫情的传播趋势。这次疫情,让人们深刻意识到了大数据作为一种前沿科技,在社会大事件中所扮演的重要角色,令数据被更多人所看见。


当谈及大数据给疫情防控带来了什么、疫情又赋予了大数据什么,我们无法忽视其中不同团队所带来的不一样的生命力。从官方到民间,从科技公司到学术机构,他们在不断编制大数据的网,不断尝试推进大数据分析的运营模式的革新。如何让大数据结论更加准确,如何让大数据更好地服务大众,如何开辟新的团队合作模式,如何管理数据源,这些大数据领域永恒的问题,在这一次疫情中,开始有了新的答案。


关于此次疫情与大数据领域相互作用的话题,我们采访了民间数据分析团队Team Xu+、科技公司百度数据团队,以及专家刘兴亮,试图从三个不同的视角,探索大数据在疫情中扮演的角色以及其未来的发展。 


采写 | 周子恒


对话刘兴亮:

要打通数据孤岛

 

新京报:如何看待此次疫情中,民间数据团队对于大数据知识、疫情数据解读所带来的贡献?以及他们的局限性?


刘兴亮:这是一个好事情。民间团队时常会有更细致的关注点,能去解读官方未考虑到的或是不愿公开的因素,并且他们的传播力度更大。就算工作质量上无法和官方相比,但是数量巨大,也能产生正面影响。


民间团队的局限性表现在这几个方面:


第一,专业性相对较低,可能相比官方团队或科技公司而言,缺少专门的数据挖掘和整理的人员;


第二,获取的数据可能不全面,就比如一份发言稿,如果截取其中的三两句话进行解读,就会和整体发言主旨有所差异,甚至带来误解;


其次,民间团队可能比较容易带有个人感情色彩,会产生以揭露为主的各种解读,比如对官员缺乏好感,导致带有偏见地截取数据;第四就是,民间团队可能没有过多的精力,去验证结论的真假,甚至是数据的真假。


刘兴亮,知名互联网学者,现任《刘兴亮时间》创始人,泛科技视频节目《亮三点》出品人,DCCI互联网研究院院长。在区块链、人工智能等领域颇有建树。

 

新京报:根据我们之前对话的民间团队,包括一些大学的科研团队的反馈,他们表达了希望科技公司或者官方机构公开数据、成立合作平台的强烈愿望,你怎么看待其中的可行性?


刘兴亮:这个方向是对的。但在过去,无论是官方还是科技公司,他们都将所掌握的大量的数据视为自己的财富,不愿公开。这是可以理解的,因为数据就是核心竞争力。但如果涉及公共数据,例如本次疫情的相关数据,都是上亿数量级的,民间个人团队几乎不可能获取,我认为此时就应该公开。这次疫情就应该是推动行业数据公开的第一步。至于这些涉及公共卫生事件的数据,如何进行适度公开,无论是通过建立平台还是其他的办法,它们都是具体操作手段,根本上还是需要数据拥有者愿意将这些数据贡献出来。这会是未来的一个趋势,我乐于看见它早日实现。

 

新京报:官方团队和科技公司团队,拥有数据源和成熟的数据处理手段,在此次疫情大数据战役中做出了最主要的贡献,在之后的疫情数据分析中,他们如何能使自己的优势最大化?


刘兴亮:首先要意识到,大公司都是具有商业性质的,尽管我们希望这些大公司能在公益方面多有建树,事实上,在这次疫情中,很多大公司也都在努力,但无论是政府还是媒体,我们不能对它们进行道德绑架。运营方面,在这样的公共卫生事件面前,我建议这些大公司成立专门的部门来紧急应对外界相关技术方面的诉求,把数据、技术和市场等对接入口合并在一个组织内,更方便合作和管理。


线上数据科学社区Kaggle

 

新京报:你是否认为这次疫情促进了中国大数据技术合作运营模式的改革与创新?有哪些经验教训值得借鉴?


刘兴亮:在过去,无论是政府和政府之间,还是企业与企业之间,各个组织都像是一个个的数据孤岛,并没有相互打通。搜索引擎获取的大数据,在疫情监控方面,会比卫生部门的接诊数据,更加及时。因为假如一个地方出现了新疾病的流行,在就诊之前,可能会有很多人不约而同在搜索引擎上搜索具有共性的条目,在这种情况下,大数据可以比卫生部门更早得到预警。


又例如每年在旅游黄金周,人群会聚的景点很有可能发生踩踏事件,通过旅游平台订单的大数据分析,也能比地方部门更早得到预判。所以合作至关重要。只有碰到如此极端事件时,我们才能意识到自己的短板、痛处和诉求。


此次疫情对大数据领域也会有催化剂作用。怎样公开透明化数据?怎样运用数据?怎样确立数据边线的划分和特殊时期如何管理数据?这都值得我们去思考。


对话Team Xu+:

民间团队不应该是孤立的


新京报:你们团队的创建和成员加入的初衷是什么?


Team Xu +:最初,我们队长在个人公众号上写过一些文章,意在科普和传递一些疫情相关信息,其中一些来自香港的学者、医生,或者是在网络上能够收集到的资料,比如对非文字结论进行解读,像《柳叶刀》文章中的一些图像。在整理信息的时候,队长巧合地发现百度公布了较为全面的迁徙数据。那个时候大约是1月26、27日,结合数据,队长便假设病毒可能符合一个以点状散播开的模型,从武汉再至湖北的各个地方,再慢慢散播到全国和世界各地,由此认为疫情中的感染人数分布情况可能和武汉迁出人口高度相关。我们在对比数据的时候也能发现一些有趣的规律,例如1月1日至27日从武汉迁出至黄冈、孝感的人数最多,并且这两地的感染人数也领先于湖北内除武汉的地区。我们认为这些迁徙数据可能可以提供一些有用的信息,哪怕它们不能定量分析,至少在定性方面具有参考价值。那时,这个项目便开始了。最初,大多数成员可能相互都不认识,有人从知乎、朋友圈看到相关消息,由于对数据有个人兴趣,也具有一定的相关能力,并且认为能够在这次疫情中帮助别人,就选择了加入。


TeamXu+是一个由香港大学建筑毕业生发起,通过知乎等网络平台宣传招募,自发组织的数据分析和可视化的民间团队。成员通过对公开的迁徙数据的分析去解读疫情趋势,用数据可视化等较直观的手段去推广结论,旨在为公众提供基于人口迁徙角度的各个省市的暴露在病毒的危险度的参考。文章目前多发表于知乎和微信公众号等平台。图为1月份武汉流出各地人口随时间日变化图(©Team Xu+, 数据来源百度迁徙)

 

新京报:团队的模型是怎样随着项目的展开而调整的,期间又遇到了怎样的困难?


Team Xu +:最初这个模型不一定严谨,随着更多拥有数据专业能力的团队成员加入,以及迁徙指数的定期更新,我们也在不断探索迁徙人数和疫情分布的统计关系。


期间,也有人提出很高级的模型,但团队中专业力量有限,远没有达到相应建模的水平。尽管我们团队中有一些数学专业的、一些在中科院做研究的还有预防医学相关领域的专业人士,但这个项目涉及的不是一个单纯的统计问题,可能需要更多的人力和更巧妙的方法来处理高级的模型,这也是目前的一个局限性。


团队中一些成员现期主要工作是将数据可视化,在常见的沟通语言中,图像的沟通门槛相对比较低,也更利于理解。将发现的数据结论,向数据分析领域之外的人传递,可视化就是一条常选择的道路。另一个局限性表现在,对于我们这样的民间团队,假如对数据进行定量分析,就需要考虑结论敏感度之类的问题。我们需要明确自己的定位,这就会在一些方面受限。

 

新京报:所以可以理解为,前期阶段主要是把一些已有的数据结论进行可视化,便于推广?


Team Xu +:对,或者说是提供一个新的角度来让大家判断身边的危险性。我们都会注意到确诊数据和实际传播情况,存在一个滞后性,这一方面取决于医疗资源的限制和提供时间的限制,另一方面病毒感染本身也有潜伏期。所以让全国每个人仅凭身边现有的确诊病例来判断所处环境的危险性,不一定是准确的。我们目前主要选择定性分析,以可视化为手段,也是契合最初的目标。我们希望把从迁移数据里读取到的和确诊疑似病例相关的知识,传递给身边的人,或者更多非专业人士,给大家提供一个新的思考方式——假设我们可以提前通过迁徙数据进行预估,就可以降低低估身边危险性的风险。以这个角度来看,我们前期阶段的目的达到了。之后的团队走向,取决于我们能得到怎样的数据帮助。

 

2.1确诊病例和1.1-1.31武汉流出到各省市人口总数图(Team Xu+可视化累计确诊数据基于2月27日更新)


新京报:可否这样理解,现阶段你们所面临的局限性和模型所处的瓶颈,主要是由于民间团队在数据技术获取方面的困难?


Team Xu +:可以这样说,就像曾有成员提出很高端的模型,但我们无法给予数据支持一样。我们最初开启这个项目也是由于百度公开了迁徙数据,后来我们也和浙大的团队取得了联系,试图接触一些科技公司数据平台,告诉他们我们的模型,希望得到数据支援。他们的公开数据也是不断更新的,刚开始我们只能找到1月10日至25日的数据,但后来发现1月1日至25日的数据都被补全了。所以官方团队可能也意识到了数据的公开可以带来的正面效果。但我们相信官方团队的首要任务一定是全力配合国家,所以作为民间团队我们也非常理解。我们也相信一些科研机构,像清华、北大,以及浙大都有在做这样的研究,但可能由于科研的严谨性,他们需要将整个方法论完善后才能发表。这个过程也算是一种博弈吧。我们也希望一些专家团队能够公开数据,并且提供更强大的科学团队和算法能力来帮助这次疫情。我们同时也相信国家会有更综合的数据来帮助解决这次疫情。

 

新京报:我们也在尝试探讨一些官方团队或是科技公司与民间力量和官方力量的互补可能性,比如科技公司拥有较全面的数据,他们对于模型和统计结论的审核也是比较权威的,但在推广方面,民间团队可能更具有灵活性和点对点的影响力。你们怎么看?


Team Xu +:我们很平常看待这些利弊,更重要的是找到我们与官方团队相比较下的优点和缺点,更好地去配合。专业团队需要代表的不是个人,比如他们代表一间公司,需要一个集体的声音,就肯定要经过内部的各种环节审核。那作为民间团队灵活性就体现在规模小,组织比较扁平,可以及时把数据里的发现呈递出来,与此同时牺牲的就是一些质量和可信度。另外,民间团队虽然灵活度高,但是数据由谁进行处理,被谁获取,做出怎样的解读,都会存在问题。我们也认识一些做辟谣工作的志愿者,很多的谣言可能看起来借助了严谨的数据形式,但会出现误导性的解读。这也是我们团队想要极力避免的,我们希望以发论文的态度来做项目,所有的数据源要注明,处理方法要公开,代码要公布。我们得到的结论,包括数据的整合,都不是一个人的努力,所以大家的创作权需要得到重视。

 

新京报:在将来的数据处理领域,你们认为官方与民间是否存在新的合作?民间的相关团队未来的运营方向会是什么?


Team Xu +:像我们这样的民间团队应该还有很多,他们不应该是孤立的。假如民间团队之间可以相互连接的话,在数据分析的过程中可以相互修正,结论也会更准确,所能达到的高度会更高。所以我们认为科技公司,甚至政府,今后可以提供一个平台或者一个组织,方便民间团队更好地合作。


民间团队非常多,但是如何最大化集中力量去攻破疫情数据这一个难关,团队的兼容性就会是一个问题。数据的兼容性也是一样,比如一个组织的数据来源于百度,其他组织如果是用相同的方法论去处理所有的数据,那么这些数据就是可以相互比较、相互参考的。但假如有另一个团队研究腾讯的数据,之后的数据比较就会变得困难。


这其实就是一个数据口径的问题,好比一个公司的数据指标,在不同部门当中,有关指标的理解可能会统一规范起来。另一方面是数据质量,就是数据的类型和维度才是决定最后数据分析好坏的因素。这两个问题,在大数据处理的过程中其实一直都会存在,小组织和大组织如何去尽量避免它们影响最终结果的呈现,所能做的就是努力将团队间的壁垒打破,多沟通交流,将数据本身和数据之外的一些工具相互补充,互相提供一个资源开放的平台。


所以我们国家可能缺少一个类似Kaggle这样的平台,提供公开的数据给公众去分析。根据一个主题由政府去收集相关数据,民间团队自行分析,公布结果,最后大家投票选出一个最好的分析结论。这个模式值得我们国家借鉴。


对话百度数据团队:

大数据的价值,最重要的不仅是预测


新京报:大数据在此次疫情防控中运用范围颇广,例如通过人口迁徙数据、搜索数据和医疗数据等进行疫情趋势的预测,甚至谣言虚假消息的甄别,从当前的进度来看,我们能得到哪些启示?


百度数据:大数据的价值更重要的不仅是预测,是了解用户需求和焦点,这有利于我们给用户提供更需要的信息和服务。自疫情发生后,用户通过百度搜索、浏览新型冠状病毒肺炎相关信息日均超10亿人次。在每一个突发事件发生的时候,搜索引擎是最先能够反映事态发展的。通过搜索的数据可以看出,网民在疫情中,对这种真实、及时和权威的信息有着诸多需求,一方面要通过产品满足用户需求,另一方面将用户关注的这些信息同步给政府、社会,助力他们及时采取更有效的防控举措。


每天亿级的用户会通过搜索引擎去了解他们不确定的信息等,这其中就包括他们听说的一些谣言。通过搜索大数据、自然语言理解等技术可以快速了解用户对哪些不确定的信息求证。据此,我们可以快速联合权威媒体,通过权威的信息进行回答。尤其是对一些专业内容,还可以找到专家去进行专业化的解答,以达到更高效的辟谣效果。

 

百度搜索大数据报告节选

 

新京报:对于未来大数据的应用,除了技术层面的支持,你觉得还有哪些方面需要跟进?科技公司的数据团队能做的有哪些?


百度数据:社会公共卫生安全信息科普和传播将是长期需要跟进的。例如针对此次疫情,成立疫情及公共卫生安全攻坚专项基金,用于支持新型冠状病毒等新疾病的治愈药物筛查、研发等一系列抗疫工作,以及更长期的社会公共卫生安全信息科普和传播。


作者丨周子恒

编辑丨走走、李永博

校对丨何燕