疫情大数据回顾系列一:为什么早期大数据没有能发挥期待的作用?

南京数睿 2020-03-28

而这个判断的依据就是在广州看到了没有去过武汉的感染新冠肺炎的案例。这显然是一个小数据的判断,是一个典型的专家判断。到这里我们并没有看到大数据的作用。

我们知道通过大量数据的采集和分析是能够尽可能还原事实的真相的,这就是大数据分析的第一个层次:知道发生了什么?我们没有能够通过大数据提前发现疫情的原因在哪里呢?这是我们要讨论的第一个问题。


一、为什么大数据没有告诉我们发生了什么?


首先,我们先忽略这个“大”字,因为在SARS之后建立起来的重大传染病上报系统,如果能够有效执行,通过专业的数据上报,也许不能提前例如在大量病人就诊之前就发现端倪,至少可以在出现少量疑似案例情况下,启动紧急处理机制。

这里出现的问题是,这套机制在执行的过程中,“人治”代替了“法治”。因为本文是技术讨论,所以我们不会去分析“人治”的具体过程和前因后果。这里有两个可以从技术层面思考的问题:

第一个是数据主动采集和被动采集问题

如果系统能够主动抓取数据,而不依赖被动上报,并尽可能减少人为干预,那么就可以大大提高数据采集的质量。我们设想一下,如果公共卫生的大数据可以直接处理全国各地的医疗数据,例如获取病例描述、分析病例关系以及汇总各地的病例情况,而不需要上报系统,或者仅仅把上报系统作为辅助,可能就减少了人为干预的可能。所谓主动采集就是“雁过留痕”,要把本源的信息尽可能还原处理。这对于很多大数据分析应用来说,是最好的数据搜集方式。

第二个是数据透明开放问题:

关注新闻报道的都知道,即便有些数据没有按照要求上报,相关部门也是提前获得了关于疫情的样本和数量等数据,并且对相关样本进行送检和邀请了权威专家实地进行调查。但这里出现了最大的一个问题就是“因果倒置”,背后就是权力需要超越了专业判断。

专家给出的对外结论不是基于事实的因果判断,而是基于权力需要的果。本来权力要根据专业判断来决定下一步行动,但却变为权力下一步行动需要专家给出需要的判断。这可能就是最早的“尚未发现人传人”的结论的来源。如何限制这种“因果倒置”,最好的方法就是实现数据的透明开放,当然这个透明开放是在一定安全控制范围的,而这个范围是不至于引起集体作弊的。数据只要透明开放,很多事情自然就会迎刃而解。过去政府也有类似的例子,冒领养老金,只要和殡葬数据关联,就能发现问题。房屋空置只要和水电数据关联就能发现问题。这里的逻辑很简单,但凡违背公理法则的,总有蛛丝马迹反馈在数据中。

其次,我们再回到大数据,和过去仅仅通过系统内单一的数据汇总分析不同,大数据的“大”更加体现在非线性和多路径,不是数据量越大越好,而是跟事情本源相关的数据的多样性、数据的实时性和关联性在发挥大作用。最经典的案例就是谷歌通过搜索关键词来对流感流行进行的推断,尽管这个案例内在的逻辑还有争议,但作为一个大数据的案例还是很有意义的。

简而言之,就是流感发生之后,不同地区的人就会通过搜索引擎来寻找应对流感症状的方法,从而可以对流感的传播进行一个粗略的计算。

这里有两个假设很有意思:第一个,一个事实总是会通过不同的现象表现出来,以流感为例,简单的就是医院就诊人增加了,另外一个就是自我寻找治疗方案的人多了;第二个,一个事实的现象表现总有滞后性,而这种滞后性可能就意味着,错过了更早干预的机会。简单讲就是数据时效性。以这次疫情传播为例,是只有医院诊疗数据上报才能反映事实吗?肯定不是,在网络充分发展的今天,在虚拟的网络上,一定有一些迹象在某种程度上反映这个形势,或是微信群、或是论坛、或是搜索数据。

再扩展开来,对于医疗救治的现状也是容易通过多个渠道进行验证的,比如床位的不足,一定会有人在网上求助找不到床位。

综合这次疫情处理的过程,特别是在早期,其实很多决策可能都是没有大数据支持的,现行的系统仍然是以流程处理为主的线性系统,而不是以大数据为核心的多元系统。线性系统只能通过层层上报和传递来进行决策和对外发声,并不能了解真实的信息,从这个意义上看,一个针对公共卫生的情报大数据系统就非常关键。

当整个社会都认同的确发生了疫情,这个时候数据的汇总统计和公开就变得必要、理所当然和受到广泛关注,这就诞生了一个最基础的也是最大的大数据应用就是疫情数据通报,这些数据基本上以权威部门发布数据为准,有全国的、各省市的,也有区一级的。

上面简单的讨论了通过大数据了解疫情发生的事实,那接下来更重要的问题。


二、我们必须了解为什么发生?


针对一个生病的个体,我们必须进行传染病学分析,这个人到底是怎么患病的?无非两种可能,一种就是人和动物传播,目前还没有发现具体哪个人是由什么动物传播的。另外一种就是人和人的传播。因为第一种可能还缺乏有效的数据进行分析,所以我们重点来看人和人的传播。

人和人的传播就是大家熟知的ABC问题,假设A被确诊为新冠肺炎,那么和A有直接接触史的人就有可能被传染,比较容易找出的是A有直接接触可能的C群体,例如同事、一起聚会的朋友、同一小区的邻居。这些都可以通过流行病学调查比较容易获得,实在不行可以适当扩大疑似接触群体来进行排查。这里比较难获取的就是路人B,因为这些人群的接触大部分属于偶遇,甚至流行病学调查都不会考虑到的群体。比如有人在和患者一起排队购买鸭子的几分钟内就被感染,也有最近和患者住一栋楼没有接触也被感染。

这些个案大部分是在出现新的被感染之后,通过流行病学回溯进行的推断,因为等到这些被传染者发病再去回溯其实不利于控制疫情传播。所以一度以来,政府部门期望通过大数据的方式来提前或者尽早发现路人B。问题可以简单描述为:找到某个确诊者A可能接触到的B,而B和A没有他们本人确知的互相接触信息。但这个问题到目前为止,并没有能够获得很好的解决方案,但后期也出现了一些辅助的方案,虽然不能解决问题,但可以起到一定的作用。

那么问题的原因出在哪里呢?

首先容易想到的解决这个问题的方法,就是对A和包含B的一个集合(可能是几十人、几百甚至上千人)做轨迹碰撞,这个问题就转化为轨迹大数据的分析问题。

轨迹大数据的难点主要有三点:

(1)如何获取各个个体的轨迹数据?

有三种常见的方法可以获取,最初略的方法是通过广泛的摄像头的覆盖,这样可以获取到大体的目标轨迹,但由于摄像头的覆盖率、视频数据的结构化分析以及距离和时间信息的不精确性以及需要碰撞数据的量,使得摄像头的视频数据更适合围绕单一事件的单个人的轨迹跟踪和主要道路的人群跟踪。

对于在室内和小区域的密切接触,鲜有成功的案例。稍微准确或者方便的方案是使用手机的运营商位置数据,因为大部分人是带有手机的,手机和基站是需要通讯的,通过这个可以获取到手机使用者大体的位置,为什么说是大体位置呢?因为缺省情况下,只能获取到手机所在的通讯小区,这是一个范围,初始的定位误差在几百米范围。后通过例如三角定位算法等,可以优化到几十米范围甚至更低。

但由于历史的原因,运营商能够提供的位置数据的质量参差不齐,原始数据缺失、数据不精准以及数据保存不全等问题都会影响这些轨迹数据的使用。更关键的是这些数据分析本身的合法性或者法律依据缺乏明确的定义。所以通常情况这些数据更多的做一些不涉及个人隐私的统计分析,以及对结果精准性没有那么高要求的场景。

最后更精准的方案是使用包括GPS和北斗定位的轨迹数据,这些轨迹数据的误差只有几米,所以可以比较容易的进行相关的分析。但这个方法针对某个个体仍然可能是失效的,因为对个体位置数据的采集通常是需要用户认可的,并且是和某类应用关联的。可能用户在对数据采集授权时选择了允许一直采集,但仍然不足以对一个范围内所有个体进行碰撞分析。我们平时使用的各类地图导航软件可以大体分析出道路拥堵信息,但也有出错或者信息不准确的情形,本质上涉及到大量数据的算法后加工,因为没有办法获取到全部所需的数据。

(2)如果可以获取到轨迹数据,如何进行有效的分析?

前面我们已经提到,其实几乎没有办法获取到全部准确的轨迹数据,所以即便得到相关授权,我们也只能拿到一定的数据,这个数据用于轨迹碰撞检测,涉及到大量的算法,包括空间校准、时间校准以及时序校准等待,既有物理模型计算也有机器学习模型推断,甚至有专门的学科研究这类时空数据计算。而能够提供理论、工程和服务能力,并且具有位置轨迹大数据分析经验的团队在国内非常稀有。这就是为什么早期即便想到了“轨迹碰撞”这个需求,或者对应这个需求的解法思路也很难取得良好效果的原因。

(3)疫情轨迹大数据分析的场景边界或者约束比较难以定义,因为过去没有经验。

我们都知道对实际事件不加简化的建模就会使得求解空间非常大,而大数据的场景是很好的为纯技术解决不了的问题定义了一个边界或者说约束。比如人与人接触的距离,对于疫情场景,是不是大于1.5米就不需要考虑?轨迹大数据分析给了我们很好的去发现为什么被感染即人传人的途径。

这次疫情大数据中,我们也看到了轨迹或者位置大数据还有很长的路要走,但是需求是切实的,这里既包含如何更好的获取个体的位置数据等技术问题,也包括是否有必要固定采集个体位置数据以及是否在特定时候授权应用的法律问题。虽然在面向个体的轨迹碰撞鲜有成功案例,但利用位置大数据进行一些疫情预报以及重点区域的统计分析在中后期的疫情大数据应用中还是发挥了很好的作用,例如查找周边感染案例、标识感染者所在小区从而对区域进行危险评级或者提醒,以及传播的整个位置分析,例如从湖北来的人,并围绕这些人群进行整体布控都取得了一些成果。

前面我们提到容易想到的是位置数据,其实要分析整个感染病例的传播路径,还需要全面了解病毒的传播方式,从疫情早期的接触传播、到后来的气溶胶传播、粪口传播,这些实际上就为整个传播大数据构建了理论基础,这也再次说明了在大数据分析和应用中领域或者专家知识的重要性。

从分析的方法来看,这些依然是一种因果分析方法,因为找到了存活的冠状病毒,从而得到了相关的结论。当然未来是不是可以通过更多数据的搜集,通过隐藏的关联分析,能够自动发掘传播要素的相关关系,目前并没有很好的应用案例来说明这一点。我们理解疫情大数据更主要是一种求证科学,只有找到可解释的因果关系,才能便于更好的制定出后续的相关措施。


三、大数据如何预测未来会发生什么?


这次疫情大数据应用中,疫情的预测是早期最被关注的应用,我们说预测是为了更好的应对,只有预测准确才能对后续的隔离措施、资源的提前储备以及资源的调度、善后的处理等作出更加科学的规划。这次公共卫生事件的处理也为“预测”这一形式的数据分析提供了很好的范例和经验。

这里要说明的是,预测不是一个问题,而是一系列连锁的问题。

其中最主要的预测就是区域的确诊者数目的预测。做大数据的通常都会容易想到通过大量数据提供的样本来进行模型拟合,从而给出预测模型,例如各种回归模型。但在数据量不足够或者不准确的情况下,通过已有数据进行拟合的预测就不是很准确了。

所以在疫情早期,由于没有办法获取到有效的数据对模型的参数进行设定,导致疫情的预测结果差异非常大。其中基于传染病动力学即SEIR模型的预测被广泛使用,这种基于科学模型的预测已经被广泛应用在大数据场景预测中,并和机器学习预测模型相互验证推动模型准确性的提升。

所以早期预测不准确或者置信度不高的原因主要就是:(1)相关模型参数的确定比较难;(2)缺少足够的数据进行交叉验证和调优;(3)现实的复杂性导致现有模型不能准确反馈病毒传播的特点。

因为预测的准确性在实际疫情处理中有重要参考意义,所以这个事情后续得到了很高的重视,包括终南山院士团队,国际的一些团队、国家队科研机构以及一些民营科技公司都参与了对各地疫情数据的预测。感兴趣的读者可以查看相关的报道或者论文了解这方面的信息。

在疫情的早期有个值得回顾的事情,就是我们对医疗资源的预测和调度是存在重大失误的,特别是在疫情比较严重的武汉地区。到底有多少床位、每天大概消耗多少、未来还需要多少,其他重要的资源也是可以预测的。刚刚开始还停留在数据层层上报和层层加水,以至于闹出了108亿、18亿和108万的笑话。如果我们能够建立起面向疫情的以数据运营为指导的流程、方法和服务,就可以更好的避免类似的问题。从而可以更好的指导突发事件的应对。

我们认为建立可以复用的全面预测能力是未来公共卫生系统需要着力去做的。而这正是大数据发挥重要价值的场所。当我们知道为什么发生以及未来会发生什么,我们就可以提前做一些事情来让结果更好,这就是我们通常讲的处方式分析。


四、此次疫情大数据将如何影响未来?


回顾这次疫情发生、进展和处理的过程,我们有没有通过大数据做一些处方式分析的案例,后期可能有一些局部场景的应用,比如通过大量采集的确诊患者的CT图像进行AI辅助的新冠肺炎判断,但是整个过程中通过数据给出的分析建议或者案例还是比较少的,特别是在疫情发生的早期,我们讲大数据能够提前发现异常并给出建议,找到那些所谓的“惊奇”点,正是大数据的魅力所在。

我们知道今天在新药研发的过程中,通过大数据为基础的AI,已经能够帮助我们更快找到新药的分子结构,但在类似新冠肺炎的诊断和社会应急处理上,我们仍然缺少很好的数据手段。比如如何从浩如烟海的中药和西药中,找到有诊疗效果的药品候选集?如何更好的找到治疗特定病毒的新药?在病人诊断过程中,治疗手段是否恰当以及怎么改进?以及在社会资源调配中,如何更有效达成资源最大化利用,不要说疫情早期了,即便在整个疫情进展过程中,我们仍然没有很好的利用数据的方法或者手段。这些地方都留下了很多值得我们深思的地方。也是我们作为大数据从业者值得深入思考的地方。

上面我们按照数据分析通常的四个阶段:发生了什么?为什么发生?未来会发生什么?以及怎么影响未来的发生?即描述性分析、诊断型分析、预测型分析以及处方型分析的四个阶段,给出了为什么早期大数据没有发挥期待的作用的一些疏见,甚至有些问题不仅仅是早期没有解决,是我们现在依然没有很好解决的,这里面既有问题,更是机会,我们在利用大数据处理类似公共卫生领域这种突发疫情处理上,还有很多的事情需要做,可以做,因为这次疫情实际上给广大人民做了很好的一次大数据场景教育,我们有理由相信这对未来大数据应用和普及是重要的里程碑。

本文给出的分析既不全面也可能不准确,我们把这些作为一个引子期待引入更多的思考。在疫情处理过程中,我们发现了一个普遍的现象就是现有的信息化系统没有办法应对疫情突发处理的要求,这些要求大部分涉及数据的采集和处理,包括民众行程数据的采集、各种调查报告以及各种物资需求的发布等等,所以有媒体甚至发出感叹为什么我们的智慧城市建设没有效果?

笔者按:

新冠疫情发生以来,牵动着无数中华儿女的心,也充分的体现了我们国家上下同欲、团结一致的民族精神。随着3.25号零时起,湖北省武汉市以外地区解除离鄂通道管控,而4月8日零时起,武汉市解除离汉离鄂通道管控,标识着本次新冠疫情的防控和应对取得了巨大的胜利。


在这次疫情防控中,科技防疫发挥了巨大的作用,疫情大数据也经历了早期鲜有应用、到中期主要用于疫情统计、数据上报和数据查核等初级大数据应用,后随着各大科技公司的纷纷加入,大数据在传染人数预测、疫情传播分析、高风险区域提醒以及重大传染源溯源等方面发挥了重要作用,在疫情防控收官阶段,随着各地健康码、复工码和通行证的规模应用,大数据历史上第一次通过为广大人民服务,而为大数据的应用和普及开展了生动的主题教育。


当然在这个过程中,我们也发现了大数据无论在理念认识、系统建设、数据运营还是系统应用都存在需要改善的点。我们期望通过疫情大数据回顾系列文章来揭示其中的点点滴滴,由于不能完全获取到所有信息以及知识有限,如有疏漏和错误之处,还请读者批评指正。

我们将在疫情大数据回顾系列二中揭示这个问题:为什么智慧城市信息化系统失灵了?想要及时获取更多专题内容,可以点击下方关注我们哦~



马上试用产品 免费试用
观看产品演示 观看视频