疫情大数据回顾系列五:从大数据疫情应用看大数据发展

南京数睿 2020-03-28

本文是疫情大数据回顾系列的最后一篇,我们还是回到大数据应用,因为大数据总是通过应用来发挥价值。


尽管在疫情开始,由于各方面的限制,大数据的应用还比较原始或者不及时,甚至在疫情进展过程中,我们对大数据应用的很多期待依然由于种种原因没有能够落地实施,但在整个过程中,我们还是看到了很多大数据应用真正切实改变了人们的生活,大大提高了效率。



在本文的系列一,我们也见缝插针的给出了一些大数据应用的例子,围绕数据分析的四个阶段:发生了什么?为什么发生?未来会发生什么?以及怎么影响未来的发生?即描述性分析、诊断型分析、预测型分析以及处方型分析给出了一些应用案例。但这种基于目标的分析方法还不足以梳理疫情大数据应用的脉络,在本文中,我们试着换一个方法来组织对大数据疫情应用的分析,并在分析过程中,给出我们的一些总结和思考。


大数据疫情应用本质上属于公共卫生信息化范畴,而围绕公共卫生事件的应急管理属于国家大应急管理的一个门类。对于这类应急管理事件,我们可以用OODA环理论来分析。


OODA 循环又称博依德循环,由美国空军上校约翰·博依德(John Boyd)提出。OODA是观察(Observe)、判断(Orient)、决策(Decide)以及行动(Act)的英文缩写,最早用于美军作战系统,后来也被用于围绕信息采集、分析和指挥决策等的突发事件处理。从战争的视角看,这次围绕疫情的处理循环可以看做一场人民和病毒的战争,我们就顺着这个脉络来分析各个处理阶段的一些应用。这里要说明的是整个OODA循环本身又可以包含OODA小循环,是互相协调的步骤。如下图所示。为方便读者理解,本文我们还是围绕着主循环的四个大的阶段来给出说明。


1

观察


什么是观察?就是搜集各方面的信息,典型的就是情报大数据,譬如疫情大数据情报,就是要从正式渠道,包括公共卫生报系统、HIS系统或者社区综合治理系统等采集各种大数据,以了解发生了什么事情。也包括非正式渠道,包括各种媒体,社交群,甚至是类似“朝阳群众”这类信息众包系统。这些数据主体可能是结构化的信息,例如各种信息化系统的接口数据,也可能是半结构化的文本数据或者类似图像、声音或者视频的非结构化数据。观察是浅层的事实搜集,却是所有分析决策的开始。

(1)疫情筛查暨个人信息填报

 个人信息填主要是了解各个个体在疫情期间是否去过疫区?有没有新冠肺炎的指征(主要通过体温)?有没有乘坐过确诊病例的交通工具(主要是飞机和铁路)?有没有迁移的计划(比如离开本省计划返回时间)等等。可以说早期的信息填报几乎是个体大数据的唯一来源,甚至刚刚疫情开始的时候,需要通过社区人员上门手工采集相关数据,工作量非常大,而且容易遗漏,所以早期所谓大数据应用,就是把纸质的这个动作变成通过手机端来采集,移动应用或者小程序或者H5页面。

下图左边是钉钉针对学校的健康上报系统,右边是微信的疫情情报群众上报系统。


这些疫情大数据采集系统其实谈不上大数据,就是一个朴素的在线数据搜集的应用而已。既无法保证采集数据的完备性(表单是各个组织根据需要设计的),也不能确保数据的准确性(依赖于人的填写),更无法共享数据(不同部门可能都需要数据,所以需要重复采集),甚至填写的方式和频率也不尽相同(有表单,也有通过微信反馈的)。

延伸应用一、通过智能语音机器人辅助采集信息

疫情机器人在这次疫情防控中,主要用于数据采集和百姓咨询,前者主要通过自动拨打电话(采用合成语音TTS)给相关人比如忘记填报或者不会使用智能手机的人(老人)以辅助采集相关信息,这些信息最终通过语音识别转换文字之后作为填报数据统一汇总,后者主要是基于语音识别之后进行自然语言对话,过去主要用于银行或者电商的客户服务场景,这次用于老百姓疫情信息查询或者相关求助也是比较自然的事情。

智能语音机器人对于减少人工参与,提升信息采集和查询效率已经被证明是很好的工具,尽管还存在识别不准确,对话不自然等限制条件,但在大数据或者人工智能应用中已经是比较成熟的场景。


延伸应用二、通过轨迹数据查询个人过去14天所到城市

大家知道区域隔离是这次疫情管控的关键,对于高风险区域特别是湖北的城市,是严格限定出入的。各个城市也会根据过去14天的行程制定严格的居家隔离措施,例如北京,对于所有国内的离京返回人群统一进行14天的居家隔离措施,怎么判断14天有没离京,主要就是根据用户使用手机的大数据查询和分析,这是一个很切实际的应用,其一,轨迹数据查询是严格的需要用户授权才能查询,而且是在用户设备上发起,从而确保了隐私性;其二,轨迹数据并不涉及用户的精确的轨迹数据,而只是客户的漫游数据,所以即便被检查人员看到也不涉及个人很私密的信息。



(2)围绕人体测温和人脸识别的视频应用

除了收集疫情筛查信息外,以智能摄像头作为核心部件的安全防控解决方案也被大量应用在机场、酒店等各个地方,其主要功能包括:人体体温测试,主要采用红外的方式进行,这种方式灵敏度高,且适应大流量测试;人脸识别,主要对关键人员轨迹进行辅助识别,属于传统应用范畴;戴口罩识别,在人脸识别中即使带了口罩也要能够识别出相关人员身份,而这里主要是作为强制防疫措施的自动核查即不戴口罩是不被允许的。



延伸应用一、社区门禁加上摄像头自动识别功能



早期智能门禁主要是刷智能门禁卡,随着摄像头特别是带人脸识别的摄像头技术的成熟,人脸识别门禁被大量应用在智慧小区的入口识别,其不仅仅用于开关门,还涉及实名客户轨迹的确认,它既可以解决过去人卡不一致的问题,还可以解决便利性的问题,也有小区通过智能门禁和摄像头的组合来进一步对小区进出的安全事件进行检测,包括尾随进入、徘徊等。

在此次疫情防控中,为了提升防控的效率和自动化,很多社区使用了带人脸识别和摄像头结合的智能方案,提升了小区管控力度和效率,也得到了百姓们的支持和上级政府主管单位的认同。这些数据可以有效的作为前述采集数据的补充。

延伸应用二、民宿实名登记和人脸识别装置



过去酒店的登记和管理相对比较正规,随着人脸识别技术的成熟,酒店使用相关设备进行核验已经比较普及和成熟。而民宿实名登记和管理相对不完善,对公安系统一标三实的数据准确性带来了挑战,特别是那种类似日租或者临时的租房。

通过应用包括前述的门禁设备加更多人脸识别装置,民宿的数据准确性有望带来很大的提升。疫情的发生使得我们对社区的精细化管理要求更加严格,通过广泛铺设的智能硬件设备的采集,可以大大增加数据的准确性和实时性,防患于未然。

2

判断



判断是OODA的第二个O(Orient)的中文翻译也有翻译为分析的,其含义是将各种信息融合起来进行分析以产生进一步的洞察信息,这些信息可能是对表面现象的进一步关联、背后原因的挖掘、异常的发现等等。

简单的大数据统计分析可以发现整个疫情的基本情况,包括感染者和疑似感染者等,这些信息可以按照时间和空间来进行划分,并进而可以对地区感染趋势进行查看,这是一般统计学的范畴。复杂一些可以是对确诊患者的关系分析和挖掘,通常使用流行病学调查就可以发现一些端倪。

我们在回顾系列第一篇章,已经给出了所谓ABC传染路径的分析问题,流行病学调查可以容易发现AC的传播特色,但没有更多技术手段支持很难发现B。而且这种关系由于一般只能发现显性关系,所以从提前遏制的角度来看,效果一般。

(1)疫情汇总统计和分区域统计

数据统计和汇总应该是数据分析的最简单手段,但对大众来说可能是最重要和最直接的数据感知,下图是国内最早以图表展现形式给的关于确诊、疑似和重症的统计数据,也包括了对增量的一个统计说明,这些说明就是一些简单的判断或者说分析。但这些最关键数据的提供可以大大缓解人们的焦虑或者关注,这些数据大多来自卫计委部门的官方数据,但为啥很少有人去查看那些数据,我在前面的文章也提到了,要用用户体验良好的方式展示数据分析结果。这个就是数据可视化的重要性。



为什么把这两个应用放在一起,从用户体验上,这些应用只提供数据,需要客户提供出行信息或者位置信息才能获取到最终的结果,这个在未来也是大数据获取数据进行判断的一个重要方向,即系统提供一部分数据,用户提供数据再生成最终的结果。

患者同乘应用出现背景是比较“原始”的,最早无糖信息科技人员通过人工采集各个地方发布的确诊患者的乘车信息汇总了这个数据库,然后提供出来再进行查找就比较容易了,而疫情小区的信息也是类似的。

从这个角度看,有时候数据关联如果没有很好的顶层设计和规划,数据的提供还比较发散,要为应用提供良好的判断,就比较棘手。这也说明,我们国家关于公共医疗卫生的数据打通仍然是亟需解决的问题。

(3)确诊人员的流行病学调查暨人员关系分析


现在科学已经意识到人类社会是由复杂的社会关系网络组成,人们在物理空间、社会空间和信息空间的交互就是复杂关系的产生、加强、消灭和重连的过程。所以在大数据领域基于关系的实体分析非常流行,尽管分析的技术各有不同,通常用于关系分析的技术包括:数据挖掘的关联分析、知识图谱以及复杂网络分析等等。

这里面不仅仅有数据科学的难题,也有复杂社会动力学的问题。尽管很少将关系网络等应用直接提供给最终用户,但政府部门或者学者在研究时,往往会使用相关技术来发现传播路径或者找到隐藏的传播节点。

上图是个简单的确诊患者相关的关系网络的可视化,最简单可通过调查,人工画出相关的传播网络图,一般适用于显性知识的可视化,如果要发现网络的复杂问题,或者需要自动化挖掘网络知识,还需要借助包括机器学习、知识推理等专门知识。

延伸应用一、知识图谱用于新冠疫情知识传播



如上图所示,有一些公司针对新冠肺炎的知识传播,也生成了一些知识宣传或者助于科研的知识图谱。这些可视化的图谱可能对于人们学习和认识疾病有一定的用处,但并不能带来多大的实用价值。

延伸应用二、密切接触人员轨迹碰撞



如上图所示,密切人员轨迹碰撞试图利用人和人之间的空间关系来推断确诊患者可能的密切接触人群,位置数据可以是视频数据、移动基站定位数据以及GPS数据。过去位置碰撞常常用于公安系统同伙发现,与公安系统同伙发现还可以从多个角度找到可能性(不会只同时出现过一次)不同,疫情密切接触的位置数据由于存在临时性特征,例如只是一起排队买菜(有相关案例的报道),所以很难发挥作用。

目前尚未见有公开报道做位置分析可以发现确诊人员的密切接触者的案例,尽管专家、政府甚至大众对此都有期待。从笔者了解的情况,有一些范围性的轨迹碰撞或者统计性的碰撞案例,只能起一些“安慰”作用,还不能发挥核心作用。但轨迹数据的碰撞值得细致的研究。

3

决策



在了解了事实掌握了情况之后,就需要依据掌握的信息进行决策,比如准备采取什么行动?为了决策更加有效有时候也会采用辅助方法来进行。

其一预测分析,预测分析的本质是为了更好的做决策,这里面包括一些机器学习的方法和数据统计的方法,也有一些物理方程的方法;其二科学仿真,仿真是认识事物规律过去常用的方法,也用于通过不同要素的搭配对可能结果进行模拟,来为决策者提供决策依据;其三运筹优化,运筹优化用于决策有非常悠久的历史,选址和路径规划是最常见的运筹优化的场景,另外关系到资源匹配、库存管理或者投资的组合优化都可以用运筹优化来解决;其四推荐引擎,推荐是根据过去的经验,给出的决策建议,良好的推荐系统不仅仅考虑过去的经验也考虑先验知识和最近的情况。

在大数据应用中,大家比较熟悉的智能辅助可能是一些机器学习的方法,但更多决策实际是基于数据建模和先验知识的。尽管有很多系统特别是国外的一些仿真系统也提供了一些仿真应用或者决策辅助功能,但真实事件中很少看到相关的案例,这也说明了从认知的角度或者决策的角度,我们还有很长的路要走,特别在实战化方向。但我们也看到在预测方面,这次疫情还是有很多很好的应用。

(1)确诊人数即感染人数预测



关于感染人数的预测一直是大家比较关心的问题,不仅仅涉及到对传染程度的整体评估,还涉及资源调配、社区管理等等一系列措施的制定和实施,所以一度以来关于中国新冠疫情感染人数的预测就有不同的说法。

目前从官方数字来看,确诊病例大概在8万左右,基本和很多预测模型的数据一致。但预测模型只是给一个量级的估计,考虑存在早期快速传播,后续人员返共以及境外输入以及存在一些病例没有及时确诊可能死亡等复杂条件,真实感染人数和确诊病例之间还有一些差距。但目前公认的事实是,中国国内疫情传播基本得到抑制,熟悉整个疫情专家组对外发生过程的都知道,这个预测数字还是非常关键的,对于确认是否出现拐点,封城措施的解除以及复工复产都有重要的指导作用。

疫情预测采取的方法有很多,但通常比较流行的是基于SEIR的传染病动力学模型,这是一个数学方程的形式,考虑各种情况对相关参数或者结果会做一些修正。大家看到的预测很多都是SEIR模型方式,等数据积累到一定程度也有使用机器学习的方式来做,典型的就是一些回归方法,这些方法各有一些优缺点,所以有时候也会结合起来进行交叉参考。

关于预测的准确性,笔者的观点,我们更应该把预测作为一个认识问题的手段而不要看做结果,从大的方面讲,可能所有预测都是不准确的,因为有太多复杂要素,如果再考虑人为干预就更复杂,但对于指导是没有问题的。

(2)新冠肺炎CT影像的AI辅助诊断



这里的大数据也就是新冠肺炎患者的CT影像样本,通过识别几千个病例的样本,再结合人工智能学习样本的病灶纹理,最终建立了一套针对新冠肺炎CT样本的AI算法。

算法训练的结果就是,可以让AI以96%的准确率从待诊断患者中识别出新冠肺炎患者的肺部CT。其实AI辅助识别病例不是新鲜事,但这个依赖于大量数据的训练,实际工作中也只是作为一种参考。
 

4

行动



一旦有了决策,下面就需要执行,行动的执行一个是解决效率问题,尽量提高投入产出比,能自动化的自动化,类似智能督办、智能推送都是一些提升效率的方法,金融系统里面使用智能客服进行催缴就是一个典型提高效率的方法,在疫情处理中涉及电话沟通的可以通过智能督办来完成。

行动的执行还要解决效果问题,通过A/B测试即两种方案对比,或者人和机器协同,或者持续闭环学习等都可以提升行动的效果。

在疫情中,我们也发现一些简单的信息化应用(有些基于大数据的)可以大大提升防疫的效率,这次疫情最出彩的就是健康码。健康码根据输入的相关信息以及过去的行程信息以及地方政府要求的信息最后生成一个表示危险性的健康码,通过不同颜色来标识,一般绿色的都是通行状态。


以上,我们简单回顾了一下大数据疫情的一些典型应用,我们也发现整体而言,大数据包括人工智能的应用还不够深入,缺少杀手级的一些应用,比如轨迹大数据碰撞应用、资源匹配和调度应用、疫情情报大数据分析应用等等,这些核心应用对于大数据疫情的判断和指挥非常关键,还有待于我们持续去攻克。

我们也发现大数据本身还依赖信息化流程应用的构建来发挥作用,前面提到这三类应用大部分和业务系统的构建即能否获取到相关数据有关。下面结合笔者的经验也结合这次疫情大数据应用的一些知识,我们来看看大数据发展的一些趋势。

首先我们可以看看中国计算机学会在2019年12月召开的大数据技术大会上对2020大数据十大趋势的预测,笔者也参加了相关的调研,基本上这是各个专家的普遍共识,我们先来看一下:




(1)数据科学与人工智能的结合越来越紧密
(2)机器学习继续成为大数据智能分析的核心技术
(3)大数据的安全和隐私保护成为研究和应用热点
(4)数据科学带动多学科融合;基础理论研究受到重视,但未见突破
(5)基于知识图谱的大数据应用成为热门应用场景
(6)数据的语义化和知识化是数据价值的基础问题
(7)人工智能、大数据、云计算将高度融合为一体化的系统
(8)基于区块链技术的大数据应用场景渐渐丰富
(9)大数据处理多样化模式并存融合,基于海量知识仍是主流智能模式
(10)关键数据资源涉及国家主权



有个基本共识就是大数据和人工智能的交叉越来越多,一个是大数据系统或者基础设施的建设经过这么多年相对比较成熟,特别是随着hadoop、spark以及flink等优秀开源项目的出现,尽管在大数据系统层面还有很多棘手的问题需要解决,但是基础还是比较扎实的,当有了这些数据,人们期望从大数据中获取深层价值的时候,自然人工智能的结合就会越来越紧密,有时候也把数据智能来形容这些交叉处理方法。

其中最典型的就是机器学习技术,特别是深度学习。最近几年大数据的核心应用几乎都是和机器学习相关,尤其是深度学习为核心的图像识别、语音识别和视频处理等。当这些基础的数据的感知需求被满足之后,大家对大数据的知识化应用,通常在人工智能也被称作认知智能有了更大的诉求,一个特点就是期望通过海量知识来推动认知进步,大规模知识图谱、大规模图网络以及人为因果图等知识推理的深度应用一直吸引着学术界和工业界

在前面系列文章中,笔者也重点提到了数据安全和隐私,这次疫情期间也发生了一些值得关注的事件,所以未来安全和隐私保护一定是研究和应用的热点,这里面区块链技术也会发挥一定的作用。在基础理论还不成熟,或者继深度学习之后,有没有巨大革命技术来推动数据智能发展,现在还看不到,工业界着重在考虑超融合系统建设,尽量发挥软件和应急系统的协同作用。这些基本认知和大数据专委会的一些趋势判断也是一致的。

结合前面几个系列以及本文提到的一些大数据疫情应用,笔者试图对大数据发展特别是应用发展给出一些判断,供读者参考:

Q
未来大数据发展方向?
A

大致发展判断主要有以下几点:

1、大数据本身不是“业务”,大数据是赋能者,其价值取决于其赋予的业务的价值
2、与节省成本相比,企业经营者更期望通过大数据提升企业收入
3、无论是善政、惠民还是兴业,提升效率和效果,是政府最关注的话题
4、从感知到认知,企业和政府对大数据有更多的期待,大数据离不开人工智能
5、数据安全和隐私会从“副业”成为“主业”,甚至产生革命性影响。



限于篇幅我们不展开解释,有一个核心就是大数据更多要和其服务的业务结合在一起,找到关键场景并去解决业务问题才能真正实现价值。推荐系统用在疫情防控可能价值不大,用于广告推荐可能就会带来很大的收入。

在目前大经济形势下,对企业来说,可能开源比节流更重要,所以大数据围绕着营销和市场可能更需要。经过此次疫情政府的需求会进一步释放,对“实战”的期待也会增加,所以未来的大数据政府应用必须拿出真本事,就是提升办事的效率,提升质量的效果。人工智能依然是为了热点,数据驱动进一步从数据化往智能化演进。最后就是安全和隐私的革命性作用,感兴趣可以参考本系列前面的文章。


END


至此,本系列五篇文章全部完毕,笔者期望通过这些文章了解大数据,结合案例感知大数据作用,并进而进一步指导我们后续的工作,我们在大数据的宏途上才刚刚起步,任重而道远。









马上试用产品 免费试用
观看产品演示 观看视频