疫情大数据回顾系列三:数据隐私保护向左还是向右?

南京数睿 2020-03-28

关于数据的隐私我们先从疫情期间几个事件说起,一个是武汉返乡人员信息被泄露事件,政府为了有效的进行疫情防控,通过大量数据采集来了解人员移动情况,以便做出隔离、监控和协助等措施本身是件好事,但这些信息直接暴露在网上,就有悖初衷了,据网友爆料,多地武汉返乡人员在配合调查后,相关个人信息被泄露,包括姓名、家庭住址、电话号码、身份证号和返回车次等等,这些信息又通过各个微信群传播,迅速的广而告之。不少人因而受到了很多陌生电话或者微信的骚扰。还有一个是比较著名的《一个武汉女孩的真实日记》,一个女孩真实记录了自己在疫情期间遇到各种变故和心酸,但却在未授权的情况下被别有用心的自媒体用于了炒作性宣传,以吸引眼球,获取流量。这个事件在传播后因为各种不实的加工和人肉给这个女孩带来了很大的困扰。更有甚者是居然有不法分子打着“采购防护物资”、爱心捐款、“互助帮忙”等各种名义恶意搜集个人信息进行金融诈骗等违法活动。


随着疫情进展,无论是早期的疫情排查、后续的隔离防治以及物资需求调配,出现了很多搜集个人信息的行为,有线下纸质填表的、有官方的应用在线搜集数据的还有其他各种企业开发的多样的应用收集数据,这些大量的数据采集都会涉及个人数据隐私的问题,并且由于发生了一些事情,使得很多人非常担心个人隐私数据被泄露,被非法采集和使用。为此,国家多个部委也发布了相关的要求和提醒,2月9号,中央网络安全和信息化委员会办公室发布《关于做好个人信息保护利用大数据支撑联防联控工作的通知》中提出两点要求:一是明确做好个人信息安全防护,二是充分发挥大数据在疫情中的作用。为疫情防控、疾病防治收集的个人信息,不得用于其他用途。任何单位和个人未经被收集者同意,不得公开姓名、年龄、身份证号码、电话号码、家庭住址等个人信息,因联防联控工作需要,且经过脱敏处理的除外。收集或掌握个人信息的机构要对个人信息的安全保护负责,采取严格的管理和技术防护措施,防止被窃取、被泄露。交通部在1月30日发布紧急通知,要求依法严格保护个人隐私和个人信息安全,除因疫情防控需要,向卫生健康等部门提供乘客信息外,不得向其他机构、组织或者个人泄露有关信息、不得擅自在互联网传播。


其实数据隐私的问题在最近几年受到大家越来越多的重视,一个确实在国内外发生了很多和数据隐私泄露相关的事件,早几年国内的徐玉玉事件、开房记录泄露事件、国外Facebook的剑桥门事件以及最近发生的微博大量用户数据泄露事件。第二个确实用户真实的感受到自己信息“好像”被泄露了,比如刚刚浏览了一个产品,等到了另外一个网站,马上被推荐类似产品,或者不断的有人联系推销各种产品。这些都给数据安全和隐私的保护提出了迫切的需求。国家层面历来也非常重视个人信息的保护,《刑法》《网络安全法》等都有相关的条例,并且最近刚刚发布了最新版本的《个人信息安全规范》。大家期待已久的《个人信息保护法》也在紧锣密鼓的制定中。但是,我们现在都知道“大数据”是生产生活重要的原料,合理使用大数据能够有效提升政府治理的效率,能够帮助广大企业更好的了解消费者,从而开发出更好的产品和服务,为消费者服务。回到数据隐私的保护既不能任意开放,肆意共享,而置老百姓权益于不顾,也不能因噎废食,完全阻止个人数据的收集,从而阻碍了创新和生产效率提升。事物有其发展规律,“左”的冒险主义,期望一招搞定,马上出台尽善尽美的管理方法,或者“右”的保守主义,任意放任侵害个人隐私行为的发生。本文围绕数据隐私向左还是向右的问题做一些不成熟的探讨。



我们在分析一个事情的时候,说要一定要对概念有个基本的共识,就是我们在谈什么。我们讲数据隐私的保护,这其实属于数据安全的范畴。所谓数据隐私保护就是不期望个人或者其他主体拥有的私密数据被窃取、滥用和误用。在本文中,我们不对企业或者政府拥有的私密数据保护做探讨,我们这里的数据隐私保护主要是指个人隐私数据的保护。首先要说明个人私密数据被窃取的问题,这是一个基础的数据安全问题,包括个人自持的数据被窃取,例如个人计算机被攻破,存在网盘中的隐私数据被窃取,个人(数据主体)授权使用或处理数据(数据搜集和处理者)者数据被窃取。我们本文提到的数据隐私保护更多的是针对数据搜集和处理者,以防止数据滥采滥用以及一些误用。前面我们也提到,在新经济时代,大家已经意识到数据对刺激和推动新经济发展是不可或缺的,任何对于数据可用性的改版和限制对经济的伤害都将是深远的,并最终伤害到消费者,所以在安全性和可用性之间需要一个平衡。从这个意义上来说,隐私的保护是复杂的,因为个人数据非常复杂,数据来源不同、生成方式不同、数据使用方式不同以及目标不同,简单靠法律来界定全部是困难的。

笔者在工作中遇到了截然不同的两种观点,有观点认为,法律定义不明朗,界定不清晰,还是保守好,但凡涉及隐私的数据一律不允许搜集、交换和共享。还有观点则认为这显然会阻碍创新,期望在尽可能考虑数据保护情况下,步子大一点,先把应用做起来,后面有问题再修改,法律的定义不也需要实践去摸索反复迭代验证吗?法律目前的规定是在明确告知数据采集的内容以及用途并得到用户许可的情况下,是允许搜集用户隐私数据的。但是很多问题就出在这里,有很多企业倾向于搜集更多的数据,他们把用户的许可写得含糊其辞,隐私政策声明生涩难懂和狡猾。甚至只给用户“全部同意”情况才能使用应用的选项,从而使得用户被逼共享了不该共享的数据。我们在后文讲谷歌收到的关于GDPR诉讼也有类似的桥段。有人提出更严格的限制也就理所当然了。

现在我们来想一下用户在什么情况下才允许或者乐意共享自己的隐私数据呢?一个常见的例子就是信用贷款,用户愿意提供更多的数据以证明自己的信用能力,从而获得更好的额度、利率和更快的审批。Forrest公司把这种场景叫:情景化的隐私,就是在彼此同意的背景下,为了一个相互认同的目标,进行情景化的个人数据收集和使用的商务实践。这里也阐明了企业制定良好隐私方案的几个前提,其一,是为特定使用目的,比如这里是为贷款;其二,是有时间或者次数限制的,比如这里是在申请贷款期间或者只能查询一次;其三,是有程度不同,用户想多贷一些就要提供更多的数据,信用贷可能比抵押贷需要个人信息更多。这里其实涉及到了数据隐私保护的一个本质问题,就是价值交换问题,就是付出多少、得到多少?这个付出不仅仅是把数据共享出去而是要考虑其他后果,比如泄露后的结果。

随着大量隐私事件的暴露以及消费者对自身数据的关注,大家逐步的建立起了保护个人隐私的意识,在国内尽管还没有上升到大量的诉讼的情况,但有意识的维权或者自我保护还是有的,比如本文开头提到的武汉女孩的事件。前面也提到隐私数据共享本身对消费者也是有益的,消费者害怕共享隐私数据的一个关键是没有对隐私的损失有个明确定义。人们害怕被知道(你是谁?),知道关于自己的一切(你有哪些特征或者属性?)以及能够通过怎样的方式被找到(你在哪里?怎么联系?)。这是三个不同隐私级别。按照隐私损失由小到大不同,隐私可以分为共有隐私(你有哪些特征或者属性?)、身份隐私(你是谁?)以及访问隐私(你在哪里?怎么联系?)。共有隐私最广为大家熟知的应用就是用户画像,隐私保护良好的用户画像是不需要知道用户的身份信息的,即无法追踪到消费者个人,例如互联网公司通常会通过一个虚拟身份标识来标识一个用户,而不需要知道用户的姓名、身份证或者电话号码等个人身份信息。用户画像一个是为了通过许多个体对群体进行画像,一个是为了了解目标用户特征以便提供个性化的服务,而这些都是可以在不需要了解用户身份基础上完成的。相比较共有隐私,消费者对获取包括用户姓名、身份证号码、出生日期、出生地点以及诸如医疗、教育或就业信息这些能够连接到某个个人的信息是担忧的。因为通常有了这些信息就有被“人肉”的风险。大量的隐私泄露的事件就是“身份暴露”,所以身份隐私泄露造成的伤害要大大超过共有隐私。这就不难理解为什么,医院就诊记录、公共卫生情报数据(如疫情防治采集数据)以及社交媒体个人注册数据(微博、微信以及QQ等)一旦造成泄露会引起很大的恐慌。最严格被保护的隐私是访问隐私,就是直接可以联系到这个人了,典型包括:手机号码、个人住址以及邮件账号或者社交账号。因为邮件账号和社交账号有时候是用于业务联系主动公开的,所以前两者的暴露往往是否非常严重的个人隐私泄露事件,其危害在于可以物理的去连接到这个人。这些信息往往存在于移动运营商、物流快递以及社交媒体或者互联网服务商。

当我们把隐私按照不同级别进行划分,可能就为未来隐私数据的保护措施和应用奠定了一个良好的基础,例如共有隐私数据,可能需要建立一个类似IP地址的标识来不泄露个人身份的情况下进行关联,即保证唯一性(不同个体有不同的标识)、同一性(同一个体不同属性、特征数据可以关联)以及单向性(无法通过关联属性反向推断个人身份)。而对于身份隐私和访问隐私,要构建消费者可以控制的访问机制,例如要获取用户身份需要额外的权限,而且无法将想相关数据进行保存。比如需要获取身份证件,那么身份证件的用途需要明确核定即只能用于特定用途。再比如只能通过虚拟电话号码在需要的一段时间能够联系上消费者。现在包括滴滴、快递公司使用的虚拟号就是一个很好的保护个人隐私的应用。


在个人隐私方面最近几年发生比较有影响的一个时期就是2018年5月25日,欧盟颁布的GDPR正式生效。GDPR是英文“General Data Protection Regulation”的缩写,通常翻译为“通用数据保护条例”,其推出旨在遏制个人信息被滥用,保护个人隐私。在当时的影响非常的大,不仅仅在于其是第一个比较全面推出个人信息保护的具有强制法律约束效率的条例,而且其对企业处罚力度之大也是非常少见的。行为轻微的要罚款1000万欧元或全年营收的2%(两者取最高值),行为严重的则要罚款2000万欧元或全年营收的4%(两者取最高值)。根据欧盟数据保护委员会的回顾评估报告,自2018年5月到2019年12月30日,各国监管机构已对GDPR下的违规行为进行了总计785次的行政罚款,罚款金额累计超过4.2亿欧元。GDPR对于个人数据收集和处理有几项重要的原则:其一、收集、使用和保留个人数据必须保留在绝对必要的范围内且必须获得用户许可。其二、必须给予用户多种选择,Facebook和Google在GDPR实施后更新的隐私条款因为未能给予用户同意的自由选择权而面临着巨额罚金诉讼。其三、数据隐私政策必须清晰明了,包括收集和使用的具体目的等内容;其四、确保用户对数据的遗忘权,用户可以要求删除或更改个人信息。


GDPR中对于个人数据有相关的定义,其将“个人数据”定义为“与一个确定的或可识别的自然人相关的任何信息。可被识别的自然人是指借助标识符,例如姓名、身份标识、位置数据、网上标识符,或借助与该个人生理、心理、基因、精神、经济、文化或社会身份特定相关的一个或多个因素,可被直接或间接识别出的个人。” 不仅仅是个人数据被列在条例保护范围,对于个人数据的处理也被列在保护的范围,这其中最被大家熟知的就是用户画像,GDRP中用户画像指的是为了评估自然人的某些条件而对个人数据进行的任何自动化处理,特别是为了评估自然人的工作表现、经济状况、健康、个人偏好、兴趣、可靠性、行为方式、位置或行踪而进行的处理。从这里可想而知条例对于个人数据的保护是非常严苛的。


笔者在这里无意于去解读GDPR的细则,我们只拿谷歌为什么收到集体诉讼的一些例子来说明为什么GDPR的影响是如此之大,如果确实严格执行并纷纷得到效仿可能会改变整个业态的格局。首先,诉讼者认为谷歌关于数据处理的说明信息不够清晰、易懂,认为谷歌的数据处理行为是“大量且具有干扰性的”,用户没有办法清晰的明白谷歌为什么要搜集这些数据,不了解这些数据处理行为带来的后果,无法衡量其对私人生活的影响。其具体表现为:收集数据来源广泛,既包括手机使用过程中的数据,也包括使用谷歌提供服务的数据;数据类别繁多,包括用户提供的注册信息,还包括用户行为数据,其中更是包含了用户的敏感信息例如地理位置和浏览记录;数据处理复杂,谷歌对于搜集的数据做了各种复杂的分析和处理,这些数据目的是为了更好的“还原”用户隐私。谷歌并没有准确且全民的对数据处理的上述情况和用户说明,而仅仅是以“我们收集的信息将用于改进我们的服务”,用户不能够充分了解如此而带来的后果。其次诉讼者认为为个性化广告所搜集的数据缺乏法律依据。用户没有办法根据谷歌提供的信息来了解谷歌到底使用了哪些用户个人信息来提供个性化的广告服务,也不知道是如何处理这些信息以提供个性化广告服务的。另外,用户几乎没有办法不同意个性化广告服务而使用谷歌的服务,尽管谷歌提供了对于个性化广告服务的选项进行用户选择的定制。


从上面分析可以看到,这些数据的收集恰恰是谷歌的商业模式所在,为用户提供大量免费的优质的互联网服务,然后通过大量数据采集后更准确的为用户进行画像,并最终通过商业广告进行变现。除此之外,这些大数据也用于谷歌进行产品的体验改进和确定新产品的方向即指导产品和服务创新。当然也有人会质疑获取的数据被用于其他目的,比如用来监控和跟踪用户或者用户和其他厂商交换以获取利益。此外,如果正如上面所述要把整个数据的采集、处理讲得非常明白或者为用户提供丰富的选项,对谷歌来说也存在巨大的投入或者说技术的难度,比如一个个性化广告服务的决策过程可能是由一个复杂的算法所决定的。从这个意义上说,要满足GDPR不仅仅是技术活,更需要大量的投入。所以,我们看到GDPR实施之后,很多厂商直接就屏蔽了欧洲地区的用户,或者干脆为欧洲用户提供了一个裸的简化版本。这可能有走入另外一个极端,这种保守的左的思路未来会不会影响更多的厂商以及进而在除了欧盟之外的其他地区带来影响,我们拭目以待。


通过前面的分析,我们大体了解了个人隐私保护的重要性,也知道隐私保护既不能放任不做,也不能完全限死。但有个趋势是明确的,无论是国外还是国内对隐私保护肯定会越来越被重视,越来越规范。同时我们也明确知道新经济的发展离不开隐私数据的采集和共享。需求既然存在,旧的办法又解决不了问题,笔者认为这里面就藏着大的市场机遇。


首先要回到数据隐私保护的本质必须解决好“价值交换”这一核心问题。个人数据既然属于消费者,消费者可以许可将数据供企业使用,企业必须为消费者提供对等的价值。从目前情况来看,企业从消费者数据共享中获取了最大份额的利益,极少或者完全没有把这部分价值返还给消费者。想想那么多依靠在线广告赚得盆满钵满的互联网公司。企业应当与消费者共享这部分价值。要么类似前述的贷款服务,用户能够贷到钱,贷到更多的钱或者更好的利率贷到钱。要么通过共性隐私让广告更精准,用户可以分享广告的收益,无论是直接的现金奖励还是更便宜的价格拿到供应的商品。未来能够推动这个“价值交换”网络构建的公司,可能是革命性的。我们也看到有些公司已经开始在做类似的创新,例如提供个人数据银行,当使用者需要访问时,需要得到用户授权,这种授权需要给用户带来收益。也有提供分享数据信息提供直接或者间接现金奖励的。


这里我们得重点提一下区块链,区块链的核心是提供了一个“价值交换”机制,价值交换必须解决三个重点问题:(1)谁拥有,即归属权的问题;(2)谁贡献,即围绕价值交换的所有行为是谁在做?(3)谁受益,即要解决好拥有者和其他贡献者的收益问题。区块链很好的解决了这三个问题,建立在区块链之上的“通证经济” 是构建价值交换网络的很好的范式。当然区块链在解决“价值交换”问题也存在一些不足,例如线上线下打通问题,目前的预言机机制还不能很好解决问题,这就是怎么证明“你妈是你妈”的问题,非常关键,再比如区块链本身的匿名性,也要符合前面所述三个不同类别隐私防护的问题。还有“智能合约”的现实履行问题,需要有相关的法律进行背书。但无论怎样,这中间是蕴藏着巨大的市场机遇的,尽管还有这些些技术、法律或者管理问题需要解决。

其次是减少伤害的问题,即尽量减少由于隐私数据共享带来的可能的潜在伤害。比如A和B共享数据,彼此期望获得共享的结果但不期望带来副作用。我们拿谷歌输入法来举例子,消费者期望使用谷歌输入法越来越便利,比如根据个人过去的输入历史,可以更准确预测下一步需要输入的汉字。一个容易想到的方法是把键盘输入数据和谷歌共享,但是一个可怕的事情,不仅仅是诸如聊天记录这些私密信息,也包含了账号密码这些钱财相关信息。这其实就引入了一个未来3-5年革命性的一个领域隐私计算问题,其核心就是如何在不泄露隐私的情况下获取同样效果的计算结果。


还有一个现实的例子是银行或者金融机构之间的数据共享,A银行有一些用户数据,B银行也要用户数据,出于保护用户隐私或者银行商业秘密角度无法把数据共享给对方,但是又期望通过这些数据关联建立更准确的用户洞察,怎么办?对政府而言也一样,A部门拥有个人的水电气等消费数据,B部门拥有个人的衣食住行其他数据,怎么建立更好的个人信用模型,或者基础的怎么给个人更好的进行用户画像。比较容易想到的办法就是把这些数据全部放到一起,但现实中,由于安全的需要、法律的规定,以及存储、迁移等技术限制,可能无法做到这一点,怎么办?如果延伸开这里有很多需求或者问题需要解决,并且只要解决了就有巨大的应用机会。安全多方计算、联邦学习以及可信任计算等等,都是这些方向的一些有益探索,感兴趣的读者可以查阅相关的资料。


最后想说说身份ID问题,前面也提到了为了防止“身份隐私”泄露可能需要建立一个去隐私的身份机制。即能够唯一确定一个人、能够对一个人的信息进行唯一关联而且不能反向推断出这个人的身份。我们在最后着重提整体问题,是想从“新信用基础设施”的角度来强调这个身份的重要性,这个身份标识未来也不仅仅是人可能还包括物,因为“身份标识”是信用社会最重要的标识。人人互动、人物互动、物物互动,将随着5G的发展成为重塑未来数字社会的核心,而这里面核心的核心就是身份标识。这里有很多问题要解决,不仅仅是隐私保护问题,还包括寻址问题(找到这个人或物)、路由问题(怎么找到这个人或物)、协同问题以及信息交换问题等。在隐私保护基础上,再基于统一身份标识构建一个价值交换网络,以重新定义整个数字社会。


回顾一下,本文从疫情期间发生的数据隐私的几个隐私事件开始,说明了隐私保护迫在眉睫,然后通过隐私相关概念体系的梳理,来说明隐私保护是必要的,但也要有度即不能阻碍新经济的发展。随后,我们通过影响巨大的欧盟的通用数据保护条例的现实情况,说明了隐私保护保护啥,以及一些现实违反条例的案例。最后我们还是更多的看到个人隐私保护发展可能带来的新的机遇,再次明确了价值交换的重要性,对区块链、隐私计算以及统一身份问题阐明了观点。


我们都知道疫情的突如其来,给全世界带来了重大的压力,几大股指重挫,各地封城、封地,疫情在我们国内也导致了大量的工厂停工、停产,另外为防止疫情扩散以及应对疫情的诊疗,国家付出了巨大的代价。为振兴经济、抓住产业发展重大机遇,国家着力推出了万亿规模的新基建计划,我们将在本系列的第四篇讲述:新冠疫情之后谈新基建。



马上试用产品 免费试用
观看产品演示 观看视频