【数据治理】理解大数据:数字时代的数据与隐私
1、序言

人类早已意识到,社会和经济的正常运转,以及对经济福利的追求都离不开信息的处理和分享。例如,

  • 在真实世界中从事生产活动,我们必须获取并分享周遭环境的信息
  • 要进行社交,我们也要获取并分享他人的信息

“了解你的客户”,从而为他们提供高质量产品和服务是今天取得商业成功的关键。黄页电话簿的诞生和广泛使用,说明个人向公众分享个人信息,加强与社会联结,已经成为现代人际关系的基础。

进入 21 世纪,数据信息的使用如此盛行,以至于我们称今天的时代为“大数据时代”。数字信息让过去难以实现的社会协作成为可能,大大提升了公众福利,但也引发了人们对数据和隐私问题的焦虑:

  • 我们如何在大数据时代保护个人隐私?
  • 数据使用创造的价值归谁所有,该如何分配?
  • 如何理解数据使用产生的风险?
  • 大数据应用是否会带来 “赢者通吃”的市场现象,从而妨碍竞争,损害消费者和整个社会的利益?

如同诺奖获得者科斯(1994)所言,我们需要远离纯粹的“黑板经济学”,因为那只存在于理论家的头脑之中。他说:“我们需要更多的实证工作……一位充满灵感的理论家也许不需要,但是……这些灵感大多受到现象中的规律、悖论或异常现象的启发,而这些都依赖于系统的数据收集,尤其是,当我们的首要任务是打破固有的思维定式时。” 科斯的这一提醒,对研究数据问题尤为重要。数据和传统的生产资料不同,具有非竞争性和与经济活动、数据相关主体的不可分离性。需要基于对数据本质的理解,破除 原有的基于理解传统的有形商品和要素的思维定式,探索基于实证的、整体性的、符合多方利益的方法,来保护数据和隐私,否则虽以保护为名,无意中却难免损害公共利益, 这无异于因噎废食,并将错过数字技术带来的重大机遇。

 

2、报告综述

“经济社会的首要问题,是利用好分散在个人手中的信息的问题。这是因为我们在决策场景中所必需的知识,从来不是以整体的方式存在,而是以不完整、甚至经常矛盾的方式散落在不同个体手中。” --哈耶克,1945

0x1:一个由数字信息定义的时代

人类的经济发展史是一部信息分享的历史。和别的动物不同,千年以来,人类学会了收集、组织和储存大量复杂信息,并彼此分享。然而大千世界中,永远有人类难以收集的信息,或是缺失,或是不够精确,更不用说对这些信息进行处理并从中受益了。更复杂的,由于个人和企业是自利的,或有意或无意地,他们常常提供错误或不完整的信息。

为何信息分享如此重要?哈耶克对此有深刻的认识,他认为:“经济社会的首要问题,是利用好分散在个人手中的信息的问题。这是因为我们在决策场景中所必需的知识,从来不是以整体的方式存在,而是以不完整、甚至经常矛盾的方式散落在不同个体手中。”(哈耶克,1945)。他相信,推进信息分享是经济社会最重要的问题,攸关人类的经济福祉。

在理论界,过去的大半个世纪中,众多经济学家致力于研究信息的价值,并探索如何降低乃至消除信息分享的壁垒。1993年诺奖得主DouglasNorth认为:“协作的根本理论问题在于个人如何探知他人的偏好和行为模式”(North,1990)。在实践中,生产者越了解客户,就越能更好地服务客户。在美国,一百多年来,在每一个城市和小镇,每户家庭的基本个人信息,包括姓名、住址和电话,通过黄页的形式,都可以公开查阅到,其目的是为了帮助社会成员找到对方,促进个体与社会的连接。在医药和金融等领域,“了解你的客户”(knowingyourcustomer,KYC)是用户获得高质量服务的前提,其中常常涉及隐私和敏感的个人信息。 

信息之所以需要分享,还因为信息存在“不对称”的问题。在相互接触中,人们获得的常常是不同类型的信息。而双方往往不愿或无法可信有效地交换信息,因此,“不对称”的信息很难恢复“对称”。而信息不对称会降低经济效率,是影响市场交易效率的重要因素之一(Spence,1973,1974;GrossmanandStiglitz,1980);甚至,当信息不对称严重到一定程度,整个市场可能会就此消失(Akerlof,1970)。例如在劳动市场,缺乏有关工人能力以及企业用工需求的信息,会导致人力资源无法得到有效分配,现实表现就是失业和企业生产率低下(Phelps,1970;Pissarides,2000)。

20世纪40年代,克劳德·香农和阿兰·图灵的天才创想,将数据编码于“数字原子”中——今天被称为比特。自此,数据可以被数字化,现代信息科学就此滥觞。再加上新兴的半导体技术被大规模用于数据计算和储存,推动了数据的爆炸式增长。以至于到20世纪70年代,在各类文本中,“数据”一词的出现频率超越了“信息”一词。数字革命彻底改变了信息在社会和经济中扮演的角色。它一方面让信息获取前所未有地简单,人类使用信息并从中获益的难度大大降低,数据日益成为重要的生产要素。另一方面也加大了滥用信息的风险。

因为数据、信息、大数据等概念被频繁使用,在进一步论述之前,有必要建立对这些概念的共识。

  • 首先要注意的是,数据不等同于信息。数据是对事物的一系列观察
  • 而“大数据”则是对大量“(小)数据”进行组合、存储和计算处理的过程。“数据科学”中很重要的步骤是“数据压缩”,即将大量数据集压缩成小规模,同时保留大部分有效信息的数据集,并将其转换成易于存储和解读的形式。
  • 信息是基于数据的洞见,所以信息的价值往往取决于需要回答什么问题,也就和具体的使用场景相关。举个例子来说,在1688上可以看到很多供应商,也有海量的产品,但是其中哪些品类能够受到消费市场的青睐,这个信息需要从业人员结合市场、经济、外贸情况进行分析,从数据中提纯出有价值的选品信息

数据的广泛使用,引发了人们对三个问题的思考:

  • 我们如何在大数据时代保护个人隐私?
  • 数据应该归谁所有,以及该如何分配数据使用产生的福利和风险?
  • 大数据应用在多大程度上会带来“赢者通吃”的现象,从而阻止竞争,损害消费者和整个社会的利益?

在数据时代更好地理解数据的经济学本质,或者说“数据经济学”正是本报告的主要课题。

0x2:理解数据的本质

1、从理解隐私悖论开始

要保护好隐私,我们需要了解人们在真实生活中如何看待和做有关个人数据分享的决策。

我们可以先看一个简单的、被广为接受的关于信息或数据隐私的定义。美国最高法院大法官LouisBrandeis认为:“对个人信息的可控性,是个人应享有的‘独处的权利’(tobeleftalone)”(Pavlou,2011)。从这个角度出发,我们进一步追问,当人们为了享受数字服务的好处,必须提供一定个人信息时,他们是如何为自己“独处的权利”进行决策的?在回答这个问题时,大量研究发现,全球用户中普遍存在着一种矛盾现象,学者们称之为“隐私悖论”,它描述的是,尽管大多数人表示在意自己的隐私,但常常免费地,或在很小的经济补偿下,分享自己的个人信息。人们对隐私基本权利的重视,和他们实际行为中的“毫不在意”之间存在显著矛盾。这种现象并非孤例,存在于不同的国家和文化环境中。比如:

  • 手机地图app的使用,无时不刻在泄露个人的轨迹信息
  • 购物APP的使用,在不断泄露个人的商品喜好、消费水平等因素

目前学术界对隐私悖论有几种不同的解释。

  • 一种观点认为,这是因为当事人不了解隐私被侵犯可能带来的严重后果
  • 或由于一些重要的数字应用缺乏可替代选择,用户不得不让渡一定的隐私权(ChenandMichael,2012)。例如,为了使用微信,用户必须同意微信的隐私条款,否则只能退出。但随着越来越多的新选择不断涌现,这种理论很难解释用户为何对层出不穷的新数字服务也“来者不拒”。
  • 另一种更让人信服的解释认为,当面临真实的选择时,是人们的真实行为,而不是调研中的表达,揭示了人们会在隐私和数据福利之间如何权衡取舍的真相。

因此问题的关键在于,当用户在市场中真正拥有选择权时,他们是如何决策的。

实证结果显示,如同其他国家一样,中国用户普遍在意自己的隐私。但当面临选择时,绝大部分用户会选择分享个人信息,以获得服务带来的福利。

具体而言,当面对数据要求时,75%的情况下用户会选择给小程序授权信息,并且后续的退出率较低(每月0.12%的用户选择退出对小程序的个人信息授权),且随时间进一步降低,显示出他们大多数并不后悔自己的选择;这些比例和欧美用户的行为规律相当一致。另外,用户会在信息敏感度和服务质量之间做出取舍,面对隐私事件时,他们会倾向于用脚投票,提高退出率。随着用户经验的不断积累,他们一开始会更谨慎地选择,但日积月累,他们处理分享个人数据的经验更多,拥抱的数字服务也会更多。这些行为模式适用于不同的性别、年龄和教育程度。 

这些结果表明,“隐私悖论”的本质是,与个人数据相关的消费者权益具有双重性,一个是隐私被保护的权益,一个是因为分享数据而获得(更好)服务的权益。两者之间的权衡,才是对消费者权益的完整理解

研究表明,最担心隐私的用户,恰恰是使用数字服务更多的用户(Chenetal.,2020)。所以解决“隐私悖论”的方法,不是就隐私谈隐私,把数据锁起来,而是在保护好隐私的基础上,鼓励数据的流动,这样才能真正让消费者受益

2、数据的价值来自何处?

我们总结了在线数据共享的价值,至少表现在三个方面:

  • 连接
  • 决策
  • 信任

首先,如我们在《新普惠经济:数字技术如何推动普惠性增长》中提到的,数据分享会增强连接性。在数字技术的帮助下,数据的产生和分享是如此便捷,普惠性连接达到了前所未有的水平,重新定义了市场以及人们组织生产和协作的方式。一个例证是,由于在线市场的出现,交易的范围、深度和广度都得到了极大提升。传统线下交易的特征一般可以用经济学中的“重力模型”来描述,即本地商户的用户绝大多数来自方圆10公里范围内,距离越远,交易越少。而中国当前电商平台上呈现的景象则完全不同。除了生鲜食品,买家和卖家之间成交的平均距离接近1000公里,超越传统线下市场服务范围两个数量级,“重力模型”被彻底打破。从连接买卖双方的情况看,10亿淘宝用户中,月度活跃买家超过7亿,同时有超过1000万家初创企业和公司作为卖家,其中约一半的创业者是女性。在产品丰富度方面,消费者在线上可购买10亿种以上的商品和服务。这个市场的形成,是以参与各方愿意分享数据为基础的。用North和科斯的话说,如果没有数据分享,就没有可以协同的经济活动。

第二,数据分享可以改善决策。海量多种类数据相连接,可以帮助无数消费者和生产者做出更明智的决策,促进更快、更有效、更多的创新产品和服务,数字时代之前不可能出现的商业模式以及新的产业组织形式也随之出现。由于无法和大企业一样进行大规模市场调研,中小企业在传统市场中一直难以获得市场和消费者信息。因此通过数据分享改善商业决策对中小企业尤其意义重大。其中一个案例是淘宝和天猫平台上的“生意参谋”,类似服务也可以在国内外平台上看到。这项服务为所有在线商家提供多种信息分析工具,包括卖家自身历史业绩、市场趋势以及潜在消费者喜好等等。大多数生意参谋的新用户是中小企业,它们的销量通常会在开通服务的第一周出现跃升,并在之后的10周,已经开通服务的用户和未开通服务用户的业绩差异会逐渐稳步拉大。“大数据”的出现让中小企业获得了以往只有大企业才能享受的先进分析工具,帮助它们快速增长。

在金融领域,数据分享可以改善金融风险甄别能力。传统金融一直难以克服普惠性不足的顽疾,让抵押品不足的低收入人口和小微企业获得融资,而数据分享有望解决这一难题。通过获取借款人的消费和经营数据,已经足够说服贷款人在无抵押的情况下提供金融服务并承担相应风险。通过这种方式,小微企业也可以享受到金融服务。正如诺奖得主Holmström所言:“信息已经成为新的抵押品”(Holmström,2018)。大数据让过去无法实现的大规模小微信贷成为可能。2011年以来,网商银行为超过2000万家中小微企业提供了无抵押贷款。网商银行最早推出的“310模式”已经广为人知,并且现在很多银行都普遍使用:3分钟申请贷款,1秒钟能及时到账,0人工干预。这种由大数据风控支持的小微贷款,为千万计创业者带来了机遇,这也是罗汉堂《新普惠经济:数字技术如何推动普惠性增长》的主要发现之一。

第三,数据分享可以建立信任。新型线上市场有数以亿计的参与者,要像线下市场面对面交易一样顺畅无阻,对产品及参与者的信任机制必不可少(Tadelis,2003)。有了线上的数据分享,消费者就能对商品和生产者进行评价,而生产者则通过这样的评价系统,努力打造良好的信誉。所有参与者都是数据的生产者,也同时从数据的交换中受益。与之形成对比的,是数字时代之前,诺奖得主Akerlof描述的“柠檬市场”,即消费者和生产者信息不对称,消费者缺乏对产品的信息和信任,只愿意选择低价产品,从而劣币驱逐良币,赶走了好的服务商,只剩下质量不好的“柠檬”,随之恶性循环,直到整个市场消失。而通过线上评价系统,一方面数据分享让新的卖家获益,另一方面高质量卖方也可以通过重复交易,让自己与那些低质量、“一锤子买卖”的“柠檬”商家区别开来。随着时间积累,这些卖方的品牌脱颖而出,可以获得更好的销量。在这个过程中,所有参与者都是数据分享的受益者。

大数据往往可以用三个V来概括:

  • 数据量(Volume)
  • 多样性(Variety)
  • 速度(Velocity)

数据量指的是能观察、记录、处理和分析海量的数据。多样性代表数据的宽度,即能处理许多不同类型、不同维度的数据,从而满足数字市场中卖方和买方的不同需求。速度是指收集、处理、分析和使用数据的速度在不断加快,也就是实时性。 

结合前面的讨论,大数据的两个V,即大容量和多样性数据正在彻底改变人类的交互和协作。这是因为数据可以改变消费者与生产者之间的连接方式,增强买方和卖方之间的信任,并且让决策变得更迅速、更明智。同样关键的是,这些基于数据的连接、信任和决策过程,正在以前所未有的速度,甚至是实时地进行:与实体商品不同,数据只有流动起来,才能传递信息,创造价值。大数据的三个V向我们展示了数据如何创造价值:海量且多维的数据实时地驱动社会经济活动。这正是数字经济的本质,而所有的经济活动的参与者都是受益者。正如哈耶克所洞察的,开放且充满竞争的市场,加上来自各方的信息分享和决策,才能让整个社会受益。 

3、如何缓解隐私风险?

尽管数据分享可创造巨大价值,但也存在风险。数据创造的价值越大,保护隐私和数据安全的紧迫性就越高。数据生命周期的每个阶段,从收集到集成,从分析到应用,都存在数据泄露和隐私风险。个人有知晓和拒绝数据收集的权利,这是广为接受的观念,然而在现实中,要防止个人信息过度暴露和信息泄露是一个艰巨的挑战。2017年全球数据外泄和遭窃取的记录达到16亿起,造成巨大的经济损失,引发了消费者对隐私问题的极度担忧。近年来,如Facebook和剑桥分析的数据滥用事件引发了社会的广泛关切。

当下社会关注的热点是如何通过法规保护好隐私,而同样需要关注和理解的是行业和企业的隐私保护措施。因为数据分享和运用是经济活动不可分离的一部分,法规只能规定经济活动的边界,弥补市场失灵的部分。只有当行业和企业把个人隐私保护和数据安全作为商业的一个重要条件,并配置相当的机制和技术,才能真正实现目标。

在这个维度上,全球很多行业和企业已经在做大量的探索。简而言之,有效保护隐私的逻辑,是将隐私工程化(privacyengineering)和隐私增强技术(privacy-enhancingtechnologies,PETs)结合起来。

  • 隐私保护工程化,是指将个人隐私保护的法规和原则,融入到产品设计中来开发和使用软件应用。例如在用户交互设计上,隐私工程可以加强用户对隐私条款的理解,增强对敏感信息的控制。隐私工程化可以应用到大数据生命周期的各个阶段。在信息收集阶段,企业必须获得用户的许可,并且必须遵循收集数据的必要性原则。在集成和存储阶段,企业处理数据前要可以过滤敏感信息。这些信息还可以加密,这样即便出现数据泄露的情况,个人信息也不会被滥用。脱敏和加密后的数据,可以用于分析,了解消费者及其需求,并且在严密且持续的风险管理之下进行。最后,要可持续且高效地使用数据,企业要在隐私保护需求和用户数据许可最小化之间取得合理的平衡,这样才能既保护隐私,也不至于因为过分许可打搅用户。最后,用户还应该保有个人信息的删除权。可以看到,隐私工程化意味着需要很多隐私保护技术,从而防止不可信或潜在恶意的数据收集者侵害用户的隐私。例如多方计算技术(MPC)可以让数据分析者从数据中提取有用洞察,却不会暴露或回溯至原始数据。区块链技术也可以通过对个人数据进行加密和密钥,降低隐私风险。这些技术的目的,是让服务提供方进行大数据分析时,懂得客户特性和需求,然而却“不知道客户是谁”“数据可用不可见”,从而更好地满足客户和数据相关的两个权益。另一方面,隐私工程和隐私技术成本不菲,给初创公司和中小企业带来更多挑战。在多大程度上做好,能够同时满足消费者和生产者的需求,从而发挥数据作为生产要素的价值,同样是值得整个社会讨论的问题。
  • 隐私增强技术是一个笼统的术语,包括在隐私信息采集、存储、以及在执行搜索或分析过程中对于保护和增强隐私安全性的数据安全技术,旨在提取数据价值,以充分发挥其商业、科学和社会价值,但同时又不会危及这些信息的隐私和安全性。常见的隐私增强技术示例,1)密码算法,例如“同态加密”、“安全多方计算(SMPC)”、“零知识证明(ZKP)”,2)数据屏蔽技术,例如“混淆”、“假名化(Pseudonymisation)”、“小数据”、“通信匿名技术”

4、如何从数据的本质看数据的权属、利益分配和保护责任问题?

数据的问题需要综合视角去理解,否则很容易陷入“盲人摸象”的困局。首先,数据具有和物理商品截然不同的本质属性,在生产和使用过程中牵涉到多方。其次,我们需要综合考虑用户和数据相关的两个福利,即隐私保护权益和因为分享数据而获得服务的权益。再次,数据分享在经济活动和人类协同中必不可少,数据只有通过在社会和经济行为中流动才能创造价值。

这个数据权衡框架包含数据的两个本质特征、三个视角,以及一个基本原则。

数据的2个本质特征:非竞争性和不可分离性。

  • 首先,数据和物理商品不同,据有非竞争性,可以被无数次生产和使用,而不会消耗数据相关的对象。
  • 其次,不管数据的使用者是谁,都可能对数据相关的主体带来潜在影响;数据使用和数据主体存在不可分离性。

数据生产和使用的三个视角:

  • 数据生产者
  • 数据主体
  • 使用场景

这里数据生产者(在商业环境下)是指观察、收集和处理数据的机构和个体。数据主体是指数据描述的个体(个人数据)或对象(非个人数据)。使用场景是指使用数据的经济或社会活动。

数据需要被观察才能产生,所以数据相关主体并不一定是数据的生产者

基于数据的两个本质特征,数据生产者和数据主体的利益是相互关联的。

从数据生产者的角度来说,要产生数据,既需要数据主体,也离不开数据生产者,并且数据的使用也会同时影响两者。数据的非竞争性本质决定了,数据可以有无数个所有者,而不会消耗数据或者数据主体本身。举例来说,一个人发表演讲的数据是由每一个听众分别产生的,并且会因为每个听众的视力、听力和关注点不同而有所差异。基于数据形成的信息也可以分享给不在场的人,而不会损耗演讲者。

从数据主体的角度出发,使用数据会对他们造成影响,因此他们的权益必须得到保护。

从使用场景的角度看,数据不应被简单地类比为一种有固定价值的商品。在实践中,数据需要归集、存储、分析,形成对场景需求有价值的信息洞见。一方面,这个过程需要消耗成本和能力。另一方面,数据的价值是变动的,取决于基于数据的信息能在多大程度上提高经济和社会活动中交互的效率。所以,数据的使用是经济活动中不可分离的部分,其价值也随着具体的场景需求而变化。

数据的两个本质特征,和数据生产者、数据相关主体、使用场景三个视角,可以帮助我们理解数据和其他商品或生产要素有什么不同,数据是如何产生、如何发挥价值的,以及牵涉到的相关方。基于这个权衡框架,我们可以得出三个结论:

  • 首先,将数据等同于一般商品那样拥有唯一所有权的观点是不合理的
  • 第二,隐私保护的重点应该是在数据使用中尊重和保护数据主体的隐私权,而不是将数据独有权给予数据相关主体,否则难以发挥数据作为生产要素的价值,最终让所有的相关方受损。
  • 最后,数据生产者和数据相关主体之间应在平等、自愿的基础上达成协议,从而双方都可以从数据的生产和使用中受益。 

总结起来,数据治理的核心原则应该是在促进数据流动的同时保护数据主体的权利

0x3:数据治理问题

1、数据和竞争的关系

数据驱动的商业行为在竞争中会扮演越来越重要的角色,因此我们需要理解数据驱动的市场行为会如何影响竞争。竞争法的核心目标是:“确保消费者可以从竞争的力量中受益”(Shapiro,2018)。要判断竞争是否被扭曲,消费者的利益是否受损,我们要用事实说话,深入理解行业结构、企业的商业行为,并评估其市场表现。

我们先回顾一下交易对竞争以及国家的企业竞争力的正面影响。如上文所述,在中国,线上市场的出现让买卖双方的平均距离从10公里上升至1000公里。在1776年出版的《国富论》中,亚当·斯密指出,垄断力量是“良好管理的大敌”,而交易范围的扩展会打破这种垄断:

“状况良好的公路、运河、船只往来的河流,这些大大降低了货运的开支,将一国偏远的地方与城镇周边置于同一发展水平上。它们都得到了最好的交通改善。这将刺激边远地区——一国最偏远一环的发展。通过打破本地商人的垄断,对城镇的发展多有裨益,也对国家的其他地区有益。尽管交易扩张在旧市场中引入竞争性的商品,但也为旧产品带来了新的市场。此外,垄断是良好管理的大敌。只有在自由和全面的竞争下,市场中的每个人为了自我防御都要遵循规则,好的管理制度才能建立起来。”

如同亚当·斯密时代的“公路和运河”延伸了贸易距离,打破了垄断,提升了偏远地区商家的竞争,21世纪出现的平台数字网络也打破了本地垄断力量,并且如下文所述,建立了一个更健全、更具竞争性的商业环境,只不过两者的速度和效率无法同日而语。

另一方面,数字经济中可能妨碍竞争的商业行为在全球范围内正在引起越来越多的关注和争议。

  • 首先,企业在多大程度上利用大数据技术歧视性对待消费者? 
    • 数字技术改变了生产者和消费者的关系。其中一个结果,随着累积这些高颗粒度的数据,商家已经不再追求从单独的产品或服务中获取最大利润,而是追求提供一个以客户需求为中心的综合服务,建立更高的客户忠诚度。普惠性就是尽可能扩大客户的多样性和数量,今天已经成为越来越多企业核心的商业目标。
  • 其次,大数据是否在妨碍竞争,让市场出现赢者通吃的局面?
    • 大数据只是商业竞争的一个要素,并不必然决定行业的格局和企业的命运。尽管在今天的商业模式中,数据扮演了比以前更加重要的角色,但企业间的竞争仍旧由商业模式及其执行决定。
  • 再次,大数据在多大程度上在给创新带来障碍?

 

3、从消费者权益的视角理解隐私悖论

毋庸置疑,隐私保护对数字经济的发展,尤其是大数据技术的应用至关重要。关键问题是:

  • 对消费者而言,何种程度的隐私保护是足够的?
  • 消费者在真实生活中,是如何决定是否分享个人数据的?
  • 隐私保护和个人信息分享之间是否存在权衡取舍?

【数据治理】理解大数据:数字时代的数据与隐私_数据

大多数人表示自己在意隐私问题,却常常免费或在很少的经济补偿下,分享自己的信息。

正确地理解隐私悖论,对理解消费者对个人数据分享涉及的权益诉求至关重要,是制定隐私保护政策所需要考虑的关键因素。

当用户有选择权时,他们是否愿意分享个人信息,从而获得小程序提供的服务?

【数据治理】理解大数据:数字时代的数据与隐私_大数据_02

人们不仅在大多数情况下愿意分享个人信息,使用小程序,而且他们后续也很少退出,表明他们不会后悔自己的选择,至少没有足够的退出倾向。 

大多数用户愿意用个人信息换取服务。一旦做出授权,他们很少改变自己的决定,可能认为退出不太重要,或对获得的服务感到满意。

尽管用户愿意分享个人数据,但不代表他们不在意隐私。信息的敏感度越高,愿意分享的用户就越少。
用户的隐私忧虑是根据不同因素相应变化的:信息的敏感度不同,用户的隐私忧虑也不尽相同。与一般公共信息如昵称、头像相比,对于更加敏感的信息,例如支付宝账号、机动车注册信息等,授权率平均降低了 20%。对于更年长的用户,例如55-65 周岁,这一差距进一步拉大到 30%。整体而言,人们更在意敏感信息的分享。

【数据治理】理解大数据:数字时代的数据与隐私_数据安全_03

值得注意的是,负面的隐私事件会大幅提升用户退出率。

随着用户使用数字产品的经验更加丰富,他们也更愿意分享个人信息。在长期来说,更丰富的数字经验会让用户更加拥抱数字技术,分享个人数据的意愿也更强。 

【数据治理】理解大数据:数字时代的数据与隐私_商业_04

最后,用户对数字平台的信任,比如此次研究中的支付宝,会鼓励他们更多地分享个人数据。

【数据治理】理解大数据:数字时代的数据与隐私_数据_05 

综上所述,对用户隐私决策的大数据研究表明,在“真实世界”中,用户的隐私忧虑的确存在,但与个人数据被肆意滥用而用户别无选择的“假想世界”相比,是有巨大差别的。如同全球其他国家一样,中国消费者也普遍关注隐私问题。但当面临选择时,大部分用户会选择分享一定程度的个人信息,来换取数字服务带来的福利。不同信息敏感度和服务质量也会在他们的决策中起到重要作用。此外,他们也关注隐私事件,并会“用脚投票”。另一方面,他们很少改变自己的选择,表现在退出率较低。数字经验的日渐丰富,会让他们更谨慎地分享更多个人信息,但最终会接受更多的数字服务。这些行为模式超越了性别、年龄以及教育背景的差异

0x1:评估个人信息分享的风险

不同的人对分享个人信息的态度可能截然不同。从20世纪70年代末期到2004年间,Westin-Harris消费者隐私调查调研了个人对信息技术的理解、质疑和担心。通过调研,他们编制了一个消费者隐私指数,将不同个体分为三类:

  • “隐私本源主义者”:即使可以从中获得更好的服务,这些消费者也不愿分享个人信息
  • “隐私实用主义者”:他们会根据具体情况进行判断,看获得的服务是否值得信息分享
  • “隐私乐观主义者”:他们对个人数据的收集和使用并无担忧

每一类消费者的行为都有合理解释,因为他们对数据安全的偏好不同,与获得服务之间的权衡也不同(Equifax-HarrisConsumerPrivacySurvey,1991)。

【数据治理】理解大数据:数字时代的数据与隐私_数据收集_06

从消费者权益的角度出发,我们能更全面地理解消费者对待隐私的真正态度,以及他们在分享个人信息时的偏好。

受到行为经济学家启发(KahnemanandTversky,1984),我们可以得到一个结论,当消费者分享个人信息时,他们既有可能获得福利,也面临风险(CulnanandBies,2003)。这种共识后来发展为所谓的“隐私权衡理论”(CulnanandBies,2003;DinevandHart,2006;LauferandWolfe,1977;H.J.Smithetal.,2011;Xuetal.,2009)。隐私权衡理论认为,在分享个人数据时,消费者通常会进行一个成本收益分析,将福利与潜在的风险进行权衡,当预计的收益大于已知风险时,消费者倾向于披露他们的个人信息,反之则会拒绝。 

 

4、数据的价值

0x1:信息在数字时代的变革性意义

经济学家早就意识到,信息交流在经济活动中的地位不可代替。哈耶克在这方面提出了两个关键论点:

  • 首先,不像普通的有形商品,做决策所需要的信息往往没有具体的存在形式,而且分散在各处,需要进一步生产和提炼
  • 第二,为利用好分散的信息,社会面临最重要的经济问题,实质上是如何促进信息的收集和交流(哈耶克,1945)。

这听起来像是简单的常识。但由于近些年隐私泄露、身份盗窃和网络犯罪屡见不鲜,造成的危害也显而易见,随着隐私问题的辩论日益激烈,人们关注的焦点往往集中在个人信息交换的负面影响上,而忽略了常识。我们不应忘记,信息分享不仅给每个人带来了福利,对整个社会的进步更是至关重要。

一些开创性的经济研究出现于20世纪70年代和80年代,其结论表明,有限信息和不对称信息将阻碍市场有效率地配置商品和服务,阻碍自愿和互利的贸易,并导致市场失灵,影响宏观经济政策的效力,扭曲投资和消费决策,造成失业(Akerlof,1970;MilgromandStokey,1982;MyersonandSatterthwaite,1983;Phelpsetal.,1970;Pissarides,2000)。

这说明,信息分享和扩散会影响到人类协同合作的水平。通过巧妙的市场设计和工具,能够在一定程度上缓解信息不对称所带来的效率扭曲。这些工具包括信号理论(Spence,1973)、筛选理论(Vickrey,1961;Mirrlees,1971),以及更通用的机制设计理论(Dasgupta,HammondandMaskin,1979;GreenandLaffont,1981;Myerson,1981;Maskin,1983,1999,2008)。

经过信息革命,数据的形成、生产、存储和通信成本空前下降,这引爆了数据使用的热潮。摩尔定律揭示了一个趋势,就是处理器的性能每隔两年翻一倍,计算成本也相应下降。其他计算领域的进步等也加速了数据增长。例如,云计算提供了处理共享数据的能力,从而实现更高效的业务计算。人工智能和机器学习技术的进步,利用光传输数据的硅光子学等新技术彰显了数据处理速度提升的巨大前景。今天存储和传输数据的边际成本已经降到了几乎为零的程度。此外,“数据”这一术语已演变为“大数据”,体现了数据处理的空前规模、维度和速度。 

如前文所述,“数据”并不等同于“信息”。“数据”作为数字化的记录,可以看作是信息的载体或媒介,但数据不一定包含信息。例如,添加一组随机算法生成的数据不能传达出任何信息。除此之外,生产(或观察)实体或虚拟世界的原始数据并不简单,还要对数据进行处理,才能获得有价值的信息。经济学家Singh(1999)指出,密码学通过加密算法将信息深埋在数据中,这正是利用了数据和信息之间的巨大鸿沟。虽然数据本身可以被“公开”并因此可免费获得,但只有拥有加密“密钥”的人才能够从中提取信息。

【数据治理】理解大数据:数字时代的数据与隐私_大数据_07

0x2:数据在数字时代的价值

数据只有在使用时,在经济生产和社会活动中流动时产生价值。随着人们对数据的处理、传输速度大大提高,人类协作的三个基石——连接、决策和信任正在信息革命中发生着根本性转变。

1、数字化连接: 普惠性参与和协作达到前所未有的水平

由于数据非常容易生成和分享,普惠性连接达到了前所未有的高度,这重塑了市场以及人们协作生产和消费活动的方式。亚当·斯密在《国富论》中指出,“劳动分工受市场范围的限制”。贸易一直被广泛定义为“重力模型”(gravitymodel):贸易的数量和频率与距离呈负相关,与市场规模呈正相关,距离越远,交易越少。而在今天,在互联网技术和全球通信、物流体系下,距离已经不是制约交易的重要因素。

【数据治理】理解大数据:数字时代的数据与隐私_大数据_08

以中国最国际化的城市上海为例。即使在最热门的商业区,超过80%的线下客户仍处于商圈中心10公里的区域内。如果把距离拉得更远,买家和卖家根本感知不到对方。他们对商品和服务的品种、质量、价格,以及客户需求、卖家信誉等细节缺乏准确的信息。

而远距离的交易之所以能发生,原因在于信息流动大幅提速,消费者与生产者匹配效率明显提高,物流体系也因为信息流动、交通改善等因素变得更为快捷。由于客户有数十亿种商品和服务可供选择,所以根本不可能搜索到所有感兴趣的产品或服务,生产商也无法接触到所有潜在客户。如果说传统市场的主要障碍是缺乏信息,那么数字时代的新障碍就是信息太多——信息超载。在这种情况下,低效信息俯拾皆是,人们更需要有价值的信息,因此为买卖双方牵线搭桥的有效机制至关重要。这就是“大数据”的意义所在。

2、数据分享优化决策

海量、多种类的数据,再加上快速连接,让无数客户和生产商做出更明智的决策,从而促成更快速、有益的产品创新,更具创新性的销售和服务,以及新商业模式——或者说产业组织的新形式,而这些在以前根本不可能实现。

除了使用搜索和店铺列表等传统工具外,电商平台利用越来越多的推荐系统,能更有效率地帮助消费者找到自己想要的产品。而这个推荐系统则依赖一些大数据信息,电商推荐系统依据的消费者数据包括购买历史、搜索活动和个人特征(但不是个人的具体身份信息)等,匹配的推荐通过算法完成,因此供应商可以“感知到自己的客户群,但不知道他们具体是谁”。尽管这些匹配算法非常有效,但买卖双方都是最近几年才开始探索其潜力。到目前为止,只有少量相关数据被用于帮助匹配买家和卖家、用户和供应商。

【数据治理】理解大数据:数字时代的数据与隐私_商业_09

中小微企业和个人,原来很难有效寻找到最合适的客户或者产品信息。数据流动增强后,消费者和生产商都能做出更明智的决策。例如,阿里巴巴的生意参谋为所有网店店主服务,提供各种信息分析工具,例如他们自身的历史业绩分析、市场趋势以及潜在消费者需求等。新订阅用户(其中大多数是中小微企业)通常会在使用的第一周内经历销售增长的大幅跃升。在接下来的十周内,已订阅和未订阅组之间的业绩差距愈发明显。淘宝、京东、亚马逊和eBay等数字平台都提供类似的信息服务,帮助卖家(无论规模大小)做出商业决策。“大数据”使数据成为一种服务,为中小微企业配备了此前大公司才能获取的多种复杂分析工具。我们也可以称之为智能普惠化。

在金融领域中,“了解你的客户”(Know-Your-Customer,简称KYC)从来都扮演了重要角色。从历史上看,正是因为缺乏信息,大多数企业贷款都是以抵押为基础,而大多数中小微企业由于缺乏抵押品而无法获得贷款。这造成了中小微企业的巨大资金缺口,如何为这些企业提供有效的金融服务一直是世界性难题。

金融科技的出现扭转了困局。金融科技贷款利用大数据,服务于担保额度低、但具有高增长潜力的中小企业,而传统金融中介更多依靠信息不敏感的抵押品提供贷款,这样的模式主要为有抵押品的大公司提供贷款。自2011年以来,以网商银行、微众银行、京东金融等为代表,中国开始利用大数据向中小企业和初创企业提供无抵押贷款,可以做到“310“模式:申请不到3分钟,1秒即可获得贷款,0人工干预,而且整体坏账率可控。这个模式也越来越成为有大数据能力的银行的标准。

由于有企业经营的数据信息,小企业无须提供实物抵押即可获得融资的服务,这克服了普惠金融迄今难以逾越的障碍。得益于大数据和金融数字化,用Holmström的话来说,信息已成为新的“抵押品”,帮助许多初出茅庐的企业家取得了成功(Holmström,2018)。Hau等(2018年)经济学家研究了基于信用评分的贷款效果,发现获得贷款的中小微企业销售增长明显高于没有获得贷款的中小微企业。

3、数字化建立信任

Akerlof在他1970年的经典文章《质量不确定性与市场机制设计》中,曾经用“柠檬市场”生动形象地说明,服务经济中有很大一部分经济活动会因信息不对称而消失。这是因为消费者和生产者信息不对称,消费者缺乏对产品的信息和信任,只愿意选择低价产品,从而劣币驱逐良币,赶走了好的服务商,只剩下质量不好的“柠檬”,随之恶性循环,直到整个市场消失。用经济学的话来说,柠檬市场现象说明,可信信息的缺乏可能导致“逆向选择和道德风险的代理问题”。在数字时代,实时数据的流动和使用是经济活动中的关键一环,能够遏制多种机会主义行为,让可信的参与者受益。比如实时使用的数据能够提高普惠金融服务的可及性和覆盖面,实时数据结合机器学习和人工智能算法,可以提供越来越准确和及时的评估、建议,从而让买卖双方都能受益。

【数据治理】理解大数据:数字时代的数据与隐私_数据_10

所以数据的分享可以帮助建立信任。在线市场中,全球数以十亿计的人们彼此间达成交易,如何能让买卖双方像在本地市场面对面交易一样互相信任?这是运营在线市场的关键。

解决办法就是数据分享。通过在线数据分享,客户可以对商品和生产商评级。因为所有参与者都能看到这类评级和评价,生产商会格外注重建立声誉。通过这个数据分享机制,所有善意的参与者都能从中获益,这与传统的“柠檬市场”形成了鲜明对比。评级系统给予买家和卖家通过信息分享构建信任的权利。围绕建立卖家的长期声誉,为平台产生高质量、可持续的卖家创建了一种激励机制(Tadelis,2002)。数据不仅让买家受益,也让高质量、有回头客的卖家更好地将自己与低质量、无信誉的卖家区分开来,建立品牌意识,为长期的销售表现带来了动能。 

我们常常用“信息流”“资金流”和“商品流”来衡量经济活动。

信息流动是所有基于协同的经济活动中不可或缺的部分;没有信息流动,资本和消费品就不能从一方流向另外一方。用哈耶克的话来说,经济问题就是信息问题。信息将人们连接在一起,使生产商知道如何为客户服务,建立信任,并做出更明智的决定。数字革命将数据总量、种类和速度提升到了前所未有的水平,大数据成功改变了消费者和生产者之间的联系,进一步增强了买方和卖方之间的信任,并促进了更好和更快的决策。

 

5、隐私风险、隐私保护和数据安全技术

现代隐私观念起源于19世纪80年代美国的法律实践。著名的美国最高法院法官LouisBrandeis将隐私称为“独处权”(WarrenandBrandeis,1890),认为它是人类尊严、自由、能动性和尊重的基础。如今,隐私权在许多宪法和国际条约中已经被视为一项基本人权,如《世界人权宣言》、《公民权利和政治权利国际公约》和《美洲人权公约》,中国的《民法典》也明确规定自然人享有隐私权,是其人格权的一部分。对隐私的重视和保护已成为全球各界的广泛共识。

【数据治理】理解大数据:数字时代的数据与隐私_大数据_11 

对隐私的在意不是一个新现象。早在Brandeis之前,几乎所有古代文明以及宗教著作,都提到了个人和群体隐私的需求(BanisarandDavies,1999)。亚里士多德将人的生活首先区分为公共空间和私人空间,个人对私人空间应当享有更强的控制。《礼记》中也有“将上堂,声必扬”的论述,提醒不要悄悄进入别人的隐私空间,教育人们要考虑到他人的隐私。虽然隐私的涵义在不同文化、背景和环境中有所不同,包括“控制”“保密”“亲密”“尊严”“自主”“信任”和Brandeis的“独处权”等,但这些正说明了隐私是人类的基本和普遍需求之一。甚至如经济学家Volio在其1981年的研究中所强调的,“从某种意义上说,所有人权都是隐私权的一个方面”。 

回顾历史,保护隐私的制度安排也有共性,即从来都不是把隐私简单界定为一项不可剥夺的权利,而是将“隐私”视为控制信息和从自有信息中获得福利的权利(Schwartz,2004)

这种思路的背后是认识到信息分享的价值,认可消费者对涉及隐私的信息的控制权,因而允许消费者放弃部分隐私,以便享受信息分享带来的好处。在数字时代,这意味着个性化营销体验、定制化的金融服务、医疗保健、教育,以及便捷的社交网络。换句话说,为了保护好隐私,而不是流于形式,最有效的做法是将隐私视为一种可交换的商品,使参与者有权选择通过让渡部分权益得到好处。正如著名美国法学家RichardPosner指出,太多隐私倡导者将“避世”——即大法官Brandeis所说的“独处权”——与“保密”,即控制信息的权利混为一谈(Posner,1979)。 

0x1:数字时代隐私风险源于何处? 

数字时代在放大了信息分享带来的好处的同时,也增加了隐私风险。数字经济的特征是把越来越多多维度的、碎片化的、实时的小数据转化为“大数据”,在此基础上提供各类线上服务,让消费者和商家都得到好处。但因为数据的广泛使用,在数据周期的每个阶段,从数据收集到存储、分析、使用,到数据清除阶段,都存在隐私泄露和数据安全的风险。

  • 数据收集过程为例。看起来,数据收集只要在个人知情和同意的前提下,就没有问题。但在实践中,保护个人免受过度或未经授权的数据收集是一项艰巨的挑战。道高一尺魔高一丈,黑客和网络钓鱼者会用尽浑身解数开发出新的手段和技术来不当获取数据。 
  • 接下来分析数据存储阶段。个人数据通常存储和汇集在本地服务器或云端,都面临着被恶意攻击的潜在风险。
  • 数据使用阶段,即使在合法收集之后,也可能出现将数据挪作他用、甚至转卖数据的行为。

0x2:隐私工程化和隐私加强技术

历史表明,新技术一方面会带来新的挑战,也会带来解决方案。与新药研发类似,新的技术能够通过限制数据分享中潜在的“副作用”来提高数据分享的安全性、透明性和可持续性。重要的是,在数字技术提供的各种福利和保护个人隐私之间实现适当平衡,尚无证据表明严格监管和巨额罚款是唯一或者最佳方式。另一方面,我们不可能回到避世的与外界隔绝的状态。只要有人类协同,个人隐私就永远不可能得到绝对的保障。而一味地依靠事后的惩罚来打击隐私侵害行为,会耗用太多本可用于预防其他类型犯罪的资源,损失了本可实现的更高层次的个人发展和社会进步水平。

隐私保护的关键在于用好数字技术,开发出更强的保护机制和更有效的保护技术。比如数字支付系统通过利用多维信息、实时风险甄别,以及人工智能算法,让支付中的欺诈行为大大降低。我们接下来主要介绍在隐私保护实践中近些年的两个有潜力且互补的核心方向:隐私工程化(“隐私设计”)和隐私增强技术。

1、隐私工程化

隐私保护工程化正成为数字时代对企业的一项核心要求。许多科技公司都已经开始践行“隐私设计(Privacy-by-Design)”的方法。隐私工程化将隐私保护的法规和“用户导向”的原则引入到软件、服务设计和使用的各个环节中,将隐私保护前置,从产品和系统设计的初始阶段就考虑到如何解决隐私保护问题。隐私工程化包含两个部分,首先是软件的设计中加入隐私保护,在交互和数据分享的各个环节都应用到最新的隐私保护技术。此外,在用户界面的设计上,让隐私相关的说明、采集信息的告知更加醒目、易懂,确保用户理解隐私条款的内容,同时帮助他们了解隐私工程技术能够保护相应敏感信息(RubinsteinandGood,2013)。这两部分同等重要,也已经越来越多地被用于隐私保护实践中。

【数据治理】理解大数据:数字时代的数据与隐私_数据安全_12

隐私保护工程化旨在指导数据收集者、处理者和软件开发人员将核心隐私原则转化为具体的设计功能和方法论。在Gurses等(2011)研究者工作的基础上,经济学家Hoepman(2014)确定了在设计软件时纳入隐私因素的八种方式:

  • 最小化
  • 分离
  • 聚合
  • 隐藏
  • 通知
  • 控制
  • 实施
  • 展示

每个设计策略都可以应用下文介绍的隐私增强技术(Privacy-EnhancingTechnology,简称PET),开发人员可使用这些技术来实现“隐私设计模式”,并让它们在不同环境下可被复用,以应对隐私相关的设计问题。

无论何种应用中,隐私工程化的基本思路都是将个人数据的收集和处理限制在必要的最低限度。此外,数据生产者需要在收集之前获得用户的授权,在分析和投入使用之前可以使用假名对数据进行匿名处理。

【数据治理】理解大数据:数字时代的数据与隐私_数据收集_13

2、隐私加强技术

隐私增强技术(PET)主要针对不可信和潜在有害的数据收集者(Gürsesetal.,2011),作为隐私工程化的有效补充。一般把隐私增强技术分为“硬PET技术”和“软PET技术”。

硬PET技术利用各种“硬核”技术来降低误判可信第三方的风险。这些技术包括

  • 匿名通信渠道(对服务提供商隐藏用户的IP地址,同时允许通信)
  • 选择性披露凭证(允许用户对自己进行认证,并证明他们有权使用系统,而无须披露其他信息)
  • 零知识证明(允许一方向另一方证明一项陈述是真实的,但除了陈述的真实性之外无须透露任何信息)
  • 多方安全计算等(在多方同时计算时通过机密算法只输出结果,并且不可回溯)

以多方安全计算(multiple-partycalculation,MPC)为例,该技术被广泛用于实现各方共同提供各自的数据,用于彼此的计算分析,同时达到“零知识证明”,即除验证彼此的计算结果外,不提供任何信息。通过该技术,分析师可从多方的数据中获得洞察,而不用接触到各方掌握的“原始”数据,同时原始数据不能通过计算结果进行回溯,化解了各方对数据泄露的担忧。通过这种方式,无须共享原始数据就可以实现多方的数据协作,它可以放大数据的价值,同时大大降低隐私风险。

0x3:数据安全 

数字服务提供商必须保证数据安全。这要求提供商具有较强的内部治理能力,并且能够及时使用最新的安全技术。行业内关于监控和风险管理的“最佳实践”的推广,为科技公司提供了一个指南,使它们能够在整个大数据生命周期中保证数据安全,并且不断更新所用的技术体系。行业自治还包括独立的认证机构、行业行为准则、利益相关者参与公司董事会等。行业内的设计和技术同时提供了前端隐私和下游安全保护,使得企业之间可以分享和输出自己的技术与实践。

【数据治理】理解大数据:数字时代的数据与隐私_数据收集_14

加强数据安全性的各类技术也在蓬勃发展。这类技术和工具包括

  • 访问控制平台
  • 数据分类
  • 脱敏工具
  • 审计平台
  • 加密工具等等

可用在数据生命周期的每个阶段。随着数字技术的广泛进步,数据安全技术和工具也在不断升级。例如近十年云计算的兴起,让企业可以在不设置任何离线存储过程的情况下,反而加快数据分析,一方面大大减少了中小企业的数据基础设施成本,另外也提供了更高的数据安全标准,发挥了技术的规模效应。 

【数据治理】理解大数据:数字时代的数据与隐私_数据_15

就像食品行业里的健康和安全一样,当正确的技术应用到位时,现代食品工业中的种类和数量的大爆发不一定意味着更大的安全风险,而是恰恰相反,食物会越来越安全。随着数据隐私和安全日益得到重视,随着时间的推移,更多、更好的技术和机制将变得可用,并成为数字时代许多企业的核心竞争力6。我们预计该类技术的成本将迅速下降,促进隐私保护即服务(PPaaS)和数据安全即服务(DSaaS)的发展,将使数以百万的小公司从中获益。重要的是,对于创新的科技公司和数字服务提供商来说,解决好隐私保护和数据安全这些“痛点”,将受到消费者的青睐和拥抱;当竞争对手的思维还没有转变过来的时候,也是从中争取市场份额的大好机会。 

 

6、全面理解数据本质的框架

首先,在任何大数据的应用场景中,都包含数据主体、数据生产者,应用场景这三个元素,我们用“数据三角”来概括。另外,数据的两个基本特质,非竞争性和不可分离性,意味着在讨论诸如权属、分享机制、隐私保护等问题时,都不能简单套用传统生产要素的安排方式。基于这些讨论,我们提出了分析数据问题的一个原则,那就是,数据交换是经济活动和创新的基本驱动力,我们需要在促进数据流动的同时,保护数据主体的权利。

【数据治理】理解大数据:数字时代的数据与隐私_大数据_16

数据三角包括

  • 数据主体
  • 数据生产者
  • 应用场景

“数据主体”是指数据所描述的各方主体(无论是用于商业还是其他应用)。“数据生产者”是指收集、处理、存储或分发数据的各方。“应用场景”是指在现实生活中产生、处理和利用数据来促进经济或社会活动开展的场景。

【数据治理】理解大数据:数字时代的数据与隐私_数据_17

其次,数据的两个本质特征决定了数据不同于其他生产要素的权益和责任机制。

第一,数据的非竞争性意味着数据相关主体和数据生产者并非合一的关系,数据可以被多次、多方生产和使用而不消耗数据相关主体。 

数据作为一个核心的生产要素,具有非竞争性这一本质特征(Arrow,1969)。这指的是,与石油等实物商品不同,数据可以被无限次生产和使用,而初始数据和数据主体不会被损耗掉。很多人将数据比喻为新的石油,但它更像是可以传递不会消耗的火种。数据分享的范围越广,其价值也会随之增长。诺奖得主Romer(1990,2018)曾经一针见血地指出,信息是推动人类进步的一种特殊生产资料,但信息的非竞争性这个特点并未得到充分重视。所谓数据生产,我们指的是观察、记录和处理数据。虽然数据主体(个人)可以上报数据,但在大多数情况下,特别是随着数字技术的进步,数据通常由第三方观察或推断得出。举例来说,某人参加会议的事实是由所有参与者,包括其本人的眼睛和耳朵观察而得到的一项数据。 

因此,数据不仅是由数据主体生产的,也是由他人生产的。在这个过程中,因为观察角度的不同,每个参与者都可能生产不同的数据内容,或不同版本的数据,这些数据可能在细节上甚至本质上各不相同。另一个例子是消费者搜索和购买过程。数据主体通常无意主动生产数据,也不会在数据生成过程中付出任何直接成本。 

第二,数据不等于信息。

数据的价值取决于在多大程度上能够提取出解答和服务应用场景问题的信息。这个价值也会因为应用场景不同而不同。

从生成数据到从数据中挖掘出可以回答具体问题的洞见之间,存在着巨大鸿沟。所以在任何机器学习应用中,数据清洗都是重要的第一步。“清洗专家”需要清理数据,因为他们知道自己需要从中提取哪些信息。在观察者眼中,一组数据的价值取决于从中可以获取多少和学到什么样的知识(Blackwell,1953)。

不可忽视的是,将数据处理成有价值信息的成本很高。“信息”不是原始数据。也不是单纯的加减乘除,而是需要训练有素的数据工程师使用科学的方法、流程、算法和系统从许多结构化和非结构化数据中获取知识和洞见。数据科学与数据挖掘、机器学习和大数据等技术息息相关。

数据的价值是在使用场景中实现的。在前面所举的例子中,消费者可以通过对个性化数据的分析获得匹配自己偏好的推荐,小微企业可以通过分析后的数据了解市场。另外一个例子是共享单车服务。想使用自行车的消费者通过扫码进行身份信息登录,可以当场租赁自行车。数据交换是实现这一场景的必要条件。消费者、供应商和提供相关应用的平台,都从中受益。

第三,数据的第二个本质特征是不可分离性(non-separability),即数据使用的效果无法和数据主体完全分离。数据生产者在使用数据时可能会侵犯数据主体的隐私或忽视他们的数据安全,这正是隐私和安全问题的根源。

因此,数据的两个本质特征决定了,一方面,数据主体并非是生产和使用数据的一方,而且往往可以多方同时生产和使用而不会对数据造成损耗,这就和其他物理商品有本质不同;另一方面,数据主体和数据的生产以及使用也无法完全分离:如果数据主体不允许自身的活动被观察到,就不会有数据产生,同时数据的使用也可能会影响到数据主体。一个合理的数据治理和权益分配机制,应当让各参与方有动机参与到数据的生产、交互和应用,同时保护好数据相关对象的隐私和数据安全。

第四,虽然数据共享会带来隐私风险,但如果有恰当的机制设计和技术保障,风险和收益之间的权衡可以变得可控。

很多先例表明,科技发展带来新的挑战,也带来新的解决方案。比如人们曾经非常担忧乘坐飞机和汽车旅行会有死亡风险,而且这些风险可能永远不会完全杜绝。但有了先进的飞行和汽车安全保障技术,加上政府监管和行业自律,如今很少人会因为在出行和风险之间做出权衡而避免乘坐这两种交通工具。电梯安全问题也与此相似,在纯技术层面,电梯的安全风险几乎可以被完全消除。同样,有了完善法规和先进加工技术,一个人摄入的食物量与他食物中毒的风险几乎没有关系。数字隐私保护可能永远达不到电梯运行的安全水平,但这不能成为我们停止追求完美的理由。

 

7、数据治理的原则
  • 原则 1:数据所有权归数据生产者共同享有(包括数据相关主体和其他数据生产者),他们都有保证数据完整性、匿名性以及保护个人隐私的责任
  • 原则 2:隐私保护和数据安全问题,在很大程度上可以通过把基于法规和原则的隐私保护工程化,并大力发展先进的保护技术解决
  • 原则 3:在制定竞争和消费者保护政策时,一方面要考虑到特定市场中妨碍竞争和损害消费者的现象,一方面也要认识到大数据对竞争的促进作用和带来的消费者福利。