关于数据市场建设的几个问题_新浪财经

　　关于数据市场建设的几个问题

　　“五一”当天，和几位许久未见的学者朋友一起聚了个餐。学者的通病，就是身在江湖，却不忘国家大事，边吃边聊，一来二去就聊到了“双循环”，聊到了“完善国内统一大市场”。虽然我是经济学出身，但研究领域主要在产业和企业层面，对如此宏大的话题实在少有发言权。不过，在这种大家都在各抒己见、高谈阔论的场合，如果我只是闷头大快朵颐，似乎也不合时宜。我搜肠刮肚，终于联系自己熟悉的领域，扯出了一个话题：“既然现在中央认定数据已经成为了关键的生产要素，那么要完善国内统一大市场，就应该考虑全国性数据市场的建设。这个工作应该怎么才能推进呢？”此问题一出，果然引起了大家的兴趣，结果你一句他一嘴，倒也聊出了一些颇有意思的观点。作为这段对话的参与者，我舍不得这些有趣的观点一闪而过，回家赶紧把这些观点记录了下来，稍加扩充，就成了这篇专栏。

　　产权和价格：纠缠的两个问题

　　从某种意义上看，我们要想建立一个全国统一的数据大市场，当前的形势事实上类似于上世纪八十年代的经济改革。

　　在上世纪八十年代，我国经济改革的主要目标是要从计划经济转向市场经济，而要实现这个目标，就必须完成两个任务：一是要建立明晰的产权制度，二是要建立灵活的价格形成机制。如果没有明晰的产权制度，那么企业、个人等经济主体的激励就难以实现，其生产的积极性就难以调动；而如果没有灵活的价格形成机制，那么经济中的资源就无法实现有效的配置。

　　产权制度和价格机制这两者之间并不是彼此孤立，而是相互交织的。如果产权不明确，那么市场上就会存在巨大的交易成本，价格的形成就不顺畅；而如果价格形成机制不畅，那么经济中的主体就很难感受到正确的激励，也就很难有积极性去建立或维护自己的产权。因此，如何协调产权改革、价格改革的进度——是产权先行，还是价格先行，抑或是两者同步推进，就成为了当年改革中最重要的问题。

　　现在我们要讨论建立统一的数据市场，虽然背景和上世纪的市场化改革有不同，但产权和价格却依然是最为核心的两个问题。

　　首先是数据的产权问题。所谓产权，其实是一组权力的组合，包括了对于物品的所有、使用，以及收益等权力。和很多人理解的不同，产权其实并不是一个法学的词汇，而是一个经济学名词。它所指的权力也不并不完全指的是法律规定的权力，而是一种社会执行（sociallyenforced）的权力。也就是说，除了法律如何规定权力的归属之外，产权还要考虑社会当中如何去执行这些权力。

　　作为一种新型的生产要素，数据有很多独有的特征，这使得要明晰其产权并不是那么容易。

　　一方面，从产生的角度看，数据就与十分复杂的关系相纠缠。在现实中，很多数据来自于对人的行为的观察和记录，也就是说，要产生这些数据，行为人和记录人缺一不可。正是由于这个原因，与数据相关的各种权属究竟应该如何在两者之间进行分配，就成了一个相当难的问题。从效率的角度看，当然是把权利归属于数据的观察和记录者更好，但如果不把行动人的权力划分清楚，那么乱收、滥用数据的情况就可能出现。

　　另一方面，从使用的角度看，数据也有很多不便于明晰产权的属性。例如，数据具有非排他性，一个人使用了一套数据，并不会影响其他人使用。更为麻烦的是，数据还具有很强的可复制性，如果一个人拥有了某套数据，可以很轻易地把它们复制给其他人。这种属性的存在，会给交易中的产权划分造成很大的麻烦。数据在交易后再交易，或者被第三方使用的可能后果，都需要被考虑进来。

　　其次是数据的定价问题。数据定价之难，关键之处有两个：一是其异质性；二是其本身所涉及的复杂关系和风险。

　　先看异质性。数据的价值主要来自于可以从中提炼出的信息，而可以从数据当中提炼出的信息并不是同其大小正相关的——有时候，1MB的高质量数据中所蕴含的有价值信息甚至会比1TB的低质量数据中蕴含的信息还要多。

　　在一个具体的环境下，我们究竟可以从一套数据中提取多少信息，其影响因素有很多。一方面，这要看数据本身可能拥有的信息量。这就好像金矿石，只有含金量高的矿石，理论上可以炼出的黄金才更多。另一方面，这还要看人们开发和利用数据的能力——例如，他们是否拥有高效的数据挖掘算法，是否拥有和当前数据互补的其他数据集。对于同样的数据，利用能力更强的人也能提炼出更多的信息。由于异质性的存在，在交易当中买卖双方要摸索出一个价格可能需要比较大的交易成本。

　　再看风险。这种风险主要来自于前面所提到的数据的几个特质。由于数据在使用上具有非排他性、可复制性等特征，因此拥有数据方在将数据转手出去之后，事实上很难对数据的用途和去向进行控制。一旦这些数据引发了某些问题，它很可能需要对此承担相应的责任。

　　一个典型的例子是，剑桥分析公司在从脸书处采集了使用者的相关数据后，对这些数据进行了分析，并用分析的结果来影响人们的政治倾向，进而干预大选。客观上说，剑桥分析公司后来的行为应该是和脸书无关的，因为在开放数据的条款中，已经规定了其只能将数据用于科研用途。但当数据转手之后，脸书就失去了对它们的控制，它很难知道剑桥分析公司究竟对其做了什么。虽然从契约的角度看，脸书可以以事先约定为理由要求免责，但在现实当中，这是很难做到的——即使在法律层面上可以，社会舆论也会要求其付出代价。

　　回到交易的场景，如果某个物品的出售者需要为其出售的商品承担相应的风险，那么为了转嫁其自身的成本，他一般会在商品的原价上加上一个比例作为风险溢价。比如，在同等条件下，承诺售后服务的商品会比没有承诺的同类商品略微贵一些。但问题是，在非他性和可复制性等特征的作用之下，数据持有人很难对交易后的风险进行比较客观的评估，因此其溢价就比较难确定。这就使得数据的价格形成变得更为困难。

　　和一般市场一样，数据的产权和价格这两个问题也是相互交织的。这两个问题交织在一起，就成为了建立统一数据市场的最大障碍。

　　先把部分权利明确下来

　　为了破解以上困局，人们已经进行了很多的努力。从目前的实践看，比较主流的观点是，先从产权上找到突破口，把有关数据的权、责、利问题说清楚，然后再在其基础上解决价格形成机制的问题。然而，这种思路很快就会遇到巨大的理论障碍，因为数据的产权问题，真的很难说清楚。

　　首先，从本质上看，数据具有多重属性。一方面，它具有类似财产的属性，因此与其相关的权属问题肯定会涉及财产权的范畴；但另一方面，由于数据在很大程度上包含着人的活动信息，因此在考虑其权属问题时，也必须考虑到人的因素。其次，从来源和拥有的状况看，不同的数据也有很大的差别。有些数据是政府采集和拥有的，相关过程有着十分明确的法律基础；而另一些数据则是由私人采集或使用的，在采集之前，或许有一定的合同约定，但由于相关法律和制度的缺乏，对于其中涉及的某些权责的划分，还会存在着争议。再次，从使用上看，有一些数据的使用范围很狭窄，具有特殊性；而另一些数据的使用范围却很广，具有公共性。

　　由于以上这些问题的存在，我们事实上很难找到一个笼统的框架，把数据的产权问题一次性都说清楚。

　　面对如上情况，我们或许需要放弃毕其功于一役，建立统一的产权框架的努力，转而选择更为务实的方案。一方面根据数据的不同特征，对其进行分类，进行类别化的管理；另一方面则是把产权中的某一些权利先独立出来，对它们进行相关的规定。

　　首先是类别化的管理。如果是由政府相关部门依法搜集的，那么这些数据在属性上就具有比较鲜明的公有财产属性。在保证相关敏感信息不泄露的前提下，这些数据所涉及的各种风险和纠纷也会相应较少。从建立和完善数据市场的角度看，这些数据应该首先投入市场。而如果数据是企业或私人部门搜集的，这些数据的相关权属就会涉及相对较多的问题，在入市交易之前，可能需要进行更多的处理。

　　其次是对部分权利的优先明确。我们知道，在我国的经济改革中，其实很多问题的解决都是实践先于理论的。举例来说，在土地公有制的前提下，应该如何看待土地的流转，在理论上一直都很难说清楚。在实践当中，人们很快就摸索出了搁置所有权争议，将交易重点关注在使用权上的思路。这种思路最早是源于实践的，后来才逐渐在法律和制度层面上得到了确认。在我看来，类似的智慧是很值得借鉴的。

　　在数据的各种权属中，与其价值关联最为密切的，就是其使用权。在现实中，我们事实上只要求对某些数据进行使用，就可以从中获得相应的信息和价值。至于这个数据本身是谁所有的，其实并没有关系。从这个意义上看，如果可以搁置数据所有权的问题，把数据的使用权先明确下来，让它们可以在市场上进行交易，那么数据的价值就可以得到比较充分的利用了。

　　幸运的是，随着科技的发展，我们现在已经拥有了可以达成这一目标的相应技术保障。例如，现在的多方安全计算、联邦学习等新技术，就允许人们在不直接获取原始数据的前提下，开展机器学习。这样一来，数据的所有权，以及和数据相关的隐私等问题，都可以暂时被搁置。

　　而在各种权属中，使用权也是相对容易明确的。从归属原则上看，它们可以主要考虑经济上的有效性。例如，为了鼓励数据资源的生产，可以考虑将和使用权相关的权属划归数据的搜集者，这样就可以做大整个数据资源的盘子，让更多的数据可以被交易、被利用。当然，在这个过程中，作为被观察者的行为人的利益也应该得到照顾，但具体应该怎么操作，是由政府收取税收后集体补偿，还是由数据搜集者在搜集过程中支付对价，这就需要另外的制度设计了。

　　值得一提的是，我们这里提到的多方安全计算、联邦学习等新技术，不仅有助于我们绕过产权界定过程中的很多问题，其实还有助于让数据交易的过程变得标准化。有了它们，原本关于原始数据的一事一议式的讨价还价就可以变成相对标准化的按次计费。这样，价格的形成也就会变得容易得多。

　　如何推进政府数据开放

　　在市场建设的过程中，一个重要的问题是让这个市场启动起来。一个市场，只有当其出售的商品数量超过一定的临界水平时，才会对消费者具有吸引力。它自身才有可能获得生长，相应的价格，以及各种交易的制度才能在摸索当中逐步形成。从这个意义上讲，为市场的发展找到“第一推动力”，是一件至关重要的事情。

　　很显然，这个逻辑对于数据市场来讲，同样是十分重要的。现在，不少地区在尝试建立数据交易平台，但坦白地讲，很多不成功。其中的一个重要因素就是，平台上可供交易的数据很少，因此也没有人愿意到平台上来进行相关的数据交易。

　　那么，如何打破这一僵局呢？或者更为具体地说，应该从哪儿去寻找启动数据市场的“第一推动力”呢？一个最有可能的答案，就是首先把政府手中的数据开放出来，投入市场当中进行交易。在现实当中，政府拥有极为庞大的数据资源，并且其中的很多数据对于企业来讲都是极有价值，且难以获得的。例如，现在很多企业在开展业务时，需要对个人信息进行核实。其中很多的信息，例如犯罪记录等，理论上只有公安系统拥有。显然，为了访问和使用类似数据，企业是愿意付出相应对价的。如果把相应的数据进行开放，那么数据市场就可以被比较有效地启动起来。

　　不过，要推动政府数据的开放，其中还会涉及很多的问题：

　　首先，在现实当中，政府的数据是分散在很多部门的，而其中很多部门并没有激励去开放数据。事实上，不要说是将数据开放到市场上去进行交易，就是要在政府部门之间进行共享，也并非易事。例如，我曾给某地方政府做过一些课题，其中需要与之相关的各政府部门提供数据。而即使有地方一把手出面进行协调，最终还是有几个部门拒绝提供数据。在政府部门之间打通数据壁垒尚且如此困难，要求这些数据对外开放，又谈何容易。

　　其次，政府数据如果要上市进行交易，其交易价格就会成为一个问题。究竟是把这些数据按照一般的市场规律进行交易，根据供求调整其价格，还是按照其他什么原则来定价，必须事先进行一些设计。

　　再次，政府数据的交易可以获得相应的收入，那么提供数据的相应部门是否可以从这些数据中获得相应的收益？这些收益应该按照怎样的规则来进行分配？

　　对于以上这些问题，我们可以逐一来进行分析、回答。

　　首先，一些部门不愿意提供数据，关键还是一个激励设计的问题。政府部门提供数据是具有风险的，如果有些机密或者重要的信息因此而泄露，那么相关的部门就很可能需要承担相应的责任。在现实中，这个问题可能很复杂。由于数据之间是有互补性的，即使某个部门提供的数据本身没有问题，但一旦它们和其他的数据联系起来时，就可能被挖掘出某些重要信息。这一特征决定了单一的部门事实上很难有效防止相关信息的泄露。在这种有风险、没收益的情况下，各政府部门开放、提供数据的积极性当然会不足。

　　既然明白了这个问题，我们就应该从激励入手。一方面，对于相关部门提供相关数据的风险，我们可以设计一定的制度去进行规避。例如，地方政府可以设计一个整体的数据提供清单，规定本地各部门应该提供，且可以提供的数据目录。对于因提供目录内数据而引发的问题，提供数据的部门可以获得免责。这里，之所以要强调将各部门综合起来，共同制定设计清单，主要原因是为了回避前面说到的数据互补性的问题，尽可能降低重要信息泄露的风险。与此同时，政府对于开放数据的脱敏标准作出统一的规定，各部门需要按照这个标准统一行事，从而尽可能避免敏感信息泄露问题的发生。另一方面，对于相关部门开放数据的行为，也应该设计相应的激励。

　　其次，在政府数据的定价方面，可以采用以成本补偿作为最重要的标准。政府的数据多是具有公共属性的，从性质上看，它们事实上和公共设施十分类似。在实践当中，公共设施的定价多是以社会福利，而非盈利为最主要目标的，在价格制定上也以补偿成本为主要依据，因此数据的提供也可以进行参照。具体来说，可以根据搜集和管理数据投入的人力、物力，计算出一个总成本，并大致上根据市场需求，估计出数据在一定时间内可能被使用的次数。然后将总成本除以次数，计算出一个对应的价格。

　　再次，可以考虑建立一些国有企业，让这些企业来集中运营数据，分配由此获得的收益。出于政府部门本身属性，让其直接来进行数据的运营是不合适的。为了解决这个问题，政府可以考虑以数据资产作为股份，建立一些国有数据公司，由它们来专门负责数据的交易，以及数据资产的保值增值。对于这些数据的管理，以及其利润的分配模式，可以参考一般的国企进行管理。

　　总而言之，虽然推进政府数据的开放并不容易，但只要我们把相关的工作做到位了，这个任务依然可以顺利完成。而一旦政府数据被盘活了，整个数据市场也就有了“第一推动力”，各种企业主体也就会慢慢地加入到数据市场当中来。

　　如何克服数据割据

　　目前，各地对于数据要素市场化的工作都十分重视。很多地方由政府牵头，建立了数据交易的平台，并且政府也主动牵头，将其手中拥有的数据率先放到平台上进行交易。总体上看，这种局面是十分可喜的。不过，也有一些人对这种局面的出现提出了一些担忧。在他们看来，这种各地区各自为政，分头在本地建立数据市场的做法，很可能会导致“数据割据”的局面，从长远来看并不利于全国统一的数据大市场的构建。应该说，这种担忧是有一定的道理的。

　　在现实中，有些地方政府为了率先启动本地的市场，不仅规定本地的政府数据只能开放给本地的平台，甚至还要求本地企业的数据只能在本地平台上交易。如果任由这种情况发展，确实可能导致“数据割据”的产生。针对这种可能性，一些人建议，中央层面应该积极介入，规定一个数据平台，让全国所有的政府和企业数据都只能在上面进行交易。

　　在我看来，对于以上的争议，我们应当采取一种务实、辩证的思路来看待。各地区之间的利益还并不是那么统一，如果要求将所有地区的数据都到统一的平台上进行交易，可能反而会打击各地政府和企业开放数据的积极性。对比之下，先以地区为单位，建立各自的数据市场，或许是更为可取的。更为重要的是，由于现在大家对于怎样建设数据市场还缺乏统一的认识，先允许各个地区分头探索，总结经验，或许也是更为有益的。

　　当然，关于“数据割据”的可能，也应该引起高度的重视。为了防止这种情况的出现，应该在各地数据市场的底层建构上规定一些统一性。这样，一旦以后要将各地的市场统一起来，成本就不会那么大。

　　那么，究竟哪些东西需要统一呢？从当前看，可能以下几个方面是最为重要的——

　　一是政府数据开放清单的统一。一旦有了这样一个清单，各地的政府数据开放就可以相对容易地得到推进，

　　二是数据整理和存储标准的统一。数据究竟应该按照什么方式来进行整理，以什么格式来进行储存，这些应当给出一个统一的参考规范。将来如果要统一全国的数据市场，这一点也不会成为障碍。

　　三是数据使用接口标准的统一。数据搜集的主体可能是地区化的，但其潜在的使用需求却是全国化的。如果数据调用的接口不统一，则会带来很多不必要的交易成本。

　　在做到这些底层要素的统一之后，我们就可以比较放心地让各地的数据市场进行自由发展。看看究竟怎样的模式可以胜出，然后再将这个地区的经验逐步推广、介绍到全国。对于数据市场的建构来说，这种自下而上的思路可能是更为合适的。