邬贺铨:我国数据共享开放面临三大挑战

来源:c114

点击:1353

A+ A-

所属频道:新闻中心

关键词:邬贺铨 数据 数据平台

        在日前召开的“2017大数据产业峰会”上,中国工程院院士邬贺铨表示,明年我国将形成统一互联网数据平台,数据共享成为关键,但目前我国数据共享开放现在面临三大挑战:不愿意共享开放;法律法规制度不够健全;缺乏公共平台,共享渠道不畅。

    邬贺铨:我国数据共享开放面临三大挑战

    明年我国将形成统一互联网数据平台

    数据显示,大数据的利用给美国的保健、欧洲公共管理服务的提供者分别带来3000美元、2500亿欧元和6000亿美元的年度价值,给经销商带来60%的利润增加,给制造业带来50%的成本降低。如果政府在保证国家安全和公民隐私的情况下开放数据,可以带来年度的全球经济价值32000亿美元到54000亿美元,所以大数据本身带来的产业价值是很大。

    在我国,国务院关于促进大数据发展的行动纲要里提到推动政府信息系统和公共数据的互联共享,消费信息孤岛,避免重复建设和数据打架,增强政府的公信力,促进社会信用体系建设。

    但大数据共享究竟在指什么?邬贺铨指出,政府部门之间的数据共享、跨行政区域政府间的信息共享、政府与企业间的数据的合作和共享、企事业单位之间的数据共享,这是多方面的。

    “从政府层面来看,需要设立大数据协同管理机构促进政府部门间的数据共享,必须有很多政府间合作才有很大的数据量,但是必须要健全地制造框架和制度体系,明确共享什么,明确参与共享的责任和义务,要有互利,否则共享是很难持久的。”邬贺铨表示,“现在一些城市设立大数据局来做这个工作,比如广州大数据管理局,主要做协调政府内部的信息平台的共享,怎么打破部门之间的信息壁垒,共享各项民生数据。”

    此外,邬贺铨认为,政府需要建立进一步的基础数据库,一方面是要集中存储被共享的数据,同时进行清晰、校验和整合,提供可以共享的目录,以便用户可以接入和收取这些数据。当然还要规定访问的权限和灾备等等。

    按要求,明年中央就要构建形成统一的互联网数据平台,数据共享成关键。

    据邬贺铨介绍,目前国内已经有跨区域的大数据共享合作的例子。例如,连云港的一个平台整合了山东和江苏相邻的几个地方的监控图像数据,通过统计分析、轨迹展示、布防布控,实现一键查询、统一风控报警、快速判定行窃轨迹等等,目前通过这个平台抓获了国内违反犯罪人员500多名,破案400余起。

    发展行动纲要还提出要加快建立公民法人和其他组织的统一社会信用代码制度,要有企业的信息公示系统。邬贺铨透露,“目前已经建成了网络执行查获系统,现在已经有13个国家部门、3000多家银行能够查询11类14项,使得全国法院可以了解所有被执行人的情况,实现自动化的精准查询。”

    在谈到政府跟企业间的数据共享不对称问题时,邬贺铨指出,从国家安全出发,政府是有权调用企业数据,但企业是否有义务向政府提供数据还是存在疑问的。

    国家大数据行动纲要提到,2018年要开展政府和社会合作开发大数据的试点,不是简单说政府调用企业的数据,而是政府怎么跟企业合作开发。在关于积极推进互联网+行动计划纲要,开展一批社会治理互联网的应用试点,打通政府部门、企事业单位之间的信息壁垒,利用大数据分析手段提升政府的数据治理能力。

    邬贺铨认为,“如果政府能把BAT数据融合在一起,对于政府能够掌控社会智慧城市、中国的治理都会有很大的作用。”

    我国数据共享开放面临三大挑战

    根据不完全统计,中国政府数据开放平台超过40多个,其中沿海经济发达地区占总数的70%,西部中部还是比较少的。“虽然我国开放了教育、医疗、文体、环境的数据但存在一些问题。”邬贺铨指出,“开放的总量偏低、结构化程度低、数据质量不高、民众参与反馈不准。”

    联合国电子政务发展指数有三项:信息基础设施、人力资源、在线服务的情况。数据显示,2016年开放电子政务发展最好是英国,中国排第63位,还是比较靠后的。而2014年中国排在46位,2015年中国排在第55位。

    邬贺铨指出,“政府开放数据需要技术框架来支持,包括开放数据管理、开放数据技术、开放数据的门户。我国数据共享开放现在面临三大挑战。”

    一是不愿意共享开放,政府部门各自为政,把数据开成自己的权利,很多政府部门以信息不对称作为手段,缺乏激励机制,和技术部门共享数据还得向公众开放数据,得不到商业回报,因此在多数情况下职能部门对于数据开放消极的被动。

    二是现在很多法律法规制度不够具体,不清楚哪些数据可以跨部门共享和向公众开放,数据信息的共享开放有一定的风险。目前制度是不明确的,导致了政府开放存在风险,责任很难界定。

    三是缺乏公共平台,共享渠道不畅。过去信息传递多数是部门之间通过电子邮件进行,安全性保密性可持续性很难保证,没有统一的标准规范,不同职能部门对数据的采集记录标准千差万别,统计口径和时间不一致,没法用。数据开放需要脱敏,缺乏必要的技术和人才支撑,很难按照技术标准来规范。

    第二,大数据的流通与交易。什么叫数据交易?数据有提供方有使用方,很多时候需要通过数据中介方,政府开放的数据在脱敏以后的原始数据,我们有数据挖掘公司,开放了政府收集的数据,在加工以后把它出售,给数据使用方、行业户,数据生产者、原始的要脱敏的数据给数据挖掘的中介方清洗以后提供给行业用户,通过中介方整合挖掘合并清洗以后,提供给行业用户。数据生产加工者,清洗后的数据通过数据交易所、数据交易所就是倒手,把他清洗加工后的数据转售给行业用户,或者数据生产者直接把原始脱敏的数据交给行业用户。

    一般来讲数据生产者是很少直接面向最终用户的,大多通过中介渠道实现自身数据的变现,像美国的推特本身不直接销售他的数据,把他的数据授权给好几个公司,让他们卖,目前美国的数据中介思想在2012年的最规模已经达到1500亿美元,数据中介本身也是一个很大的产业。美国有好多数据中介公司,这些中介公司通过各种渠道收集和买数据,Clemic(音)从政府收购数据,他自己也有传感器,也收集了一些数据。

    中国联通有很多用户数据,包括OSS的上网流量、BSS的用户的详单等等,这些数据不是中国联通的,都是用户的,中国联通可以进行加工利用,通过脱敏,屏蔽掉个人隐私,当然这里面要通过审核,他可以接受很多公司的委托,有审核他的需求,通过各种分析通过过滤最后可以提供服务,联通是以咨询的方式对外部的公司提供服务,他们已经上线了身份核查、位置验证行为评估等等,已经服务于招行、蚂蚁金服、住建部、交通部等等,这是数据收集者直接数据挖掘然后提供服务。

    目前在我们国家网上出售的数据有多少呢?有公司已经出售了一些数据。总的来说现在网上出售的所谓大数据都不够大,不够大也不能说一点没有用,从大数据的角度还是有限的,这是公司本身的行为。

    大数据交易关键对数据质量的要求,准确性,你一般会提供原始数据,我怎么知道你的数据是真实的完整的,万一你提供给我的是不全面的、不真实的假的,我买的数据挖掘结果你告诉我这是数据挖掘,谁知道你挖了多少数据,最后怎么能判断你是真假,这里没有第三方,所以这是个大问题。还有完整性,数据是不是缺漏,很多时候是数据过滤和脱敏以后的,如果说简单只是为了避免安全、隐私,但是最后你的数据还得有全面性,不能是片面的。还有一致性,同类数据的表述形式是否一致,出现多次的数据是不是差异,数据是不是符合标准,是不是合规,否则买来的数据也不好用。

    合法性,你卖给我的数据所有权是不是你的,我现在问一些国内的数据交易所数据是哪儿来的,他说政府的数据,我说政府数据不能卖钱,政府数据能公开就是免费,他说有些企业给我的数据,我说首先明确企业给你的数据是不是企业自身的,三大运营商有数据,但数据所有权不是三大运营商的。数据及时性,你给我的数据是2017的数据还是2016的数据,你是不是有实时性。可用性,你给我的数据我能不能容易理解,能不能用我的技术手段进行分析挖掘。安全性,你给我的数据是不是真正把国家安全和个人隐私的都屏蔽掉了,不然我用了以后变成我侵犯别人的商业机密和个人隐私了。我把数据存在你的中介那里,你能不能保证这个存储是安全的,不被污染的,数据不被窃取。

    现在在我们国家做数据交易,我觉得有很多问题,现在没有保证它的质量。

    大数据交易权限。政府的数据如果能够开放那就是免费,不能开放的数据无论多少钱也不能卖,所以政府的数据不存在提供给中介方交易的问题,当然中介方也许收集政府的数据,通过加工可能他有他的劳动,运营商收集的用户数据原则上所有权是用户,BAT收集的数据原则上所有权是用户,但运营商和BAT拥有对数据脱敏对挖掘分析后的加工结构数据的所有权。没有数据所有权,有数据的公司通过挖掘向政府和企业提供咨询报告,是不是允许在保护隐私和国家安全的情况下提供,他没有数据所有权,但是他有数据挖掘能力,他进行挖掘加工了,这个时候他是不是可以提供,没有数据但是有数据挖掘能力的公司可以受委托完成数据挖掘。受委托挖掘以后,他能不能利用数据为非委托方服务呢,应该是不允许,但是现在没有明确规定。

    没有数据也没有挖掘能力的公司,可以作为中介平台,但是是不是可以允许他截留数据呢?中介方收集了政府开放的数据据为己有并且出售是不是合法?很多政府公开的数据,有些网站标明价格出售,按道理这是政府的数据,尽管你去收集花点时间,但是毕竟还是公开的东西,你是不是能出售?在数据源的稳定性、更新频率和数据扩散方面也要商量明确的界限。

    怎么衡量数据的价值?精加工的数据可视化的数据怎么定价,怎么衡量数据挖掘的工作量,你做了多少工作,一次性买断的数据和可以重复多次出售的数据怎么定价,数据的价值跟时效性什么关系,应该随着时间掉价,是不是需要有对数据评估的第三方机构,现在都是两者来谈。国内的数据流通和交易存在什么问题?我国数据源的活行不够,数据中介机构处于起步阶段。政府企业组织没有充分认识到用外部数据可以对自身工作和业务起到巨大的提升作用,所以一般来讲都很少利用外部数据。很多数据拥有者对数据里蕴含的东西缺乏足够的洞察,不放心让自己的数据进入流通环节,担心企业隐私机密泄露。刚才是不愿意吸收外部数据,这是不愿意把自己数据拿出去流通,大部分数据资源的垄断,关注自己的小生态圈,不愿意把自己的数据资源向生态圈之外的市场提供,所以流通也不够,交易也不够,利用更不够。

    这个月刚刚挂牌的大数据流通与交易技术的国家工程实验室,是发改委批的,有上海数据交易所牵头,联合了浪潮、联通、互联网信息中心。

    大数据利用和保护。什么数据要保护?和国家安全有关的数据要保护,和企业商业秘密有关的数据要保护,公民隐私的数据要保护。目前欧盟制定了严格的数据保护法案,中国虽然有宏观上的数据保护的要求,但是没有全面的数据保护法规。关于欧盟的数据保护,去年4月份欧洲议会通过了通用数据保护法案,也叫一般数据保护要求。这个法案要在明年5月25日生效,还有一年左右,这个数据保护法案里没有国家安全、企业秘密。涉及欧盟里面的单位对多元数据的处理,这个处理不管在欧盟内部处理还是在欧盟外部处理都要受这个法规管。没有在欧盟里有分支机构,但是你向欧盟的消费者提供服务,不管你的服务是不是收钱也都受这个法规的约束,你对欧盟里头的消费者进行行为监控,欧盟之外如果已经有的法律受欧盟成员国控制的也在这里。所以要注意的是处理者不在欧盟里边不重要,但是欧盟里头的消费者都要受这个管理,中国的企业如果把微信支付宝用到了欧洲,那么一样你也要受这个管理。什么叫多元数据?多元数据是跟个人隐私、专业、公共生活有关的任何信息,包括姓名、照片、电子邮件地址、IP地址等。

    针对个人的信息的收集、记录、组织、建构、存储、修改、咨询、使用、传播和其他的应用,包括排列组合,无论是人工处理还是自动化处理,你可以通过这些处理能够针对自然然的工作表现、经济状况、健康状况、个人偏好、兴趣、这里个人隐私的范围是很宽的,包括个人的IP地址都是隐私。个人对自己数据有什么权益?个人具有管理自己个人数据的权益,具有自己的数据被泄露能够获得及时通知的权利以及被遗忘权。对个人数据处理有什么要求?合法公正透明,必须有规有法。目的是有限的,你可能为某一个目的来收集处理,只要是为公共利益或者历史研究的目的、统计的目的,目标是有限的。数据是最小性,你获得我的数据不能把我所有的数据都要,可能跟某个目的有关的数据被使用,但是不能把所有数据都拿走。及时性,你用完以后要毫不延迟的删掉处理掉。存储的有限性。只有为了公共利益或历史研究,个人数据才能长时间存储,其他目的个人数据不能长时间存储。完整性,要保证你收集的数据要有技术措施保证它不能受非法授权、非法处理、遗失丢失损毁。

    关于数据处理什么算合法?并不是说个人数据不能处理,以下的规定可以处理。本人同意可以作为一个或多个特定目的,我特意查了一下所谓本人同意是要书面同意,要写下来同意。我有一个合同,要有个人数据,处理的数据主体在签合同前的请求。处理是为了执行法律,当然要征求。处理是为了保护我自己,为了保护另一个自然人的切身利益,为了保护利益。处理是为了公共利益,处理是为了追求合法的利益的必要,这是允许商业利用,利益的商业部门企业来处理个人数据,首先是为了合法利益,当然不能侵犯提供个人信息的数据的消费者的利益,尤其是儿童。我们现在手机上的APP几乎所有APP都收集个人信息,收集完了如果有合法利益的那是允许的,什么界定你的合法利益,很多时候不见得是合法利益。有个社会调研,有人提出来你是否愿意为了你将来的应用资费上的优惠牺牲你的隐私,全国有27%的人表示可以牺牲隐私,中国有38%的人表示可以牺牲隐私,中国更多人认为隐私不重要,反而优惠更重要。

    传输存储和开发要有要求,所有的软件包括移动应用的APP在开发阶段和运行数据处理阶段要保护个人数据的隐私,数据控制也含APP,要有充分的技术和措施确保数据和移动应用的完整性,必须应对数据处理面临的风险,处理的时候是不是数据被丢失了,有很多要求。违规怎么办?一般性的违规,处理上限是罚款1千万欧元。如果严重违规的罚款上限是2千万欧元,上一年度的营业额的4%,BAT营业额都到几百亿的话,要罚起来不得了。云计算跟这个法规什么关系?管理者负主流责任,如果一个政府在云里存储了数据,你就是管理者,很多人认为我把数据存在云平台,管理者是云平台,欧盟提出来你存进去你应该对数据所有的保密、安全负责,所以云平台有云平台的责任,你存数据也有你的责任。法规不受限于公司国籍,不受限于云服务的地理位置,如果在中国存了关于欧洲公民的个人数据,这个法规也适用,所以在中国的云平台里不是说什么数据都存进去有用。目前80%的云服务不会在合同终止的时候立即删除客户的数据,58%的云服务不能提供IT所有权的保证。对2万多个云服务的调查,只有6%的云服务符合这个,如果现在云服务涉及到欧盟的消费者,这里面就危险了。

    对中国有什么影响?法规提出非欧盟成员国公司只要满足下边两个条件就受这个法规的影响。你向欧盟境内可识别的自然人提供商品和服务,收集和处理他们的信息,你做支付宝肯定收集了他的信息,你做微信肯定收集了他的信息。监控欧盟境内可识别自然人的行动收集他们的信息,你做地图服务也收集了信息。在欧盟境内有分析机构的外国公司,分析机构被作为责任主体强制执行法律要求。如果在欧盟境内没有分支机构,一旦境外公司高管进入欧盟境内将直接执行,你小心,如果你犯规的话,你的高管进去他就罚你,把你抓起来。所以对中国企业的移动应用安全数据收集处理交易产生重大的影响。首当其冲的是银行、电子商务、互联网、IT企业、软硬件生产商。欧盟这个法规既有保护他的意义,也有很多是限制。

    我们国家当然也有一些数据开发应用的文件,工信部出台的大数据产业发展规划,去年出台的网络安全法都提到对个人信息和重要数据在境内存储,保护信息安全和个人隐私,我们的规范都很宏观,不具体,真正违反了怎么样并没有没有。跟欧盟的比,我们准备得还是比较粗的。

    最后,数据的价值在于融合与挖掘,政府数据对公众的最大利益在于共享与开放。数据流通与交易有利于促进数据的融合挖掘,数据的使用必须面对保护的责任与义务,尤其是对个人隐私数据的保护。欧盟提出的GDPR将数据保护的严重性提高到前所未有的程度,需要引起我们的高度重视。数据的共享开放、流通交易和数据保护以及数据安全,对数据技术提出的研究挑战,区块链技术在数据流通交易的保护方面能够起到一定的作用,数据的共享开放流通交流使用保护对法律的制定与执行提出了很高要求,同时需要平衡数据的保护与数据的开发利用。

    谢谢!


    (审核编辑: 智汇小蟹)