梅宏:大数据治理体系建设的若干思考

来源:智汇工业

点击:355

A+ A-

所属频道:新闻中心

关键词:大数据治理 数据治理 数据安全

    尊敬的各位领导、在座的同行们大家上午好!非常感谢电子学会给我这样一个机会来谈一谈对大数据的认识,我还是非常认真地做了一次准备,这次所有的内容是全新准备,第一次亮相。过去我谈技术和应用比较多,最近我想结合最近的一些思考,谈谈大数据治理的问题。这方面我自己也是一个外行,还在学习当中,所以说这中间如果说有什么不对的地方,仅仅是个人观点,供大家批评。

    我想谈两个方面,如果我们要回顾一下大数据的发展和现状,然后就大数据治理体系谈一些认识。

    大数据的发展和现状

    我想以这张图,把Gartner从2011年开始,整个对技术的预测来回顾一下大数据的技术发展。大家知道Gartner新型技术成熟度曲线图,顶点就是炒作的高峰,然后逐步回归底线。2011年,大数据还在山腰爬坡,最左边的那张。然后到2012年的时候,快爬到坡顶,2013年到了顶峰,2014年下来,2015、2016年就不存在了,为什么?整个平面图就说明一件事情,对大数据的认识已经趋于理性,大家在喧嚣以后找里面真正的东西。

    再以另外一张图来展示,就是大数据产业生态图。这个图是最早2012年彭博社发展的。这张图是把大数据整个的产业,就是小的已经隐掉了,就是一些企业,将这些企业分为基础设施类、分析类、应用源的跨基础设施分析的,还有开源项目,这里面涉及的很多。时间关系,大家后面再看,我不做一一地解释。我这里将它列出来,可以看到2012年是风险投资人Matt Turck绘制了1.0的版本,然后10月份正式发布了大数据产业地图。

    从这张图可以看到这是第一次出现大数据基础设施是当时的研发重点。有了大数据基础设施,主要是指以信息技术为支撑的,怎样处理和管理大数据相关的基础设施。基础设施相关的业务和企业发展是比较快的,生态系统正在逐步地形成,同时也在快速的演化过程中。2014年出了新的版本,这时候大数据分析就成为了生态系统里面最火热的部分。我们看到分析成为热点,有大批的公司成立并快速发展,风险投资大量涌入。应该说这个时候生态系统还处于一个初级阶段。

    2016年大数据应用成为发展的重点,面向行业和领域的应用型企业发展迅猛,生态系统逐步形成,向更为成熟的程度发展。2017年又出现一个新的重点,2017年的重点是把数据治理、数据安全,我这里看到,这里面的数据治理还是相对狭义的治理,数据治理、数据安全首次纳入基础设施的范畴。数据资源、数据安全成为重要的基础设施,整个生态系统发展全速推进。大家看到右下角出现的东西,是以前图里面没有的,就是关于RD资源,将研发资源当成重要的生态系统的环节出现。

    从当前来看,IDC有一个报告,2014年全球大数据市场规模是285亿美元,同比增长50%。2015年,达到384亿,同比增长34.7%,2017年是市场规模达到721亿,未来五年,行业的年均复合增长率在40.98%,2021年,全球大数据规模将回答道2347亿,这是他们的估算。还有一个对数据总量的估算,这也蛮有意思,2014年IDC的报告。说2020年前全球数据量将保持每两年就翻一倍的速度增长,预计2020年全球数据量将达44ZB。

    结果在2017年4月,IDC发布了《DATA Age2025》报告,预计,2020年全球的数据量要晁盖50ZB左右,又超出了6个ZB,6个ZB什么概念?说明这件事情数据量的增长本质上是超出我们的预期。当然因为它这个估算只是按照它自己存储设备的量来算,这种算法我们大量的数据都是重复的,拷贝存在的,还有大量的实际上没有用的数据。

    2025年,大数据量将达到160ZB。在他新的报告里面有一句话我一直在琢磨“Do not Focus on Big data;Focus on the data that is Big!“我们不要在抽象层面上或者是宏观层面上再去讨论大数据,大数据未来就是无处不在。我们每个人生活中所遇到的都是大数据,所以我们关注的是数据本身,至于数据大了怎样将它分析好、应用好,这里面就体现了一个非常关键性的变化。

    这张图也是易观智库发表的我们国家大数据生态状况图,2015年从三个技术层次主要是被5—8家国际厂商主导,国内厂商多出现在数据使用层当中的数据可视化领域,极少数涉及到数据的升级和管理。国内的大数据生态系统,也在向着细分的大数据服务方面发展,可以看到基础技术和系统方面缺乏原创,分析方法与算法应用牵引不足,研究实用性和易用性偏弱,互联网大数据的应用水平和效果接近国际先进水平,其他行业和企业的大数据应用水平和效果是明显落后。

    这是2016年的,我们可以看到大数据领域,国际上仍然占主导,基于物联网的数据采集与数据管理初现,各内容类互联服务竟相成为数据源,垂直化与行业化应用发展迅猛,应该说我们水平提升,开始积累大量的原始数据,已经成为数据的收集和管理,已经成为我们国家大数据产业发展的重要和关键的点。总书记讲数据经济,数据是关键的资源,所以这块大家的重视度日益增高。

    从国家总量来看,2015年,中国大数据市场规模达到115.9亿元,同比增长38%;2016年是168亿,同比增长45%。但是预计2018年会达到280亿,未来五年年均复合增长率约为27.29%,2022年将达到735亿元。IDC给出中国的量,2020年按照44ZB来算,中国会占到18%。从2013年的指数,我们以一个iPad装的数据累积起来大海就这么一点点,到2020年可以到月球上一下,这是打一个形象比喻。

    前面我们回顾了一下大数据的发展,主要是从产业角度来看。应该可以看到从产业地图展现和技术研发走向是有这样一个趋势和阶段,从基础技术和系统,以及大数据基础设施的构建,分析方法和算法,到领域行业应用,现在涉及到大数据资源管理安全的成为一个新的热点,由于大数据作为战略资源的地位越来越重要,我们管理、安全隐私、开放共享成为当前的重点,因此要建立数据的治理体系,成为当前一项紧迫的任务。

    对大数据治理体系的认识

    下面我谈谈对治理体系现状和未来的一些认识。

    先说说相关的概念,我也在学习,什么是治理,什么是管理?治理本身是源自于拉丁文的“掌舵”一词,它是指政府掌握和操作的某种行动。它是联合行动的过程,强调协调而不是控制,治理是存在着权力依赖的多元主体之间的自治网络,治理的本意是服务,通过服务来实现管理的目的,治理是决定谁来进行决策,管理了就是制定和执行,这中间还是有细微划分。

    在大数据治理里面,当前可以看到有很多的实践。但是我梳理了一下,不管是从微观、中观、宏观层面,我们谈到的这件事情它的定义内涵是一致的,从微观层,主要是从策略和程序角度定义。有一个定义是说大数据治理是描述数据怎样在它的生命周期内有用,和经济管理的组织策略和程序。

    而从中观层面,大数据治理是企业数据可获得性、可用性、完整性和安全性的部署和全面管理。从信息治理计划,过去有一个IT治理、信息治理的说法,广义信息治理计划的一部分,制订与大数据有关的数据优化、隐私保护和数据变现的做法。从体系框架角度也有,说是对组织的大数据管理进行评估,指导和监督这样一个体系框架。通过制订战略方针,明确公等待实现大数据的安全可控、价值提升提升创造,并提供不断创新的大数据服务。大家看到各种各样的都有它的道理,但是他们的内涵是不一致的,也就是在这个领域认识不一样。

    总结来看,他们的具体落实是落在组织层面,我们是讲一个群体,不管是企业还是法人代表。这是国内和国外总结的东西,第一个是从大数据类型、产业与功能、治理来定义大数据治理框架,他讲企业可以根据框架,制订自己的准则。另外一个是从原则、范围、实施与评估三个维度。

    实际上我们可以看到现在的工作基本上是在企业层面。如果真正地来看,大数据这件事情作为一个国家的战略资源,单靠企业、单靠组织层面实际上是不可能构成一个完整的体系,所以说我们梳理了一下,这是个人的观点。我认为现在的大数据治理有很多很好的工作,但是仅仅落实在企业层面是远远不够的。而且它中间很多方面本质上也没有覆盖到一个整体多方位、多源。

    我梳理一下是有几个问题,第一,我认为大数据的治理体系涉及到组织,也涉及到行业,更涉及到国家,至少这三个层面。在这三个层次,我们怎样去定义构建一个完整的曲线,大家想一想国家层面没有法律法规的沟通,你下面任何的治理体系都完不成。

    第二,大数据治理体系需要完善的法律法规,全面的标准体系支撑,是否需要围绕“数据”为主体来制订制度法规和标准规范,现在我们信息安全、全世界研究的包括数据的隐私,探讨的很多。前段Facebook事件给大家一个警醒,很多人都开始关注隐私的问题。在这一问题,这些东西的层面上,我们有没有必要围绕数据这件事情来构建一套相关的体系,实际上现在全世界也都没有。

    第三,大数据的治理的重要性已得到较为广泛的认识,已有不少成功实践,但是我们可以看到现在的实践还尚不足支撑一些共识的形成,还是盲人摸象,或者是自己站在自己的点上讲道理。

    第四,大数据治理体系技术支撑需要涵盖大数据管理、存储、质量、共享与开放、安全与隐私保护等多个方面,当前相应的技术研究关联性和系统性还存在欠缺,都是在点上,整个将技术关联起来还有问题。

    第五,大数据资产地位得到广泛认同,但是如果没有有效的管理和应用,这种数据实际上会成为负担,这对任何层面都是一样的。

    第六,大数据管理的相关方法与技术已有不少成熟产品与技术,但还是缺少完善的多层级的管理体制和高效的管理机制。单有技术,没有管制体制和机制也完不成。

    第七,大数据共享与开放已经成大数据成功应用的关键,怎样将技术和标准有机结合,能够建立在不同层级上的良好的大数据的共享与开放环境。像政府现在做的就是推广政务的工作。

    再就是大数据安全与隐私保护意识不断加强,除了向卷技术需要不断发展以应对各种新型攻击挑战外,因为技术发展,各种不断的黑客技术为我们发展带来挑战。但是单靠技术本身是不可能解决安全问题,我们还需要企业、组织机构的安全保障的制度完善以及行业治理的监管也成为关注的重点,所以我们很多企业没有将这个作为重点,国家层面在弄,但是国家层面立法出来相对是比较慢的,所以从这一程度上来讲,我斗胆地提出大数据管理体系应该是这样的。

    大数据治理体系的内容涉及到数据资产地位的确定,相应的管理体制和机制,共享和开放的原则和机制,安全与隐私保护的政策和相关的东西。那么它的层次呢?涉及到每一个法人组织,也涉及到相应的行业。比如说我们的同盟,我们协会召集了这么多的企业。还有是国家层面,三项层次四项内容,同时做好这个事情是四管齐下,涉及到制度法规、法律法规是国家层面的,制度是企业行业的,涉及到标准规范,我们一定要有共识,涉及到应用实践,在实践当中来回磨合,还有一个我们必须要有技术支撑,没有技术支撑这些东西做不到,所以我认为这个体系是这样的状况。

    治理体系我们简单说一下国家层面,资产地位确立,需要国家法律法规层面明确数据资产地位。管理体制机制,需要建设良好的管控协调机制,促进数据产业的健康发展。去年制订数据开放共享的政策,建设政府主导的数据共享平台,还有需要出台数据安全与隐私保护的法律法规,保障国家、组织和每个个人的数据安全。

    实际上这在现在已经有很多的工作可以做,数据资产的确定,什么叫资产?上面有一个定义,能够产生价值的东西就叫资产,明确将数据作为资产,就可以将数据的归属、估值、交易、管理等纳入到人类社会的一般资产管理体系,这样对确权、流通、交易、保护就具有支持性的东西。

    实际上大家都在做,比如说美国在《消费者权益保护法》就明确了消费者对于自身管数据的所有权和控制权,也描绘了消费者有权控制企业对个人信息的收集和使用,有权控制企业对个人信息的收集和使用。欧盟有一个更强的法令,规定了数据的归属权,并制定了严格规范的个人信息保护法律框架,要求各加盟国保证个人数据在加盟国之间自由流通。中国新的《消费者权益保护法》也提出了个人信息依法得到保护的权利,同时要求经营者采取技术措施和其他必要措施,确保个人信息安全,防止消费者个人信息泄露、丢失,但是没有所有权的问题。

    管理体制机制上,我们说良好的数据管理体制是促进产业发展的关键,也是国家掌控数据安全的保障。目前来看是有两种模式,欧盟是有专门的数据机构和官员进行管理。美国是采用政府引导行业自律的管理,而对中国而言,我们在这中间应该建设什么样的管理模式?

    毫无疑问我们既要符合我们的国情,基于我们的现状,同时还要考虑发展,这一个度的拿捏还是比较讲究的数据共享方面,大家可以看到它产生价值,但是这个数据由于规模性、权威性、公益性和全局性等特点,蕴含巨大价值,因此国外数据开放首先在政府数据上落地,2013年美国开放数据,还有八国集团的开放数据宪章等,这些都在数据的共享开放上做出了努力,我们国家也对这个东西实现共享开放有明确安排。

    2015年9月5号国务院发布的促进大数据发展行动纲要的,共享59处,一个是盘活现有数据存量,第二个是规划未来的数据发展,有明确的时间节点。我们的工作是要建立政府为主导的数据平台,在部分领域开展试点应用。2017年完成跨部门数据资源的共享、共用,去年国办系统已经将所有的数据目录、政务信息目录已经基本上汇集完毕,2018年就要统一开放,完成政府内的共享。2020年要实现政府数据级的普遍开放,这个时间节点还有两年的时间,工作量还是比较多。实际上包括政府今年要完成的政府数据的全面共享,难度比较大。

    安全与隐私保护,大规模的数据泄露以及数据舰艇、窃取事件引发了数据安全、隐私保护等问题,对世界安全、国家安全都产生威胁,世界主要国家和地区也加强大数据安全保障,澳大利亚制订了法律,美国的《网络安全法》,欧盟的《通用数据保护条例》。美国2015年出台的《网络安全法》规定了安全信息共享的参与主体、共享方式、实现和审查监督程序、组织机构、责任豁免及隐私保护等。欧盟是最高,如数据被遗忘权、可携带权等,全面提升个人数据保护力度。而我们国家,由互联信息办公室发布的《国家网络空间安全战略》,同时我们也有《网络安全法》。

    组织层面需要企业通过规定将数据规定为核心资产,我相信大部分的企业都这样做,都认识到了这一问题,但是怎样建立数据资源,完善价值实现、质量保障保证等方面的组织结构和过程规范,提升企业能力。共享开放,企业越大部门之间相互封闭更厉害,企业内部的数据共享对老板也是问题,对外就是数据流通和交易的问题,安全保护,怎样保证自身的安全,还要保护客户的安全,这对企业都是很重要的挑战,这里面也有很多的数据管理的成熟度模型。Gartner、IBM都在推,时间关系不多讲,这都是针对企业层面的。

    这是来自于中国大数据报告,就是国家信息中心做的调研,就是数据管理方面我们所面临的问题,应该说结论是说大数据管理环节漏洞很多,是大数据发展面临的主要问题,包括由于这一问题引发的运营成本高,资源利用率低,扩展差等难点,还有数据资源保护的相关法律法规和保障信息安全开放的标准规范仍然缺乏,多数企业对数据管理不足,尚未建立完善的体系。

    相关还有很多的工作,比如说标准管理的工作,比如说国际的标准ISO的,咱们的大数据标准委员会代表中国在工信部的指导下也一直参与相关的工作,中国是主体单位,大数据标准工作组在2018年4月份也发布了《数据管理能力成熟度评估模型》,目前也在很多地方试点,我是该小组的组长我做个广告,有愿意采用这一模型的人可以和我们工作组联络,我们帮助它在企业里面实施数据管理成熟度能力的逐步提升。

    数据管理机制里面,还有一个重点,就是数据质量提升成为趋势。Gartner分析,由于数据质量不佳,组织每年平均损失9.7亿美元,预计到未来,数据复合增长率会到17%,共享和开放很多,共享管理规则,数据方案的实施,再就是安全与隐私保护,大数据加重了安全和隐私保护的问题。我们可以看到这一例子,我把它放在这儿,相信在座的都关系到的,就是Facebook的事件,这是小扎进入国会听证的照片。Gartner预测,2017年来全球IT安全产品和服务的支出将同比增长7%,达到864亿美元,到2018年将达到914亿美元。

    最后是行业层次,行业因为它带有自组织方式,行业大数据治理,我感觉是在国家相关管理框架下,考虑到本行业中企业的共同利益和畅销发展,怎样建设完善的行业大数据治理规则。也就是说如何规范行业管理,建立相关的组织机构制订行业数据管理制度,这是所有的协会联盟面临的问题,也需要制订行业内数据了共享与开放的规则,构建数据共享交换平台,因为毕竟数据是有隐秘性的,怎样为行业提供服务,安全隐私方面,怎样制订行业内部的数据安全制度,确保行业内数据共享、开放等相关活动有序展开,我想这个事情还是需要大家的共同努力。

    总体而言,大数据治理体系是涉及到国家实施大数据战略的重要基础和保障,也是发挥大数据作用,做强做大大数据产业的重要因素。大数据治理体系建设,已经成为了大数据相关的管理规则,相关的技术和产品研发的重点。我认为分层次多维度推进大数据治理体系的建设,需要得到重视,但是任重道远。


    (审核编辑: 智汇小新)