推动数据开放共享是国家大数据战略的核心内容。但在实施过程中,数据开放共享面临着“数据拥有者不愿、不敢、不会开放共享”的问题。这里面有政策的原因,更有技术的问题。现行的数据管理技术是面向数据自治封闭的,不适合数据开放共享,急需开发面向数据开放共享的技术。
2016年,上海市科学技术委员会注意到了数据开放共享面临的实际问题,立“数据开放共享的理论与方法”为大数据基础研究计划重点项目,由实验室主任朱扬勇教授主持。
课题组原创地提出数据开放的全新模式——数据自治开放。当前,课题组已经形成了该专题的首批研究成果,为推动政府和公共数据资源的开放共享提供了重要的技术和智力支撑。
提出数据自治开放新模式。“数据自治开放”是指数据拥有者在法律框架下对数据进行自行确权和管理、自行制定规则(即数据自治),然后将数据开放给使用者,包括上传到数据应用软件使用数据和下载数据到使用者的设备中(使用者没有数据治理权)。实现数据自治又能够开放,数据使用者能根据需求方便使用数据,又能保护数据拥有者的数据稀缺性不丧失,安全和隐私有保障。
自主研发面向数据自治开放的数据盒模型。数据盒是数据自治开放的基本单元和数据自治开放环境下的载体,类似于现实世界中用来盛放物品的数据装置,盒中存放的是数据源,包括数据描述、数据操作和约束等基本要素,通过在数据盒中封装数据防泄漏、数据权益保护和数据访问监控等机制,使之具有独立性、可用性、可控性,使得数据拥有者在数据开放的同时又能保证数据稀缺性不丧失和隐私不泄露,并且不影响现有系统,以有效组织用于开放的数据资源。
构建数据自治开放的软件开发与运行环境。给出了数据自治开放的软件开发和运行环境的总体架构设计,并实现了基于该架构的数据应用开发全过程,突破了一系列关键技术,包括:软件行为管控;高层业务需求描述与建模;面向数据盒的软件开发工具包的设计;离线开发调试和在线运行验证。
开发了支持数据自治开放的原型系统。包括:1)建立了数据站管理系统,为数据拥有者提供数据组织和管理功能,以向数据使用者开放数据;2)建立了数据盒客户端开发环境,为数据使用者提供数据开发和应用系统,实现数据使用者方便使用数据;3)建立了数据盒管理系统,实现数据盒的有效管理。
接下来的一年课题组将在医疗领域进行数据自治开放示范应用。数据自治开放新模式有望成为数据开放的基本模式,将对于推动华东乃至全国大数据产业化和传统产业与大数据产业的结合发展、融合创新发挥相当助益。
课题组已取得的首批研究成果均以系列的论文形式发表于《大数据》期刊之上。《大数据》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京通信传媒有限责任公司出版的科技期刊。办刊宗旨是“以开放、创新姿态,推动大数据技术的研究与应用,促进技术交流,推广创新成果,服务大数据社会”。
以下为“数据开放共享的理论与方法”研究的专题导读与相关论文及其链接:
专题:数据自治开放
Self-governing Openness of Data
导读:
推动数据开放共享是国家大数据战略的核心内容。但在实施过程中,数据开放共享面临着“数据拥有者不愿、不敢、不会开放共享”的问题。这里面有政策的原因,更有技术的问题。现行的数据管理技术是面向数据自治封闭的,不适合数据开放共享,急需开发面向数据开放共享的技术。数据开放共享的相关概念有开放数据、数据共享和数据交易,三者都是数据拥有者将数据开放给数据使用者,只是在范围、对象、是否收费等方面有所不同,所面临的核心问题是“如何控制数据使用者传播或滥用数据”。因此,为了方便叙述,本专题将开放数据、数据共享和数据交易统称为“数据开放”。本专题提出的“数据自治开放”是指数据拥有者在法律框架下对数据进行自行确权和管理、自行制定开放规则(即数据自治),然后将数据开放给使用者,包括上传数据到应用软件或下载数据到其设备中(使用者没有数据治理权)。
数据自治开放技术要解决“如何控制数据使用者传播或滥用数据”的问题,对应的关键技术问题包括:如何做到数据既能够自治又能够开放;如何保护数据稀缺性不丧失、使数据安全和隐私有保障。2016年,上海市科学技术委员会注意到了数据开放共享面临的实际问题,委托课题组开展“数据开放共享的理论与方法”研究。本专题收录的“数据自治开放”的文章是该课题的首批研究成果。
朱扬勇等人的文章《数据自治开放模式》从分析数据开放共享需求和现行数据管理技术入手,提出了数据自治开放模式,阐述了数据自治开放涉及的主要技术。沈逸等人的文章《数据自治开放与治理模式创新》从宏观政策层面探索数据自治开放对政府数据资源开放、实现国家数据主权的意义和作用,提出了相应的政策建议。熊贇等人的文章《面向数据自治开放的数据盒模型》提出了数据盒模型,这是数据自治开放得以实现的基础。吴毅坚等人的文章《数据自治开放的软件开发和运行环境》探索了数据自治开放软件系统的实现技术。王智慧等人的文章《数据自治开放模式下的隐私保护》和黄霖等人的文章《数据自治开放的加密技术挑战》提出了数据自治开放模式对数据加密和隐私保护的新挑战。陈德华等人的文章《数据自治开放应用平台设计与实践》介绍了数据自治开放应用系统的开发方法。
数据自治开放模式有望成为数据开放的基本模式,是政府数据开放共享、企业及个人数据交易、国家数据主权实现的一种可行方法。后续,在宏观层面将就国际数据开放共享提出中国模式,探索具体实现方法;在技术层面开发数据盒管理系统软件和数据站系统产品,尽快推向市场。
1.朱扬勇,熊赟,廖志成,等.数据自治开放模式[J].大数据,2018,4(2),3-14.
2.沈逸,姚旭,朱扬勇.数据自治开放与治理模式创新[J].大数据,2018,4(2),14-20.
3.熊贇,朱扬勇.面向数据自治开放的数据盒模型[J].大数据,2018,4(2),21-30.
4.吴毅坚,陈士壮,葛佳丽,等.数据自治开放的软件开发和运行环境[J].大数据,2018,4(2),31-41.
5.王智慧,周旭晨,朱扬勇.数据自治开放模式下的隐私保护[J].大数据,2018,4(2),42-49.
6.黄霖,黎源,汪星辰,等.数据自治开放的加密技术挑战[J].大数据,2018,4(2),50-62.
7.陈德华,潘乔,王梅,等.数据自治开放应用平台设计与实践[J].大数据,2018,4(2),63-71.