大数据环境下政府数据开放研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4 相关概念界定

大数据和政府数据开放都是目前研究的热点问题,对数据、大数据、政府数据开放等概念的厘清和界定对研究的进一步发展具有重要的意义。

1.4.1 数据

数据的概念从古至今也在不断的演变过程中。查阅各种词典,关于数据的定义有很大的不同。汉语词典的定义为:科学实验、检验、统计等所获得的和用于科学研究、技术设计、查证、决策等的数值。[14]新华字典中的定义为:电子计算机加工处理的对象。早期的计算机主要用于科学计算,故加工的对象主要是表示数值的数字。现代计算机的应用越来越广,能加工处理的对象包括数字、文字、字母、符号、文件、图像等。[15]在百度知道中的定义为:关于自然、社会现象和科学实验的定量或定性的记录。[16]在维基百科中定义为:关于事件的一组离散且客观的事实描述,是构成信息和知识的原始材料,是计算机加工的“原料”,如图形、声音、文字、数、字符和符号等。数据可分为模拟数据和数字数据两大类。[17]

数据(data)起源于拉丁字母的复数形式,是信息科学领域的核心概念,随着网络技术和信息社会的发展,学者们对数据的概念有了新的认识。

早在1975年Wersig和Neveling在《文档的术语:1200个基础词汇的选择》一书中认为:数据是被量化的或者合格的数据集。[18]1996年Wellisch在《摘要、索引、分类、词库建设:词汇表》一文中认为:在计算机系统中,数据是指编码的不变性。数据是实体或概念的代表,由人类或自动化系统内置,作为交流、解释或者处理的格式。[19]Chaim Zins在2007年发表的《定义数据、信息、知识的概念方法》一文中又指出:数据是指在计算机使用过程中的记录或者编码中的记录,但是更广范围应用于统计记录和其他记录或者证据的集合。[20]

随着信息科学中知识管理的兴起,关于数据的定义学者们更多地从数据、信息的关系中开始界定。Chaim Zins在2006年发表的《重新界定信息科学——从信息科学到知识科学》指出:数据是信息的原材料,也是知识的原材料。[21]Davis和Olson在1985年出版的《管理信息系统》一书中指出:信息是被加工后对接收者有意义的数据。[22]Checkland和Scholes在1990年出版的《在运行当中的软件系统方法论》一书中认为:信息等同于数据+意义。[23] Lucey 1991年在《管理信息系统》一书中指出:数据需要被解释和加工才能成为信息。[24]Warner在1996年的著作《信息系统的交流技巧》中对信息的定义界定为:信息是已经被解释和被接收者所理解的数据。[25]G. A. Silver和M. L. Silver在1989年出版的《系统分析和设计》一书中认为:数据是被加工和提炼成信息的原材料等(见图1-1)。[26]

图1-1 从数据到知识的转化过程图[27]

数据概念的发展演变是一个循序渐进的过程,尤其是随着大数据技术的发展,对于数据的重新认识和界定加深、拓宽了数据的外延和内涵。在大数据的环境中,本书所指的数据是原始数据,即没有被分析、加工或者处理过的数据,既包括结构化数据,也包括半结构化和非结构化的数据。

1.4.2 大数据[28]

关于大数据这个词的起源,有学者认为来自美国未来学家托夫勒的《第三次浪潮》,实际上,1997年Michael Cox和David Ellsworth在电子电器工程协会(IEEE)举办的第八届可视化会议上发表的论文中首次提到大数据这个概念,二位学者在文中指出:可视化为计算机系统的发展提出了有趣的挑战:数据集的数量大,加重了内存、磁盘甚至是远程磁盘的负担,将其称为“大数据的问题”。当数据不适合存储在主存储器,甚至是本地磁盘,最常用的方法是获取更多的资源方便存储。

1998年硅谷图形公司的前首席科学家John Mashey在题为《大数据下一代架构的压力》报告中以大数据为主题,对大数据的概念做了初步的界定。Mashey所言的大数据主要指数据容量的快速增长,其中特指互联网等相对较新的数据源,并且介绍了它对存储系统的影响。同样在1998年S. M. Weiss和N. Indurkhya出版的《预测性数据挖掘:实用指导手册》一书中也提到:非常大的数据集被集中存储在数据库当中,让分析家们充分利用强有力的工具全面地分析数据。在理论上,“大数据”在数据挖掘的应用中可以产生更有利的结论,但在实践中困难却很多。[29]

在1999年8月Steve Bryson、David Kenwright、Michael Cox、David Ellsworth和Robert Haimes在《ACM通信》中首次以大数据为题目,以论文的形式发表了《科学可视化的大数据》。虽然之前John Mashey也发表了以大数据为题目的报告,但普遍认为John Mashey的报告属于内部报告,并非正式出版的学术文献。在同年10月Robert van Liere和Sam Uselton在IEEE可视化会议上发表的《自动化或者互动:大数据对谁最有利》的论文中也对大数据进行了探讨。

对大数据这个概念做出突破性界定的当属Laney。2001年Garter的分析师Laney提出了3V学说,对大数据的认识有了进一步的发展。Laney认为大数据的增长不仅仅是数量(volume)的增长,而且也是速度(velocity)和种类(variety)的增长。在电子商务环境中,关注信息管理需要更多的合作,可以使企业从信息资产中获得更大的回报。[30]

自从2001年以来,正如Randal E. Bryant、Randy H. Katz、Edward D. Lazowska等在《大数据计算:在商业、科学和社会领域创造革命性的突破》一文所言:“大数据技术可能是过去十年最大的创新。我们已经开始在各行各业的数据收集、组织和处理方面看到了它的潜力。”[31]

2011年麦肯锡发表的《大数据:下一个创新、竞争和生产率的前沿》是从经济和商业维度诠释大数据发展潜力的第一份专题研究成果,该报告系统阐述了大数据概念,详细列举了大数据的核心技术,深入分析了大数据在不同行业的应用,明确提出了政府和企业决策者应对大数据发展的策略。该报告认为,“大数据”是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集。该定义有两方面内涵:①符合大数据标准的数据集大小是变化的,会随着时间推移和技术的进步而增长;②不同部门符合大数据标准的数据集大小会存在差别。目前,大数据的一般范围是从几TB到数PB(数千TB)。

Danah Boyd和Kate Crawford在2012年发表《反思大数据:针对这一文化、科学和学术现象》一文,在该文中将大数据定义为:一个依赖技术(利用计算和算法的准确性实现对数据的收集、分析和对比等)、分析(依据很大的数据库挖掘类型,并做出经济、社会技术和法律判断)和神话(一种广泛传播的信念:大数据库将提供一种更高形式的智慧和知识,它所生成的真实、准确和客观的洞察将是以前的时代所不可能实现的)的互动现象,它所引发的是广泛的乌托邦和反乌托邦的言辞。[32]2013年可以称为大数据年,从新闻到学术机构以及政府、企业对于大数据的报道和研究空前高涨。

从中国期刊网查找显示,我国学者中,最早进行大数据相关探讨的是李京基、姜兰、徐暄于1985年在物化探测计算技术上发表的《利用磁盘实现大数据量二维快速傅里叶变换的方法》一文,探讨了在地矿部业京计算中心的国产150机上调通了能使52万大数据量的航磁数据进行快速傅里叶变换的程序,并对Ekluodh快速矩阵转置算法作了进一步推广,将它用于通过磁盘实现大数据量二维快速傅里叶变换并获得成功。

在此之后,我国学者关于“大数据”的探讨基本上体现在“大数据量”“大数据集”“大数据文件”方面的研究,并且这方面的研究在逐年增加。尤其在2011年关于“大数据”这个概念的文章开始增多,在2013年达到2026篇,但对大数据含义的认识也基本上沿用国外学者、研究报告的定义。例如:涂兰静在《专家观点:“大数据”与“海量数据”的区别》[33]一文中做了分析,将大数据总结为两种认识:①大数据=海量数据+复杂类型的数据;②大数据包含ABC三个要素,即大分析(Analytic)、大带宽(Bandwidth)和大内容(Content)。张毅菁在《大数据对我国政府信息公开立法修改的启示》[34]沿用的是涂子沛的观点:大数据是指一般的软件工具难以采集、提取、转化、存储和分析的大容量数据,其更大的意义在于:通过对大容量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”“大科技”“大利润”和“大发展”。冯芷艳、郭迅华、曾大军等在《大数据背景下商务管理研究若干前沿课题》[35]一文中列举的定义有:①维基百科的定义,“无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”; ②权威IT研究与顾问咨询公司Gartner的定义,“在一个或多个维度上超出传统信息技术的处理能力的极端信息管理和处理问题”; ③美国国家科学基金会(NSF)的定义,“由科学仪器、传感设备、互联网交易、电子邮件、音视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集”等。

综上所述,我国学者对于大数据的定义基本上沿用国外研究报告、机构以及学术文献中的定义,对大数据的含义未有定论。本书从来源、特点、来源+特点+价值+属性的角度总结和分析大数据的含义(见表1-2)。

表1-2 大数据定义的角度分析

1.4.3 政府数据开放

(1)国际组织关于政府数据开放的定义。世界银行在2012年发表的《如何认识开放政府数据提高政府的责任感》报告中认为:开放数据指的是非专有的、机器可读的数据,任何人都没有法律或技术的限制,可以自由使用、重复使用、操作和传播,而开放的数据可能来自任何地方。政府开放数据是开放数据的一部分,是指政府产生的、收集和拥有的数据,在知识共享许可下发布,允许共享、分发、修改,甚至对其进行商业使用的具有正当归属的数据。[37]

(2)政府机构关于数据开放的定义。2012年德国内政部发布的《德国数据开放》的报告中,将政府数据开放定义为公共行政机构所有的能被第三方重新利用的数据。[38]同年,英国政府《开放数据白皮书》中将开放政府数据定义为:公共领域的信息中已经开放给公众使用的数据。[39]

(3)学者关于政府数据开放的定义。Ubaldi在2013年发表的《开放政府数据:开放政府数据创意的实证分析》一文中认为对于开放数据到底是指原始数据的开放还是加工过数据的开放并没有明确的结论,重点在于数据的开放和再利用的问题。[40]Martin Alvarez Espinar在2012年《开放政府数据——情景设置》一文中对政府开放数据定义为:开发原始的公共领域的信息,在开放的格式和非限制性许可的情况下利用和再利用信息。[41]Tim Davies在2010年发表的《开放数据、民主、公共领域改革——对www.data.gov.uk政府数据利用的回顾》一文中认为政府数据开放通常指许可在不同的背景下用标准的和可重复使用的格式利用数据(如在网络上的使用)。[42]

笔者认为在定义政府开放数据之前,首先需要界定清楚公共领域信息和政府数据之间的关系。OECD在2008年《向理事会建议提高公众利用信息》的报告中指出:公共领域信息是指由或者为政府或者公共机构所生产、创造、收集、处理、保存和保留、传播或者资助的信息产品和服务。[43]同样,澳大利亚政府信息委员会关于公共领域信息也有类似的定义:由或者为政府、公共机构产生、创造、收集、处理、保存、维护、传播或者资助的数据、信息和内容。[44]

由此可知,政府数据是公共领域信息的一部分,即公共领域信息=政府数据+公共机构数据(见图1-2)。

图1-2 政府开放数据、公共领域信息与大数据关系图[45]

第二,关于数据开放粒度的认识,目前可将其分为三种:①政府数据开放就是数据链的开放。开放数据所指数据应该从数据链的角度予以理解,它是包含所有事实、数据、信息、知识、智慧所组成的数据。它不是单一的数据链上的某一种元素,而是呈现的一种集合数据形式。[46]②政府数据开放=数据+信息的开放。政府数据开放是指由政府和政府控制的实体生产和委托所产生的数据和信息的开放。[47]③政府数据开放就是原始数据的开放。政府按照用户特定的需求和一定的互联网协议、规则、框架,对Web数据进行存储和组织,而利用的数据或来自不同的数据源,或是不同的数据类型,最终目标是实现数据在网络空间的开放、共享与重用(见图1-3)。[48]

图1-3 数据开放的粒度分析图

而对首提政府数据开放的奥巴马政府来讲,数据开放的初衷是指原始数据(raw data)的开放,在其政府数据开放的八大原则中第二原则就指出,“数据必须是原始的”。本书所指的数据开放也是指原始数据的开放,因为数据用最小的粒度呈现给用户,让不同的用户各取所需,自己决定怎样组合它们,数据才能发挥全部的潜在价值。