大数据导论
上QQ阅读APP看书,第一时间看更新

1.1.1 大数据的特征

现在的社会是一个信息化、数字化的社会,互联网、物联网和云计算技术的迅猛发展,使得数据充斥着整个世界。与此同时,数据也成为一种新的资源,亟待人们对其加以合理、高效、充分地利用,使之能够给人们的生活和工作带来更大的效益和价值。在这种背景下,不仅数据的数量以指数形式递增,而且数据的结构变得越来越复杂,这就赋予了“大数据”不同于以往普通“数据”更加深层的内涵。

大数据(Big Data)指无法在一定时间范围内用常规工具进行捕捉、管理和处理的数据集合,是需要使用新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。相比传统的数据分析,大数据分析以采集、整理、存储、挖掘、共享、分析、应用、清洗为核心,广泛地应用于军事、金融、环境保护、通信等领域。

人类利用数据的历史非常悠久,最早可以追溯到数字发明时期,不同文明均掌握了利用数字记录和管理生产生活的能力。从文明之初的“结绳记事”,到发明文字后的“文以载道”,再到近现代科学的“数据建模”,数据一直伴随人类社会的发展,承载了人类基于数据和信息认识世界做出的努力和取得的巨大进步。纵观人类利用数据的历史,虽然数据的本质没有发生变化,但是在制度、技术和经济发展的共同作用下,数据完成了从数字到资产的转变,在这个过程中,数据的规模、价值和影响不断扩大。当前,数据在社会发展过程中有着愈发重要的作用,例如从早期仅限于学术研究、军事领域,到后来应用于企业经营活动,再到应用于互联网、云计算与物联网技术。数据作为一种经济资源和生产要素,是人工智能等新兴技术发展的动力,没有海量的数据积累和应用场景,人工智能很难突破瓶颈并快速发展。

随着对大数据认识的不断加深,人们认为大数据一般具有4个特征:数据量大、数据类型繁多、数据速度快以及数据价值密度低。

1. 数据量大

大数据特征中的数据量大,就是指数据海量。由于大数据往往是采取全样分析,因此大数据之“大”体现在其规模和容量远远超出传统数据的测量尺度。一般的工具难以捕捉、存储、管理和分析的数据,通过大数据的云存储技术都能保存下来,形成浩瀚的数据海洋。目前的数据规模已经从TB级升级至PB级。大数据之“大”还体现在其采集范围和内容的丰富多变,能存入数据库的不仅包含各种规则的数据符号,还包含各种如图片、视频、声音等非规则的数据符号。

近年来,数据规模呈几何级数增长。据国际数据公司(IDC)的报告,2021年全球创造了84.5ZB的数据,而预计到2026年,全球结构化数据与非结构化数据总量将达到221.2ZB(1ZB=1024EB,1EB=1024PB,1PB=1024TB,1TB=1024GB)。

2. 数据类型繁多

据IDC的调查报告,由于互联网和通信技术近年来发展迅猛,如今的数据类型早已不是单一的文本形式,网络日志、音频、视频、图片、地理位置信息等各种类型的数据对数据处理能力提出了更高的要求。此外,数据来源也越来越多样,不仅产生于组织内部运作的各个环节,也来自组织外部。其中内部数据主要包含:政府数据,如征信记录、户籍信息、犯罪记录等;企业数据,如阿里巴巴的消费数据、腾讯的社交数据等;机构数据,如第三方咨询机构的调查数据。而来自组织外部的数据主要包含网站数据和各种App终端数据,以及大众媒介数据等。例如,苹果公司在iPhone上应用的一项语音控制功能Siri就是处理多样化数据的代表。用户可以通过语音、文字输入等方式与Siri交流,并调用手机自带的各项应用来实现读短信,询问天气,设置闹钟,安排日程,搜索餐厅、电影院,查看相关评论,甚至订位、订票等操作,Siri会依据用户默认的家庭地址或所在位置判断、过滤搜索的结果。

3. 数据速度快

在数据速度方面,有一个著名的“1秒定律”,即要在秒级时间范围内给出分析结果,超出这个时间范围,数据就失去价值了。大数据是一种以实时数据处理、实时结果导向为特征的解决方案,它的“快”有以下两个层面的含义。

(1)数据产生得快。有的数据是爆发式产生的,例如,欧洲核子研究中心的大型强子对撞机在工作状态下每秒产生PB级的数据;有的数据是涓涓细流式产生的,但是由于用户众多,因此短时间内产生的数据量依然非常庞大,如点击流数据、日志信息、论坛信息、博客信息、邮件信息、射频识别数据、全球定位系统(GPS)位置信息。

(2)数据处理得快。正如水处理系统可以从水库调出水进行处理,也可以直接处理涌进来的新水流,大数据也有批处理(将“静止数据”转变为“使用数据”)和流处理(将“动态数据”转变为“使用数据”)两种模式,以实现数据的快速处理。

电子商务网站从点击流、浏览历史和行为(如加入购物车)中实时发现顾客的购买意图和兴趣,并据此推送商品,这就是数据“快”的价值,也是大数据的应用之一。

4. 数据价值密度低

随着互联网及物联网的广泛应用,信息感知无处不在,但现实世界产生的数据中,有价值的数据所占比例很小。以视频为例,一个一小时的视频在连续不间断的监控过程中,有用的数据可能只有一两秒。但是为了得到这些有用的数据,人们不得不投入大量资金来购买网络设备、监控设备等。

在大数据时代,由于数据采集不及时、数据样本不全面、数据不连续等问题的存在,数据可能会失真,但当数据量达到一定规模时,可以通过更多的数据得到更真实、全面的反馈。如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题之一。相比传统的数据,大数据最大的价值在于可以从大量不相关的各种类型的数据中挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法进行深度分析,总结出新规律和新知识,运用于农业、金融、医疗等各个领域,最终达到改善社会治理、提高生产效率、推进科学研究的效果。