
活动2
做好数据准备
准备好数据是进行数据可视化处理的前提。数据可视化人员需要做好数据准备,收集足够多有价值的数据且对这些数据进行预处理后,才能进一步建立数据可视化模型,对数据进行可视化展示。
1.收集数据
根据数据源的不同,将数据分为内部数据和外部数据。针对不同数据源,数据可视化人员可以采用不同的方法获取数据,如表1-1所示。
表1-1 获取数据的方法

为了保证数据的有效性、可用性和科学性,数据可视化人员在收集数据时需要注意以下3点。
(1)确保数据的真实性
数据可视化人员要对数据的真伪进行辨别,以保证数据的真实性。数据可视化人员可以从数据来源、数据细节两个方面判断数据的真实性。
① 数据来源。数据来源真实是保证数据真实的首要条件。数据来源主要分为官方来源和非官方来源。一般来说,从官方来源获得的数据更具真实性、客观性,从非官方来源获得的数据可能会因为数据统计方的主观倾向而存在不真实、不客观的情况,这就需要数据可视化人员在收集数据的时候进行甄别。
② 数据细节。在对数据进行可视化处理的过程中,一个不准确的数据有可能导致可视化结果出现偏差,从而导致数据的应用出现极大的错误。为了避免这种情况的出现,数据可视化人员在收集数据时需要关注和重视数据的细节。例如,数据可视化人员要分析电子商务行业的发展趋势,在收集数据时应该将数据的时间跨度设置得大一些,如宜收集近3年、近5年的数据,而不宜收集近30天、近2个月的数据,因为时间跨度大一些的数据才能更好地从宏观上反映电子商务行业的发展趋势。
(2)确保数据的完整性
数据可视化人员要确保数据是完整的,这主要表现在两个方面:一是数据可视化人员收集的数据不存在缺失值;二是数据可视化人员收集的数据足够丰富,能充分满足数据可视化的需要。
(3)确保数据的价值性
数据可视化人员在收集数据时要判断数据是否能为可视化主题提供支持,是否对可视化主题有参考价值。数据可视化人员可以从数据的时效性、支持性、全面性3个方面来甄别数据的价值性。
① 数据的时效性。数据可视化人员要对数据的时效性进行分析,确定数据产生的时间,判断其是否适用于当前的状况。例如,数据可视化人员需要研究2023年电子商务行业的发展规模,就应该收集2023年与电子商务行业相关的数据,10年前的数据显然不适用于当前的状况,自然就没有价值。
② 数据的支持性。数据能否为论证某个研究主题或观点提供有效支持是判断数据价值性的一个重要因素。有些数据虽然没有任何问题,但是它不能为论证某个研究主题或观点提供任何帮助,这样的数据就是没有价值的。例如,数据可视化人员想了解本月店铺内各款商品的销售情况,那么反映店铺会员增量的数据对这个主题就是没有价值的。
③ 数据的全面性。有些数据具有时效性,且能为论证某个研究主题或观点提供支持,但是仅用这些数据并不能充分说明问题,需要更多的数据作为背景或支撑,
才能更加充分、全面地揭示研究主题或观点。在对数据进行可视化处理时,数据可视化人员全面利用特定主题下的相关数据才能使数据的价值得到最大限度的发挥。例如,数据可视化人员想要构建店铺的客户画像,仅有客户性别构成比例的数据是不够的,还需要收集客户地域分布、客户年龄分布、客户购买频率、客户购买金额、客户使用终端类型等数据,这样才能让客户画像更加精准。
2.对数据进行预处理
数据可视化人员在对数据进行可视化处理之前,需要先对数据进行一定的清洗和加工,其主要目的是清除异常数据、纠正错误数据、统一数据的格式等,保证数据的准确性、完整性,使数据具有可用性,这样得出的数据可视化结果才更科学、更具参考价值。
对数据进行的预处理包括数据清洗、数据转换、数据计算等。
(1)数据清洗
数据清洗是对数据进行审查和校验的过程,目的在于删除重复信息,发现并纠正数据文件中的错误,主要内容是检查数据的一致性,处理无效值和缺失值,例如去除或修改格式和内容存在错误的数据、去除或修改逻辑错误的数据、去除不需要的数据、补全缺失数据等。
(2)数据转换
数据可视化人员在使用收集的数据前,要确定数据的统计形式是否便于进行可视化处理,例如数据表中行列的字段设置是否得当,数据的记录方式是否统一等。
由于数据统计者不同、统计标准不同,数据记录方式可能会不同。例如,有的人习惯用“是”与“否”表示肯定和否定,有的人则习惯使用“YES”和“NO”表示肯定和否定,如果将这两个人统计的数据整合到一起,数据可视化人员就需要转换数据的记录方式。
(3)数据计算
有些数据并不能直接从数据表中提取出来,而需要经过一定的计算来获得。例如,一个数据表中只有商品销量和商品单价两种数据,但数据可视化人员需要使用商品的销售额,此时就需要对数据进行计算。