
1.3 数据分析的基本流程
图1.4为数据分析的基本流程,其中数据分析的重要环节是明确分析目的,这也是做数据分析最有价值的部分。

图1.4 数据分析的基本流程
1.3.1 熟悉工具
掌握一款数据分析工具至关重要,它能够帮助你快速解决问题,从而提高工作效率。常用的数据分析工具有Excel、SPSS、R语言、Python语言。本书采用的则是Python语言。
1.3.2 明确目的
“如果给我1个小时解答一道决定我生死的问题,我会花55分钟来弄清楚这道题到底是在问什么。一旦清楚了它到底在问什么,剩下的5分钟足够回答这个问题。”
——爱因斯坦
在数据分析方面,首先要花一些时间搞清楚为什么要做数据分析、分析什么、想要达到什么效果。例如,为了评估产品改版后的效果比之前是否有所提升,或通过数据分析找到产品迭代的方向等。
只有明确了分析目的,才能够找到适合的分析方法,也才能够有效地进行数据处理、数据分析和预测等后续工作,最终将得到的结论应用到实际中。
1.3.3 获取数据
数据的来源有很多,像我们熟悉的Excel数据、数据库中的数据、网站数据以及公开的数据集等。
那么,获取数据之前首先要知道需要什么时间段的数据,哪张表中的数据,以及如何获得,是下载、复制还是爬取等。
1.3.4 数据处理
数据处理是从大量、杂乱无章、难以理解、缺失的数据中,抽取并推导出对解决问题有价值、有意义的数据。数据处理主要包括数据规约、数据清洗、数据加工等处理方法,具体如图1.5所示。

图1.5 数据处理
数据规约:在接近或保持原始数据完整性的同时将数据集规模减小,以提高数据处理的速度。例如,一张Excel表中包含近3年的几十万条数据,由于我们只分析近一年的数据,因此要一年的数据即可,这样做的目的就是减小数据规模,提高数据处理速度。
数据清洗:在获取到原始数据后,可能其中的很多数据都不符合数据分析的要求,那么就需要按照如下步骤进行处理。
数据探索分析:分析数据的规律,通过一定的方法统计数据,通过统计结果判断数据是否存在缺失、异常等情况。例如,通过最小值判断数量、金额是否包含缺失数据,如果最小值为0,那么这部分数据就是缺失数据,以及通过判断数据是否存在空值来判断数据是否缺失。
重复数据处理:对于重复的数据删除即可。
缺失数据处理:对于缺失的数据,如果比例高于30%可以选择放弃这个指标,删除即可;如果低于30%可以将这部分缺失数据进行填充,以0或均值填充。
异常数据处理:异常数据需要对具体业务进行具体分析和处理,对于不符合常理的数据可进行删除。例如,性别男或女,但是数据中存在其他值,以及年龄超出正常年龄范围,这些都属于异常数据。
数据加工:包括数据抽取、数据计算、数据分组和数据转换。
数据抽取:是指选取数据中的部分内容。
数据计算:是进行各种算术和逻辑运算,以便得到进一步的信息。
数据分组:是按照有关信息进行有效的分组。
数据转换:是指数据标准化处理,以适应数据分析算法的需要,常用的有z-score标准化,“最小、最大标准化”和“按小数定标标准化”等。经过上述标准化处理后,数据中各指标值将会处在同一个数量级别上,以便更好地对数据进行综合测评和分析。
1.3.5 数据分析
数据分析过程中,选择适合的分析方法和工具很重要,所选择的分析方法应兼具准确性、可操作性、可理解性和可应用性。但对于业务人员(如产品经理或运营)来说,数据分析最重要的是数据分析思维。
1.3.6 验证结果
通过数据分析我们会得到一些结果,但是这些结果只是数据的主观结果的体现,有些时候不一定完全准确,所以必须要进行验证。
例如,数据分析结果显示某产品点击率非常高,但实际下载量平平,那么这种情况,不要轻易定论,这种产品受欢迎,而要进一步验证,找到真正影响点击率的原因,这样才能做出更好的决策。
1.3.7 结果呈现
现如今,企业越来越重视数据分析给业务决策带来的有效应用,而可视化是数据分析结果呈现的重要步骤。可视化是以图表方式呈现数据分析结果,这样的结果更清晰、更直观、更容易理解。
1.3.8 数据应用
数据分析的结果并不仅仅是把数据呈现出来,而更应该关注的是通过分析这些数据,后面可以做什么?如何将数据分析结果应用到实际业务中才是学习数据分析的重点。
数据分析结果的应用是数据产生实际价值的直接体现,而这个过程需要具有数据沟通能力、业务推动能力和项目工作能力。如果看了数据分析结果后并不知道做什么,那么这个数据分析就是失败的。