量化投资:MATLAB数据挖掘技术与实践(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

5.3 数据可视化

对数据进行统计之后,对数据就会有一定的认识,但还不够直观,最直观的方法就是将这些数据进行可视化,用图的形式将数据的特征表现出来,这样就能够更清晰地认识数据。MATLAB提供了非常丰富的数据可视化函数,可以利用这些函数进行各种形式的数据可视化,但从数据挖掘的角度来讲,还是数据分布形态、中心分布、关联情况等的数据可视化最有用。

5.3.1 基本可视化方法

基本可视化是最常用的方法。在对数据进行可视化探索时,通常先用plot这样基本的绘图命令来绘制各变量的分布趋势,以了解数据的基本特征。

下面的程序就是对5.1节中得到的数据进行基本可视化分析的过程。

该程序产生如图5-6所示的数据可视化结果。该图是用plot命令绘制的数据最原始的分布形态,通过该图能了解数据大致的分布中心、边界、数据集中程度等信息。

图5-6 变量dv1分布图

5.3.2 数据分布形状可视化

在数据挖掘中,数据的分布特征对分析人员了解数据非常有利,可以用如下代码绘制变量dv1~dv4的柱状分布图。

图5-7为用hist命令绘制的变量dv1~dv4的柱状分布图,该图的优势是更直观地反映了数据的集中程度。由该图可以看出,变量dv3过于集中,这对数据挖掘是不利的,相当于这个变量基本是固定值,对任何样本都一样,所以没有区分效果。对这样的变量就可以考虑删除。可见对数据进行可视化分析的意义还是很大的。

图5-7 变量dv1~dv4的柱状分布图

也可以将常用的统计量绘制在同一分布图中,这样更有利于对数据特征的把握,就像得到了数据的地图,对全面认识数据非常有利。如下代码就实现了绘制这种图的功能,得到的图如图5-8所示。

图5-8 变量dv1~dv4的柱状分布图(绘制在同一分布图中)

5.3.3 数据关联情况可视化

数据关联情况可视化对分析哪些变量更有效具有更直观的效果,所以在进行变量筛选前,可以先利用关联可视化了解各变量间的关联关系,具体实现代码如下。

该程序产生两幅图,一幅是变量相互关联图(见图5-9),通过该图可以看出任意两个变量的数据关联趋向;另一幅是变量相关性强度图(见图5-10),该图从宏观上表现了变量间的关联强度,在实践中往往用于筛选变量。

图5-9 变量相互关联图

图5-10 变量相关性强度图

5.3.4 数据分组可视化

数据分组可视化是指按照不同的分位数将数据进行分组,典型的图形是箱体图。箱体图的含义如图5-11所示。根据箱体图可以看出数据的分布特征和异常值的数量,这对于确定是否需要进行异常值处理是很有利的。

图5-11 箱体图的含义

绘制箱体图的MATLAB命令是boxplot,可以通过如下代码实现对数据的分组可视化。

该程序产生了所有变量的箱体图(见图5-12)和两个变量的关系箱体图(见图5-13),这样就能更全面地得出各变量的数据分布特征及任意两个变量的关系特征。

图5-12 所有变量的箱体图

图5-13 两个变量的关系箱体图