可视化分析与SAS实现
上QQ阅读APP看书,第一时间看更新

Preface前言

比利时的佛兰芒族地理学家和地图学家亚伯拉罕·奥特柳斯,在研究了一个世纪以来环球旅行探险家们撰写的资料后,于1570年在比利时的安特卫普绘制了世界上第一张现代地图集《世界概貌》,即把各种地理上的复杂数据通过图示的方法展示给人们。26年后,奥特柳斯提出了“大陆漂移学说”的设想。后来,我们还可以在地图上显示人口分布数据,世界宗教分布,世界人民喜欢什么运动的分布,到今天的网民的分布,各国人民喜爱的网站分布,各种调研统计的数据分布,等等。

1812年夏,俄法战争爆发,拿破仑开始进攻俄国,在战争中遭受了灾难性损失,1813年以失败告终。法国工程师Charles Joseph Minard于1869年11月20日,在巴黎创作完成了一张在信息图界有里程碑地位的“拿破仑1812—1813年俄国大进军的人员损失图”。信息图以真实地图为背景,起于波兰-俄国边境,止于莫斯科。他在图中使用了6个变量的数据:拿破仑军队的数量、行军路线、气温、地理位置、行军到特定地点的时间和距离。线条宽度代表拿破仑的军队人数,黄色表示进攻路线,黑色表示撤退的路线。开始东征时有约42万大军,到达莫斯科时剩余约10万人,最终返回约1万多人。图中下面部分的温度折线图描绘了撤退途中的温度变化,最低温度达到-37.5摄氏度。对比军队规模在撤退途中的阶梯状锐减的转折点与对应的温度变化,排除了当地发生过战役事件后,我们可以直观地推断出撤退时导致士兵死亡的最大原因是气温。

这两张图是数据可视化的经典案例。通过一张图,就把无数的数据汇集在一起,将数据之间的各种联系直观地展示出来,从而揭示出了很多内在的含义。想象一下在当时的环境下,完全用手工的方式把如此多的代表不同维度的数据按照一定的构思汇集在一起,是何等烦琐、艰难、耗时。

20世纪60年代人类就实现了用计算机来做统计分析运算,但是到了80年代才实现了计算机的图形化显示、可视化的数据展示。这也仅仅是在数字列表的基础上增加了显示简单图形的功能。到了21世纪,计算机技术和互联网技术获得了长足的发展,各种应用也越趋广泛,特别是电子商务、社交媒体、移动应用和ERP的广泛应用,极大地促进了数据的增长,而且数据的种类繁多,非结构化的数据占主要分量,由此对数据分析的能力提出了前所未有的挑战。为了应对这些挑战,人们发明了存储这些数据的平台Hadoop,处理大量数据的高性能分析技术,开发了新的模型和算法处理非结构化数据,用新的计算机图形学技术与模型来展示它们各种内在的关系。我们可以看到,今天我们对统计分析软件的要求与过去已经有了很大的区别。那么这些区别包括哪些内容呢?

传统的统计分析软件主要是分析结构化的数据,这些数据都是存储在关系数据库、纯文本、Excel等文件中。今天数据种类以非结构化的数据偏多,而且过去的关系数据库已经无法存储这些数据,无论是存储数据量上,还是数据种类上都无法满足要求。Hadoop既支持分布式存储,又支持非结构化数据存储。因此,我们新的统计分析软件不但要支持传统的数据存储软件,也要支持Hadoop。

过去要分析的数据量相对来说都比较小,计算时间基本上是可以接受的(即使需要花费几个小时)。但是,今天的数据量有时候几天都不一定能计算出结果来。这就要求我们在计算技术上有新的突破。SAS使用了网格分布式计算技术,把计算步骤和数据都分成块,用不同的计算器件,不同的CPU多线程地进行计算,然后把结果合起来;用库内分析技术,把对数据的分析计算放到数据库内来进行,减少了对数据的提取和传输过程;用内存分析技术,把由硬盘读取和存放数据的过程改到了由内存读取和存放数据。这三项技术中的任何一项都可以极大地提高数据分析速度,三项技术合而为一,可以获得震撼性的效果,使得实时分析成为可能。过去的数据量小,很容易查看,了解数据属性。要查看今天的数据就要困难许多,我们将这一过程称为数据探索。探索的过程,不仅仅是翻看数据,还要试探性地做一些分析结果的展示,整个的探索过程要流畅,不能有明显的延迟。现在的高性能分析技术完全可以做到。

传统统计分析展示的图表通常都是饼图、直方图、折线图、散点图、柱状图、箱式图、仪表盘等。虽然这些图表也是人们经常会用到的图示,但是如今已经远远不够了。今天的可视化技术还可以展示流程图、衍生分支图、气泡图、矩形树图、面积图、树状图、各种地图、词云、瀑布图、漏斗图、网络结构图等种类繁多的图形,以满足不同的展示和分析需求。

SAS作为统计分析软件的领导者,早在2012年就发布了可视化分析软件“Visual Analytics”,简称VA。2016年,SAS又推出了Viya,新一代的云上数据分析平台,而VA成为所有在Viya上运行的行业解决方案的模板。VA是基于高性能分析技术的,支持Hadoop,其可视化功能涵盖了整个数据分析的全生命周期,并且简单、易用,给用户带来全新的数据分析体验。VA还提供了21种可视化视图和分析方法,支持对结构化、半结构化和非结构化数据的可视化分析,支持多用户的信息共享和移动技术。SAS在高级分析领域占有绝对的领先地位,因此,VA不仅支持普通商务智能级别的分析,还支持高级分析,就是支持全级别的数据分析,这也是SAS可视化分析产品与其他厂家不一样的地方。

本书比较全面地介绍了可视化分析的基本概念、技术组成和产品的架构。通过本书的学习,读者除了可以了解可视化的知识以外,还可以学习可视化分析的基本方法。本书特别适合于那些希望通过简洁、快速的方法就能够进行数据管理,进行数据探索;无须写代码就能进行数学建模;设计各种实用报表方便决策的数据分析人员和相应的管理人员。对于进入数据分析的初级人员,本书也是一本不错的指南。

本书共8章。前两章主要介绍可视化分析的基本概念和技术。第3~6章涉及整个数据分析的生命周期。第3章介绍数据管理;第4章介绍了报表的制作;第5章介绍商务智能分析;第6章介绍统计分析和数据建模。最后两章是可视化的基本应用。第7章介绍可视化反欺诈方面的内容;第8章介绍可视化的企业级部署。

本书的完成,来自于整个创作团队的辛勤耕作。大家利用自己的休息时间,一遍一遍地查阅资料,构思内容,完成配图,才使得本书得以和各位读者见面。在这里我要衷心地感谢大家的付出和各位家庭的支持。感谢那些以各种方式为本书的完成提供了帮助的同事和朋友。

SAS公司在过去的40多年里,为行业贡献了各种里程碑式的产品,包括我们在书中要给大家介绍的可视化分析产品。在这里我们要感谢SAS公司开发的优秀产品,感谢公司提供的工作学习环境和各种资料,以及对出版本书的支持。

最后,要特别感谢机械工业出版社华章公司的编辑们。感谢他们对于本书出版的指导和帮助。

刘政

2018年5月于北京