R语言与社会科学调查数据分析
上QQ阅读APP看书,第一时间看更新

第一章 R语言简介

免费开放、功能强大的R语言数据科学分析日渐流行。R语言的功能每天都在扩展,用户每天都在增多。现在,R语言已经成为诸多名校统计学课堂上的首选软件,是定量研究最受欢迎的工具之一。

正如周雪光老师所说,“在学习R程序语言时,可能会因为一点小问题而卡上数小时。如今,网络上有丰富的Q&A资源。编程序出现问题时,只要把‘error message’拷贝到Google上,就会发现已经有人提出过同样或类似问题,而且已经有若干热心网友进行解答,甚至延伸讨论。网络资源之丰富令人惊讶,实践至今还没有碰到过在网上毫无线索可寻的情形,可以说比在计算机房转身问同学还有效率。新知识、新视野、新感受有着巨大的诱惑力”[1]

本书利用R语言分析中国综合社会调查数据。该调查数据对研究者开放,方便获取。数据分析过程可复制,开源,可以有效地帮助读者进行学习、研究。和市场上一般的R语言书不同,本书基于真实的调查数据,贴近数据学习和科研分析的真实过程,从读入原始数据开始,逐渐深入。全书内容完整涵盖描述性统计分析、图表呈现、简单回归分析、广义回归模型、因子分析等主流统计教程的方法,适合各层次的读者参考。作为日渐流行的分析工具,R语言在社会科学中的应用方兴未艾。通过学习R语言,能打开新知识的大门,探索开源统计软件的魅力,跟踪学习新的方法,扩充研究的方法,更好地完成研究课题和论文写作。

在开始分析中国综合社会调查数据(CGSS 2015)之前,我们来看一个简单的例子。

分析先以Iris数据集为例,这是R语言入门教程的骨灰级数据。Iris数据集是分类实验数据集,由Fisher收集整理,几乎在每一本机器学习和R语言的英文教科书中都会出现。Iris,即鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类(Setosa,Versicolour,Virginica),每类50个数据,每个数据包含4个属性。可通过花萼长度、花萼宽度、花瓣长度、花瓣宽度4个属性预测鸢尾花卉属于3个种类中的哪一类。

Iris以鸢尾花的特征作为数据来源,常用在分类操作中。该数据集由3种不同类型鸢尾花的50个样本数据构成。其中的一个种类与另外两个种类是线性可分离的,后两个种类是非线性可分离的。

该数据集包含了5个属性:

& Sepal.Length(花萼长度),单位是cm;

& Sepal.Width(花萼宽度),单位是cm;

& Petal.Length(花瓣长度),单位是cm;

& Petal.Width(花瓣宽度),单位是cm;

& 种类:Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),以及Iris Virginica(弗吉尼亚鸢尾)。

安装完成后,打开RStudio,进行如下操作:

图1-1用简单的View命令能观察数据,该数据类似一个随处可见的excel数据。而图1-2中一行 plot(iris)给出了该数据中5个变量两两之间的散点图,R语言的简洁特性一览无余。

图1-1 数据浏览的View命令示例

图1-2 代码入门


[1] http://www.aisixiang.com/data/106931.html,原文见周雪光老师博文“重学量化方法的观察和感受”。