![文本数据挖掘:基于R语言](https://wfqqreader-1252317822.image.myqcloud.com/cover/707/39130707/b_39130707.jpg)
2.4 R的基础编程知识
R语言与C语言等其他编程语言相似,自身有一套编程体系。尽管这个体系非常庞杂,但是对于入门者而言,只需要掌握其中一些核心的内容就可以完成大部分简单的数据操作和计算。本节将会针对R语言编程的部分核心内容进行简要介绍,从而让初学者快速掌握一些基本概念。
2.4.1 赋值
赋值就是把计算好的结果赋予一个变量的过程,在前面的介绍中已经用到了赋值操作。在R中,可以使用等号(=)或箭头(<-和->)来对变量进行赋值。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/27_01.jpg?sign=1739137673-iDwUMmiP6M7kLoZKdev8i9mhiWxcu8Jy-0-a89ed25090f79e641243dd8743b68639)
尽管在R中可以灵活地使用以上3种方法进行赋值,但是有时候作为项目管理,应该统一编程风格。例如有的规范中建议在所有函数定义的时候用“=”,而在数值保存的时候使用“<-”。而日常使用中,因为编写代码总是有从左到右的习惯,则可以灵活地使用“->”来进行赋值。在R中,还可以使用assign函数来为一个变量名进行赋值,如下所示。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/27_02.jpg?sign=1739137673-pxPUV35kwnX016rcVK5m71lK1ZuwnSAp-0-7ff0e5ca757eac8c0219ffd5ff85b4f3)
这里,“a”是一个字符,它代表了变量的名称。
2.4.2 函数
函数式编程是R的一大特色,在R中无时无刻不在调用函数来实现不同的算法。例如,如果想要求得一个数值型向量的均值,可以使用R内置的mean函数实现。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/27_03.jpg?sign=1739137673-yQxS2gylCKAMRSRalUH5Q2M6NVr5NRXF-0-bd70abec2fd0f7373610db491187b70b)
sum函数则可以求得数值型向量的总和。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/27_04.jpg?sign=1739137673-K8gJ0j9mQ5i1vm6ygI07vroKfJ9GUiow-0-05a31839ac07a798ac1de63fee60720a)
在日常工作中,常常需要自定义函数来完成特定的任务,例如想利用勾股定理来求直角三角形斜边的长度。下面,通过构造一个名为“get_length”的函数来完成这个计算任务。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/27_05.jpg?sign=1739137673-AKXrIQqW0uuQTFl2hAXqxFfgFOgj79bt-0-1154662f86fcd87c82233fc721f2b6b9)
2.4.3 强制类型转换
R中的基本数据类型在一定条件下可以进行相互转化。举一个例子,在R中认为,逻辑型的函数,TRUE的值是1,FALSE的值是0,通过as.numeric函数强制类型转换,能够看到这个关系。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/28_01.jpg?sign=1739137673-BW5GRDLSZhHPzuYJefWxy6BvdHQgXlC0-0-74674243caafdc89fd3f2fa5d95aa5d3)
这里,把逻辑型数据转化为了数值型数据。这个操作是可逆的,可以使用as.logical函数把数值1和0重新转化为逻辑型数据。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/28_02.jpg?sign=1739137673-FYnblEaD2gQM2KikLrZ6YK0iV1B2RiGV-0-e2833a368521c21511b33a30e1cdf1f9)
逻辑型和数值型的数据都可以使用as.character函数转化为字符型数据。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/28_03.jpg?sign=1739137673-xKM7yMCzFRMxBuFq6RhgtgkQMt2ohM27-0-dbad6fcbb81305f9dbff8e933bb0448a)
说明:在R中,可以使用以“as.”为前缀的函数对数据进行强制类型转换。
2.4.4 条件判断
在R中经常要使用条件判断来实现分支结构,如果满足某一条件就执行A操作,否则执行B操作,if语句和else语句可以轻松地实现这个过程。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/28_04.jpg?sign=1739137673-mBL5LCJNlhW0cbOzJvrh48a7QDmHb95O-0-6d065f402c31b26ad4727b4106defbe0)
还可以用ifelse语句直接实现这个结构。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/28_05.jpg?sign=1739137673-rTJ2WlcRwJYKREXqBbg8sUZcuQlWa1kJ-0-8c54726e88916a27eabad1888372000d)
2.4.5 循环操作
在批处理过程中,往往需要利用循环来对数据进行遍历,以计算所有的情况。在R中使用循环非常灵活,例如要打印1到10的所有正整数,可以利用for循环来编写代码加以实现。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/28_06.jpg?sign=1739137673-ShSQQpcN7Xqjo7D1JAh69nwcxXXSCn0u-0-06077284a3833c7b7343975d0c831e05)
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/29_01.jpg?sign=1739137673-uLVYIMSNjiSZC8qcoPeNDDrLsKBZHfmX-0-e3f4e73674255b0dd9c82485dc1fc1f5)
还可以使用while语句,通过条件判断来实现上面的操作。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/29_02.jpg?sign=1739137673-PFYPNDwKCazihGg19dLVqWKy8CRz8sz2-0-5d471a34b3a5b94a3b5f4d2692821d5a)
需要注意的是,在上面的操作中,给i定义了初始值1,并在每一步运算结束后加上了1来推进遍历操作。
最后,还要介绍repeat语句,它相当于“while(1)”,也就是没有遇到终止操作break,它就会一直运行下去。以下代码利用repeat语句实现了以上操作。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/29_03.jpg?sign=1739137673-VY5XvFsKevQcUgnKW5YxsLZrNGIeYGyy-0-246d69f6a412c2228ca3a82330f07316)
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/30_01.jpg?sign=1739137673-54izWqg8cpFsrkYuWulToLifX9l9VITq-0-6e532014496bdc2ab0782f63fbed98be)