《R语言编程艺术》——2.5 使用all()和any()

简介: 本节书摘来自华章计算机《R语言编程艺术》一书中的第2章,第2.5节,作者:(美)麦特洛夫(Matloff,N.)著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.5 使用all()和any()

any() 和all() 函数非常方便快捷,它们分别报告其参数是否至少有一个或全部为TRUE。

image

any()函数判断这些值是否至少一个为TURE。all()函数的功能类似,它判断这些值是否全部为TRUE。
2.5.1 扩展案例:寻找连续出现1 的游程
假设一个向量由若干0 和1 构成,我们想找出其中连续出现1 的游程。例如,对于向量(1,0,0,1,1,1,0,1,1),从它第4索引处开始有长度为3的游程,而长度为2的游程分别始于第4,第5和第8索引的位置。因此,用语句findruns(c(1,0,0,1,1,1,0,1,1),2)调用下面展示的函数,返回结果(4,5,8)。代码如下:
image

第五行,我们需要判断从x[i]开始的连续k个值,即x[i],x[i+1],...,x[i+k-1]的值,是否全部为1。表达式x[i:(i+k-1)]语句给出了上述子向量的值,然后使用all()函数检验它是否是一个游程。
我们对它进行一下测试:
image

尽管前面的代码中使用all()比较好,但建立向量runs的过程并不理想。向量的内存分配过程比较耗时,由于调用c(runs,i)时给新的向量分配了内存空间,每次执行时都会减慢代码的运行速度。(这与新向量赋值给runs无关,我们仍然给向量分配了内存空间。)
image

在较短的循环中,这样做可能没问题,但当应用程序的运行性能受到重点关注时,这里有更好的方法。
一种替代方法是预先分配的内存空间,像这样:
image

在第3行,我们给一个长度为n的向量分配了内存空间。这意味着在执行循环的过程中,可以避免分配新的内存。第8行代码做的只是填充runs。在退出函数之前,我们在第12行重新定义runs,来删除该向量中没用的部分。
这种方法更好,第一版代码可能会有很多次内存分配,而第二版代码将之减少为两次。如果我们确实需要提高速度,可能考虑使用C语言重新编码,这会在第14章中讨论。
2.5.2 扩展案例:预测离散值时间序列
假设我们观察到取值为0或1的数据,每个时刻一个值。为了了解具体应用,假设这是每天的天气数据:1代表有雨,0代表没有雨。假设已经知道最近几天是否下雨,我们希望预测明天是否会下雨。具体而言,对于某个k值,我们会根据最近k天的天气记录来预测明天的天气。我们将使用“过半数规则”(majority rule:):如果在最近k期里1的数量大于等于k/2,那么预测下一个值为1,否则,预测下一个值为0。例如如果k=3,最近三期的数据为1、0、1,则预测下一期值为1。
但是,我们应该如何选择k?显然,如果选择的值太小,则给我们用以预测的样本量太小。如果取值过大,导致我们使用过于早期的数据,而这些数据只有很少或根本没有预测价值。
一个解决方案是针对已知的数据(称为训练集),变换不同的k值,看看预测效果如何。
在天气的例子中,假设我们有500天的数据,假设我们考虑使用k=3。为了评价k值的预测能力,我们基于前三天的数据来“预测”每天的数据,然后将预测值与已知值进行对比。以此类推,对于k=1、k=2、k=4,我们做同样的事情,直到k值足够大。然后,我们使用训练数据中表现最好的k值,用于未来的预测。
那么我们如何编写R代码?这里有一个简单的方法:

image

这段代码的核心在第7行。此处要预测第i+k天的值(预测结果保存在pred[i]),利用的是之前k天的值,也即第i天,……,第i+k-1天的值。因此,我们需要算出这些天中1的个数。由于我们处理的是0-1数据,1的数量可以简单地使用这些天x[j]的总和,它可以很方便地用以下方法获取:

image

使用sum()函数和向量索引使得计算更简捷,避免了循环,因此它更简单更快速。这是R语言典型的用法。
第9行的表达式也是同样的道理:

image

在这里,pred包含预测值,而x[(k+1):n]是这些天的实际值。前者减去后者,得到的值要么为0,要么为1,或-1。在这里,1或-1对应两个方向的预测误差,即当真实值为1时预测值为0,或者真实值为0时预测为1。再用abs()函数求出绝对值,得到0和1的序列,后者表示预测有误差。
这样,我们就能知道哪些天的预测有误差,然后使用mean()来计算错误率,在这里我们应用了这一数学原理:即0-1数据的均值是1的比例。这是R语言的一个常见技巧。
上述preda()的编码是相当直截了当的,它的优点是简单和紧凑。然而,它可能很慢。我们可以尝试用向量化循环来加快速度,正如2.6节所讨论的那样。然而在这里它不能解决加速的主要障碍,即这些代码中所有的重复计算都不能避免。在循环中对于i的相邻两个取值,调用sum()函数求和的向量只相差两个元素。这会减慢速度,除非k值非常小。
所以,我们重写代码,计算过程中利用上一步计算的结果。在循环的每一次迭代中,将更新前一次得到的总和,而不是从头开始计算新的总和。
image

关键在第9行。在这里从总和sm里减去最早的元素x[i-1],再加上新的元素(x[i+k-1]),从而更新sm。
另一种方法是使用R函数cumsum(),它能计算向量的累积和(cumulative sums)。这里是一个例子:
image

在这里,y的累加和是5=5,5+2=7,5 + 2 + (-3) = 4,5 + 2 + (-3) + 8 = 12,这些值由cumsum()返回。
在上面的例子里,建议用cumsum()的差值替代preda()中的表达式sum(x[i:(i+(k-1))。

image

在求x中连续k个元素(称为窗口)之和的时候,没有像下面这样使用sum()函数:

image

这是为了保证在i=1时能计算出正确的值。
predb()函数里每次循环迭代要做两次减法运算,对predc()来说只需要做一次。

相关文章
|
IDE 开发工具
《R语言编程艺术》——导读
避免显式迭代是R语言的一个常见话题,这对于函数式编程语言来说是很典型的问题。你可以利用R的函数特性把迭代行为表达成隐式的,而不是用循环语句。这可以让代码执行起来更有效率,当R运行在大数据集上时运行时间会相差很大。
1850 0
《R语言编程艺术》——3.8 高维数组
本节书摘来自华章计算机《R语言编程艺术》一书中的第3章,第3.8节,作者:(美)麦特洛夫(Matloff,N.)著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1394 0
《R语言编程艺术》——3.7 矩阵的行和列的命名问题
本节书摘来自华章计算机《R语言编程艺术》一书中的第3章,第3.7节,作者:(美)麦特洛夫(Matloff,N.)著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1676 0
|
索引
《R语言编程艺术》——3.6 避免意外降维
本节书摘来自华章计算机《R语言编程艺术》一书中的第3章,第3.6节,作者:(美)麦特洛夫(Matloff,N.)著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1289 0
《R语言编程艺术》——3.5 向量与矩阵的差异
本节书摘来自华章计算机《R语言编程艺术》一书中的第3章,第3.5节,作者:(美)麦特洛夫(Matloff,N.)著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1037 0
|
索引
《R语言编程艺术》——3.4 增加或删除矩阵的行或列
本节书摘来自华章计算机《R语言编程艺术》一书中的第3章,第3.4节,作者:(美)麦特洛夫(Matloff,N.)著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
5004 0
《R语言编程艺术》——3.3 对矩阵的行和列调用函数
本节书摘来自华章计算机《R语言编程艺术》一书中的第3章,第3.3节,作者:(美)麦特洛夫(Matloff,N.)著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
3183 0
|
存储 索引
《R语言编程艺术》——3.2 一般矩阵运算
本节书摘来自华章计算机《R语言编程艺术》一书中的第3章,第3.2节,作者:(美)麦特洛夫(Matloff,N.)著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2188 0
|
存储 NoSQL
《R语言编程艺术》——3.1 创建矩阵
本节书摘来自华章计算机《R语言编程艺术》一书中的第3章,第3.1节,作者:(美)麦特洛夫(Matloff,N.)著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1198 0
《R语言编程艺术》——第3章 3.0 矩阵和数组
本节书摘来自华章计算机《R语言编程艺术》一书中的第3章,第3.0节,作者:(美)麦特洛夫(Matloff,N.)著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1309 0

热门文章

最新文章