it-swarm-id.com

Bagaimana cara mengakses nilai terakhir dalam vektor?

Misalkan saya memiliki vektor yang bersarang dalam kerangka data satu atau dua tingkat. Apakah ada cara cepat dan kotor untuk mengakses nilai terakhir, tanpa menggunakan fungsi length()? Sesuatu yang istimewa $# var khusus?

Jadi saya ingin sesuatu seperti:

dat$vec1$vec2[$#]

dari pada

dat$vec1$vec2[length(dat$vec1$vec2)]
256
user14008

Saya menggunakan fungsi tail:

tail(vector, n=1)

Yang menyenangkan dengan tail adalah bahwa ia bekerja pada kerangka data juga, tidak seperti idiom x[length(x)].

330
lindelof

Untuk menjawab ini bukan dari sudut pandang estetika tetapi berorientasi kinerja, saya telah menempatkan semua saran di atas melalui benchmark. Lebih tepatnya, saya sudah mempertimbangkan saran

  • x[length(x)]
  • mylast(x), di mana mylast adalah fungsi C++ yang diimplementasikan melalui Rcpp,
  • tail(x, n=1)
  • dplyr::last(x)
  • x[end(x)[1]]]
  • rev(x)[1]

dan menerapkannya pada vektor acak dengan berbagai ukuran (10 ^ 3, 10 ^ 4, 10 ^ 5, 10 ^ 6, dan 10 ^ 7). Sebelum kita melihat angka-angkanya, saya pikir harus jelas bahwa apa pun yang menjadi terasa lebih lambat dengan ukuran input yang lebih besar (mis., Apa pun yang bukan O(1)) bukanlah pilihan. Berikut kode yang saya gunakan:

Rcpp::cppFunction('double mylast(NumericVector x) { int n = x.size(); return x[n-1]; }')
options(width=100)
for (n in c(1e3,1e4,1e5,1e6,1e7)) {
  x <- runif(n);
  print(microbenchmark::microbenchmark(x[length(x)],
                                       mylast(x),
                                       tail(x, n=1),
                                       dplyr::last(x),
                                       x[end(x)[1]],
                                       rev(x)[1]))}

Itu memberi saya

Unit: nanoseconds
           expr   min      lq     mean  median      uq   max neval
   x[length(x)]   171   291.5   388.91   337.5   390.0  3233   100
      mylast(x)  1291  1832.0  2329.11  2063.0  2276.0 19053   100
 tail(x, n = 1)  7718  9589.5 11236.27 10683.0 12149.0 32711   100
 dplyr::last(x) 16341 19049.5 22080.23 21673.0 23485.5 70047   100
   x[end(x)[1]]  7688 10434.0 13288.05 11889.5 13166.5 78536   100
      rev(x)[1]  7829  8951.5 10995.59  9883.0 10890.0 45763   100
Unit: nanoseconds
           expr   min      lq     mean  median      uq    max neval
   x[length(x)]   204   323.0   475.76   386.5   459.5   6029   100
      mylast(x)  1469  2102.5  2708.50  2462.0  2995.0   9723   100
 tail(x, n = 1)  7671  9504.5 12470.82 10986.5 12748.0  62320   100
 dplyr::last(x) 15703 19933.5 26352.66 22469.5 25356.5 126314   100
   x[end(x)[1]] 13766 18800.5 27137.17 21677.5 26207.5  95982   100
      rev(x)[1] 52785 58624.0 78640.93 60213.0 72778.0 851113   100
Unit: nanoseconds
           expr     min        lq       mean    median        uq     max neval
   x[length(x)]     214     346.0     583.40     529.5     720.0    1512   100
      mylast(x)    1393    2126.0    4872.60    4905.5    7338.0    9806   100
 tail(x, n = 1)    8343   10384.0   19558.05   18121.0   25417.0   69608   100
 dplyr::last(x)   16065   22960.0   36671.13   37212.0   48071.5   75946   100
   x[end(x)[1]]  360176  404965.5  432528.84  424798.0  450996.0  710501   100
      rev(x)[1] 1060547 1140149.0 1189297.38 1180997.5 1225849.0 1383479   100
Unit: nanoseconds
           expr     min        lq        mean    median         uq      max neval
   x[length(x)]     327     584.0     1150.75     996.5     1652.5     3974   100
      mylast(x)    2060    3128.5     7541.51    8899.0     9958.0    16175   100
 tail(x, n = 1)   10484   16936.0    30250.11   34030.0    39355.0    52689   100
 dplyr::last(x)   19133   47444.5    55280.09   61205.5    66312.5   105851   100
   x[end(x)[1]] 1110956 2298408.0  3670360.45 2334753.0  4475915.0 19235341   100
      rev(x)[1] 6536063 7969103.0 11004418.46 9973664.5 12340089.5 28447454   100
Unit: nanoseconds
           expr      min         lq         mean      median          uq       max neval
   x[length(x)]      327      722.0      1644.16      1133.5      2055.5     13724   100
      mylast(x)     1962     3727.5      9578.21      9951.5     12887.5     41773   100
 tail(x, n = 1)     9829    21038.0     36623.67     43710.0     48883.0     66289   100
 dplyr::last(x)    21832    35269.0     60523.40     63726.0     75539.5    200064   100
   x[end(x)[1]] 21008128 23004594.5  37356132.43  30006737.0  47839917.0 105430564   100
      rev(x)[1] 74317382 92985054.0 108618154.55 102328667.5 112443834.0 187925942   100

Ini segera mengesampingkan apa pun yang melibatkan rev atau end karena mereka jelas bukan O(1) (dan ekspresi yang dihasilkan dievaluasi dengan cara yang tidak malas). tail dan dplyr::last tidak jauh dari O(1) tetapi mereka juga jauh lebih lambat dari mylast(x) dan x[length(x)]. Karena mylast(x) lebih lambat dari x[length(x)] dan tidak memberikan manfaat (lebih tepatnya, itu adalah kebiasaan dan tidak menangani vektor kosong dengan anggun), saya pikir jawabannya jelas: Silakan gunakan x[length(x)].

143
anonymous

Jika Anda mencari sesuatu yang sama baiknya dengan notasi Python x [-1], saya pikir Anda kurang beruntung. Ungkapan standarnya adalah

x[length(x)]  

tetapi cukup mudah untuk menulis fungsi untuk melakukan ini:

last <- function(x) { return( x[length(x)] ) }

Fitur yang hilang di R ini juga mengganggu saya!

104
Gregg Lind

Menggabungkan lindelof's dan Gregg Lind's gagasan:

last <- function(x) { tail(x, n = 1) }

Bekerja di Prompt, saya biasanya menghilangkan n=, yaitu tail(x, 1).

Tidak seperti last dari paket pastecs, head dan tail (dari utils) bekerja tidak hanya pada vektor tetapi juga pada frame data dll, dan juga dapat mengembalikan data "tanpa elemen n pertama/terakhir", mis.

but.last <- function(x) { head(x, n = -1) }

(Perhatikan bahwa Anda harus menggunakan head untuk ini, alih-alih tail.)

44
Florian Jenn

Saya hanya membandingkan dua pendekatan ini pada bingkai data dengan 663.552 baris menggunakan kode berikut:

system.time(
  resultsByLevel$subject <- sapply(resultsByLevel$variable, function(x) {
    s <- strsplit(x, ".", fixed=TRUE)[[1]]
    s[length(s)]
  })
  )

 user  system elapsed 
  3.722   0.000   3.594 

dan

system.time(
  resultsByLevel$subject <- sapply(resultsByLevel$variable, function(x) {
    s <- strsplit(x, ".", fixed=TRUE)[[1]]
    tail(s, n=1)
  })
  )

   user  system elapsed 
 28.174   0.000  27.662 

Jadi, dengan asumsi Anda bekerja dengan vektor, mengakses posisi panjang secara signifikan lebih cepat.

17
scuerda

Paket dplyr menyertakan fungsi last():

last(mtcars$mpg)
# [1] 21.4
16
Sam Firke

Cara lain adalah dengan mengambil elemen pertama dari vektor terbalik:

rev(dat$vect1$vec2)[1]
12
James

Saya punya metode lain untuk menemukan elemen terakhir dalam vektor. Katakanlah vektornya adalah a.

> a<-c(1:100,555)
> end(a)      #Gives indices of last and first positions
[1] 101   1
> a[end(a)[1]]   #Gives last element in a vector
[1] 555

Ini dia!

9
Akash

Paket data.table termasuk fungsi last

library(data.table)
last(c(1:10))
# [1] 10

Tentang apa

> a <- c(1:100,555)
> a[NROW(a)]
[1] 555
7
Kurt Ludikovsky

Paket xts menyediakan fungsi last:

library(xts)
a <- 1:100
last(a)
[1] 100
2
smoff