it-swarm-id.com

Hitung kejadian Word di R

Apakah ada fungsi untuk menghitung berapa kali kata kunci tertentu terkandung dalam dataset?

Sebagai contoh, jika dataset <- c("corn", "cornmeal", "corn on the cob", "meal") hitungannya akan menjadi 3.

20
LNA

Mari kita asumsikan Anda menginginkan jumlah elemen yang mengandung "jagung":

length(grep("corn", dataset))
[1] 3

Setelah Anda mendapatkan dasar-dasar R turun lebih baik, Anda mungkin ingin melihat paket "tm".

EDIT: Saya menyadari bahwa kali ini Anda menginginkan "jagung" tetapi di masa depan Anda mungkin ingin mendapatkan "jagung". Atas bantuan-r, Bill Dunlap menunjukkan pola grep yang lebih ringkas untuk mengumpulkan seluruh kata:

grep("\\<corn\\>", dataset)
33
42-

Cara lain yang cukup nyaman dan intuitif adalah dengan menggunakan fungsi str_count dari paket stringr:

library(stringr)
dataset <- c("corn", "cornmeal", "corn on the cob", "meal")

# for mere occurences of the pattern:
str_count(dataset, "corn")
# [1] 1 1 1 0

# for occurences of the Word alone:
str_count(dataset, "\\bcorn\\b")
# [1] 1 0 1 0

# summing it up
sum(str_count(dataset, "corn"))
# [1] 3
28
petermeissner

Anda juga dapat melakukan sesuatu seperti berikut:

length(dataset[which(dataset=="corn")])
1
Junaid

Saya hanya akan melakukannya dengan pembagian string seperti:

library(roperators)

dataset <- c("corn", "cornmeal", "corn on the cob", "meal")

# for each vector element:
dataset %s/% 'corn'

# for everything:
sum(dataset %s/% 'corn') 
0
Benbob