Funkcje tekstowe w R
R to język i środowisko doskonale sprawdzające się przy wizualizacji, statystycznej analizie oraz maszynowym przetwarzaniu danych. W poniższym artykule przedstawiamy przykładowe funkcje z pakietu stringr dla języka R, dzięki którym usprawnisz swoją pracę przy operacjach na tekście.
Do obliczeń statystycznych i wizualizacji danych niekoniecznie trzeba używać popularnych programów typu Microsoft Excel. Na rynku dostępne są inne narzędzia, których potencjału ciągle się nie dostrzega. RStudio, które jest całkowicie darmowym środowiskiem programistycznym, przeznaczone jest do wykonywania kalkulacji i prezentowania ich na wysokiej jakości wykresach.
Podczas programowania w R możliwe jest korzystanie z wielu wbudowanych funkcji oraz implementowanie pakietów, które znacznie ułatwiają wykonywanie bardziej złożonych operacji. W trakcie nauki języka R warto jak najszybciej rozpocząć stosowanie pakietu stringr do operacji na tekście. Pozwala to usprawnić codzienną pracę, ponieważ jest łatwiejszą metodą niż funkcje standardowe R.
Przykładowe wykorzystanie stringr:
str_to_upper
Wygląd funkcji: str_to_upper(string, locale = "en")
Argumenty:
• string – tekst
• locale – kodowanie tekstu
Cel funkcji: zmienia wszystkie litery na wielkie
Przykłady:
> zdanie <- "TO jEsT przYkŁADowE ZdaNie"
> str_to_upper(zdanie)
[1] "TO JEST PRZYKŁADOWE ZDANIE"
str_to_lower
Wygląd funkcji: str_to_lower(string, locale = "en")
Argumenty:
• string – tekst
• locale – kodowanie tekstu
Cel funkcji: zmienia wszystkie litery na małe
Przykłady:
> zdanie <- "TO jEsT przYkŁADowE ZdaNie"
> str_to_lower(zdanie)
[1] "to jest przykładowe zdanie"
str_to_title
Wygląd funkcji: str_to_title(string, locale = "en")
Argumenty:
• string – tekst
• locale – kodowanie tekstu
Cel funkcji: zmienia pierwszą literę na wielką
Przykłady:
> zdanie <- "TO jEsT przYkŁADowE ZdaNie"
> str_to_title(zdanie)
[1] "To Jest Przykładowe Zdanie"
str_to_sentence
Wygląd funkcji: str_to_sentence(string, locale = "en")
Argumenty:
• string – tekst
• locale – kodowanie tekstu
Cel funkcji: Zmienia tylko pierwszą literę na wielką
Przykłady:
> zdanie <- "TO jEsT przYkŁADowE ZdaNie"
> str_to_sentence(zdanie)
[1] "To jest przykładowe zdanie"
str_extract
Wygląd funkcji: str_extract(string, pattern)
Argumenty:
• string – tekst
• pattern – wzorzec
Cel funkcji: wyciągnięcie określonego ciągu znaków
Przykłady:
> ceny
> str_extract(ceny, "\\d+(.\\d+){0,2}")
[1] "14.92" "16" "0.45" "19.68"
> str_extract(ceny, "([0-9]){1,10}(.[0-9][0-9]){0,3}")
[1] "14.92" "16" "0.45" "19.68"
> wyrazy > str_extract(wyrazy, "\\d+")
[1] "1" "33" NA
> str_extract(wyrazy, "[a-z]+")
[1] "yrafa" "jab" "trzy"
> str_extract(wyrazy, "[a-ząężźółśń]+")
[1] "żyrafa" "jabłko" "trzy"
> str_extract(wyrazy, "\\b[a-z]+")
[1] NA "jab" "trzy"
> str_extract(wyrazy, "\\b[a-ząężźółśń]+")
[1] "żyrafa" "jabłko" "trzy"
> str_extract(wyrazy, "[:alpha:]")
[1] "ż" "j" "t"
To tylko jeden z przykładów korzystania z funkcji w programie R. Więcej praktycznej wiedzy i sposobów zastosowania tego języka programowania poznasz na naszych kursach.
Skondensowana wiedza pozwoli poznać podstawy poruszania się w środowisku RStudio przydatnym podczas analizy i wizualizacji danych.