Jak wizualizować dane w RStudio – praktyczne przykłady

Poznaj praktyczne sposoby wizualizacji danych w RStudio z użyciem ggplot2. Dowiedz się, jak krok po kroku tworzyć różne typy wykresów 📊.
13 sierpnia 2025
blog
Poziom: Podstawowy

Artykuł przeznaczony dla osób początkujących i na poziomie podstawowym, które chcą nauczyć się tworzyć wizualizacje danych w RStudio z użyciem ggplot2.

Z tego artykułu dowiesz się

  • Jakie biblioteki do wizualizacji danych warto zainstalować i jak je skonfigurować w RStudio?
  • Na czym polega podstawowa składnia ggplot2 i jak budować wykresy warstwowo?
  • Jak tworzyć i dobierać wykresy słupkowe, liniowe, rozrzutu i pudełkowe oraz jakie stosować najlepsze praktyki?

Wprowadzenie do wizualizacji danych w RStudio

Wizualizacja danych to kluczowy etap analizy, który pozwala nie tylko lepiej zrozumieć zbiory danych, ale także skutecznie komunikować uzyskane wyniki. RStudio – jako popularne środowisko pracy w języku R – oferuje szeroki wachlarz narzędzi i bibliotek, które umożliwiają tworzenie przejrzystych i estetycznych wykresów.

W RStudio wizualizacja danych może przyjmować różne formy, w zależności od charakteru danych oraz celu analizy. Można tworzyć wykresy słupkowe do porównywania wartości między kategoriami, wykresy liniowe ilustrujące zmiany w czasie, wykresy rozrzutu pokazujące zależności między zmiennymi, czy wykresy pudełkowe służące do analizy rozkładu danych.

Jednym z najbardziej popularnych narzędzi do wizualizacji w R jest biblioteka ggplot2, która bazuje na koncepcji Grammar of Graphics. Umożliwia ona budowanie wykresów w sposób warstwowy, co pozwala na dużą elastyczność i kontrolę nad wyglądem końcowego rezultatu.

Wizualizacja danych w RStudio to nie tylko tworzenie atrakcyjnych grafik – to także potężne narzędzie eksploracji, które pomaga dostrzec wzorce, anomalie i zależności w danych, zanim zostaną one poddane dalszej analizie statystycznej.

W kolejnych krokach przyjrzymy się, jak przygotować środowisko pracy, poznać podstawową składnię i tworzyć różne typy wykresów, które pomogą skutecznie prezentować dane.

Instalacja i konfiguracja bibliotek do wizualizacji (ggplot2 i inne)

Aby skutecznie tworzyć wizualizacje danych w RStudio, niezbędne jest skorzystanie z odpowiednich bibliotek. Najpopularniejszą z nich jest ggplot2 – potężne narzędzie do tworzenia wykresów zgodnych z zasadami „Grammar of Graphics”. Oprócz niej dostępnych jest wiele innych bibliotek, które oferują dodatkowe możliwości i ułatwiają pracę z różnymi typami danych.

Podczas szkoleń Cognity ten temat wraca regularnie – dlatego zdecydowaliśmy się go omówić również tutaj.

Instalacja bibliotek w R odbywa się za pomocą funkcji umożliwiających pobranie pakietów z CRAN (Comprehensive R Archive Network). RStudio, jako środowisko programistyczne, pozwala na wygodne zarządzanie zależnościami, dzięki czemu cały proces jest szybki i intuicyjny.

Oto kilka najczęściej używanych bibliotek do wizualizacji danych w R:

  • ggplot2 – podstawowa biblioteka do tworzenia estetycznych i konfigurowalnych wykresów. Oferuje szeroką gamę opcji prezentacji danych, zarówno prostych, jak i zaawansowanych.
  • plotly – umożliwia tworzenie interaktywnych wykresów, które można osadzać na stronach internetowych lub w dashboardach.
  • lattice – alternatywa dla ggplot2, oparta na koncepcji programowania deklaratywnego, sprawdza się szczególnie przy wizualizacjach wielowymiarowych danych.
  • cowplot i patchwork – służą do łączenia wielu wykresów ggplot2 w jedną, spójną kompozycję.
  • ggthemes i RColorBrewer – pozwalają na dostosowanie wyglądu wykresów poprzez różnorodne styl i palety kolorów.

Po zainstalowaniu odpowiednich bibliotek, należy je załadować w sesji R, aby móc z nich korzystać. Dzięki temu możliwe jest tworzenie różnorodnych wizualizacji, dopasowanych do potrzeb analitycznych oraz estetycznych użytkownika.

Podstawy składni ggplot2

Biblioteka ggplot2 to jedno z najpopularniejszych narzędzi do tworzenia wykresów w języku R. Jej główną zaletą jest elastyczność i czytelna składnia, oparta na filozofii Grammar of Graphics – gramatyki grafiki. W tej sekcji przedstawiamy kluczowe elementy składni ggplot2 oraz sposób ich łączenia.

Struktura wykresu w ggplot2

Tworzenie wykresu w ggplot2 opiera się na składaniu kolejnych warstw przy pomocy operatora +. Każdy wykres składa się zazwyczaj z trzech podstawowych komponentów:

  • Źródło danych – ramka danych (data.frame), np. mtcars, iris.
  • Mapowanie estetyk (aesthetic mapping) – przypisanie zmiennych do osi, kolorów, rozmiarów itp.
  • Geometria (geoms) – określa typ wykresu, np. punkty, linie, słupki.

Podstawowy szkielet wykresu wygląda następująco:

ggplot(data = <dane>, aes(x = <zmienna_x>, y = <zmienna_y>)) +
  geom_<typ wykresu>()

Popularne warstwy geometryczne

Poniższa tabela przedstawia kilka najczęściej stosowanych funkcji do tworzenia różnych typów wykresów:

Funkcja Typ wykresu Przykład zastosowania
geom_bar() Wykres słupkowy Liczba obserwacji w każdej kategorii
geom_line() Wykres liniowy Zmiana wartości w czasie
geom_point() Wykres rozrzutu Zależność między dwiema zmiennymi ilościowymi
geom_boxplot() Wykres pudełkowy Rozkład zmiennej w grupach

Przykładowy kod

Poniżej znajduje się prosty przykład tworzenia wykresu rozrzutu z wykorzystaniem danych mtcars:

ggplot(data = mtcars, aes(x = wt, y = mpg)) +
  geom_point()

Powyższy kod tworzy wykres, na którym oś x reprezentuje masę samochodu (wt), a oś y – liczbę mil przejechanych na galonie paliwa (mpg).

Zrozumienie powyższej struktury jest kluczowe do dalszego tworzenia i modyfikowania wykresów w ggplot2. Każdy kolejny element (np. kolor, tytuł, podział na grupy) dodawany jest jako osobna warstwa. Jeśli chcesz pogłębić swoją wiedzę i nauczyć się także operacji na danych, warto skorzystać ze szkolenia Kurs Studio R - operacje i przetwarzanie danych, import i eksport danych z programu.

💡 Pro tip: Najpierw zdefiniuj data i aes() w ggplot(), a następnie dokładaj geomy operatorem + – globalne mapowania z aes() możesz też nadpisywać lokalnie w poszczególnych geom_*. Utrzymuj minimalny, działający szkielet i dopiero później iteracyjnie dodawaj estetyki, skale i tematy.

Tworzenie wykresów słupkowych

Wykresy słupkowe (ang. bar charts) są jednym z najczęściej stosowanych sposobów prezentacji danych kategorycznych. Pozwalają one w przejrzysty sposób porównać wartości przypisane do poszczególnych kategorii. W środowisku RStudio, najpopularniejszym narzędziem do ich tworzenia jest biblioteka ggplot2, która umożliwia elastyczne i estetyczne generowanie wykresów.

Typowe zastosowania wykresów słupkowych obejmują:

  • Porównanie liczebności kategorii w zbiorze danych (np. liczba klientów w różnych regionach).
  • Prezentację rozkładu jednej zmiennej kategorycznej.
  • Pokazywanie wartości agregowanych (np. średnia sprzedaż w poszczególnych miesiącach).

W ramach wykresów słupkowych można wyróżnić dwa główne typy:

Typ wykresu słupkowego Zastosowanie
Wykres słupkowy (bar chart) Przedstawia wartości zmiennej dla każdej kategorii; słupki mogą być poziome lub pionowe.
Wykres skumulowany (stacked bar chart) Pokazuje podział wartości w ramach jednej kategorii na kilka podkategorii, co pozwala porównać proporcje wewnątrz i między kategoriami.

Przykładowy kod tworzący prosty wykres słupkowy w ggplot2 wygląda następująco:

library(ggplot2)

# Przykładowe dane
kategorie <- data.frame(
  grupa = c("A", "B", "C"),
  wartosc = c(10, 15, 7)
)

# Wykres słupkowy
ggplot(kategorie, aes(x = grupa, y = wartosc)) +
  geom_bar(stat = "identity", fill = "steelblue") +
  theme_minimal() +
  labs(title = "Przykładowy wykres słupkowy",
       x = "Grupa",
       y = "Wartość")

W powyższym przykładzie użyto argumentu stat = "identity", który informuje ggplot2, że wysokość słupków powinna odpowiadać wartościom w danych, a nie być obliczana automatycznie (np. jako liczność).

W czasie szkoleń Cognity ten temat bardzo często budzi ożywione dyskusje między uczestnikami, ponieważ wykresy słupkowe są nie tylko intuicyjne, ale również niezwykle przydatne w codziennej analizie danych.

Dzięki swojej przejrzystości i łatwości interpretacji, wykresy słupkowe stanowią doskonały punkt wyjścia do eksploracji danych kategorycznych.

Tworzenie wykresów liniowych

Wykresy liniowe są jednym z najczęściej używanych narzędzi do przedstawiania danych zmieniających się w czasie lub pokazujących zależności między dwiema zmiennymi ilościowymi. W RStudio, z wykorzystaniem biblioteki ggplot2, możemy w prosty sposób tworzyć estetyczne i czytelne wykresy liniowe.

Typowe zastosowania wykresów liniowych obejmują:

  • Przedstawienie trendów czasowych (np. zmiany temperatury w ciągu roku, liczby użytkowników w kolejnych miesiącach),
  • Porównanie kilku serii danych na jednej osi czasu,
  • Wyszukiwanie punktów zwrotnych i tendencji wzrostowych lub spadkowych.

W porównaniu do innych rodzajów wykresów:

Typ wykresu Zastosowanie Typ danych
Słupkowy Porównanie wartości między kategoriami Kategoryczne i ilościowe
Liniowy Analiza zmiany wartości w czasie Dane ciągłe (najczęściej czasowe)
Rozrzutu Badanie zależności między dwiema zmiennymi Dwie zmienne ilościowe

Oto przykład prostego wykresu liniowego w ggplot2:

library(ggplot2)

data <- data.frame(
  miesiac = c("Styczeń", "Luty", "Marzec", "Kwiecień"),
  sprzedaz = c(120, 150, 170, 200)
)

ggplot(data, aes(x = miesiac, y = sprzedaz, group = 1)) +
  geom_line(color = "steelblue", size = 1) +
  geom_point(color = "steelblue") +
  labs(title = "Sprzedaż miesięczna", x = "Miesiąc", y = "Sprzedaż")

Powyższy wykres przedstawia prosty trend wzrostu sprzedaży w kolejnych miesiącach. W kolejnych częściach artykułu zostanie omówione, jak modyfikować i dostosowywać wykresy liniowe do bardziej złożonych danych i potrzeb analitycznych. Jeśli chcesz poszerzyć swoją wiedzę z zakresu analizy i wizualizacji danych w R, sprawdź Kurs Tidyverse w R – efektywna analiza, czyszczenie i prezentacja danych.

Tworzenie wykresów rozrzutu

Wykresy rozrzutu (ang. scatter plots) stanowią jedno z podstawowych narzędzi do wizualizacji zależności między dwiema zmiennymi liczbowymi. Są szczególnie przydatne w analizie korelacji, identyfikacji trendów, outlierów czy ogólnej struktury danych dwuwymiarowych.

W RStudio wykresy rozrzutu można łatwo tworzyć za pomocą biblioteki ggplot2, która oferuje elastyczne możliwości dostosowywania wyglądu i zawartości wykresów. W odróżnieniu od wykresów słupkowych czy pudełkowych, wykres rozrzutu nie służy do przedstawiania podsumowań lub rozkładów danych, ale do pokazania relacji między obserwacjami.

Typowe zastosowania wykresów rozrzutu obejmują:

  • Badanie związku między zmiennymi (np. wzrost a waga)
  • Wizualizacja gęstości punktów i wzorców skupisk
  • Analiza rozrzutu i detekcja wartości odstających

Poniższa tabela przedstawia porównanie wykresu rozrzutu z innymi typami wizualizacji:

Typ wykresu Typ zmiennych Zastosowanie główne
Rozrzutu (scatter) dwie zmienne liczbowe relacje między zmiennymi
Słupkowy kategoryczna i liczbowa porównanie wartości między kategoriami
Pudełkowy kategoryczna i liczbowa analiza rozkładu i wartości odstających

Przykład prostego wykresu rozrzutu przy użyciu ggplot2 wygląda następująco:

library(ggplot2)

ggplot(data = mtcars, aes(x = wt, y = mpg)) +
  geom_point()

Powyższy kod przedstawia zależność między masą pojazdu (wt) a zużyciem paliwa (mpg) w zbiorze mtcars. Każdy punkt na wykresie reprezentuje jeden samochód. W kolejnych krokach można wzbogacić wykres o dodatkowe informacje, takie jak kolor, rozmiar punktów czy dopasowanie linii trendu.

Tworzenie wykresów pudełkowych

Wykresy pudełkowe (ang. box plots) to bardzo przydatne narzędzie w analizie danych, szczególnie gdy chcemy przedstawić rozkład zmiennych liczbowych oraz porównać je pomiędzy różnymi grupami. Pozwalają one szybko zidentyfikować medianę, kwartyle, a także wartości odstające (tzw. outliers).

W RStudio, dzięki bibliotece ggplot2, tworzenie wykresów pudełkowych jest intuicyjne i elastyczne. Wykres ten doskonale sprawdza się, gdy chcemy np. porównać wyniki testów między różnymi klasami, poziomy sprzedaży w regionach czy czas realizacji zadań w różnych zespołach. W przeciwieństwie do wykresów słupkowych, które pokazują wartości zagregowane (np. średnie), wykresy pudełkowe koncentrują się na rozkładzie danych i ich zmienności.

Typowe elementy wykresu pudełkowego to:

  • pudełko (box), które zawiera 50% centralnych obserwacji (od pierwszego do trzeciego kwartylu);
  • linia w środku pudełka, która wskazuje medianę;
  • wąsy (whiskers), które rozciągają się do wartości nie będących odstającymi;
  • punkty odstające (outliers), które są wyświetlane osobno jako pojedyncze punkty.

Wizualizacja tego typu pomaga w szybkim zdiagnozowaniu asymetrii, obecności wartości skrajnych oraz porównaniu zróżnicowania danych między grupami. Jest to szczególnie istotne w analizach statystycznych, gdzie rozkład danych odgrywa kluczową rolę.

Podsumowanie i najlepsze praktyki

Wizualizacja danych odgrywa kluczową rolę w analizie danych, umożliwiając szybkie zrozumienie złożonych zbiorów informacji oraz skuteczne komunikowanie wyników. RStudio, w połączeniu z potężnymi bibliotekami jak ggplot2, oferuje elastyczne i estetyczne narzędzia do tworzenia różnorodnych wykresów.

Warto pamiętać, że wybór odpowiedniego typu wykresu zależy od charakteru danych oraz celu analizy. Wykresy słupkowe świetnie nadają się do porównywania wartości kategorii, wykresy liniowe ukazują zmiany w czasie, rozrzutowe pomagają odkrywać zależności między zmiennymi, a pudełkowe dobrze przedstawiają rozkład i wykrywają wartości odstające.

Aby tworzyć czytelne i użyteczne wizualizacje, należy kierować się kilkoma najlepszymi praktykami:

  • Dbaj o przejrzystość: Unikaj nadmiaru elementów i kolorów, które mogą utrudniać odbiór danych.
  • Stosuj odpowiednie etykiety: Oznacz osie, legendy i wykresy w sposób jednoznaczny i zrozumiały.
  • Dopasuj wykres do odbiorcy: Dostosuj poziom szczegółowości i sposób prezentacji do potrzeb grupy, która będzie analizować dane.
  • Testuj różne formy wizualizacji: Nie bój się eksperymentować, aby znaleźć najbardziej informatywną formę dla Twojego konkretnego zestawu danych.

Stosując te zasady, można w pełni wykorzystać potencjał RStudio jako środowiska do tworzenia zaawansowanych, a jednocześnie zrozumiałych i estetycznych wizualizacji danych. Podczas szkoleń Cognity pogłębiamy te zagadnienia w oparciu o konkretne przykłady z pracy uczestników.

💡 Pro tip: Zawsze zaczynaj od pytania i doboru typu wykresu pod dane, ograniczając zbędne ozdobniki – najpierw pokaż dane, potem stylizuj. Stosuj jednoznaczne etykiety i czytelne skale, a kolory dobieraj konsekwentnie (najlepiej palety przyjazne daltonistom).
Kurs Jamovi - analiza danych i zasady tworzenia raportów, z elementami języka R
ogólny
cena
od 3621 zł + VAT dla szkoleń otwartych
szkolenia zamknietę
Zapytaj o cenę dla szkoleń zamkniętych
Kurs Jamovi - analiza danych...
Kurs JASP - sposoby wizualizacji danych w programie i wykorzystanie  najważniejszych funkcji aplikacji do analizy danych statystycznych
początkujący
cena
od 3895 zł + VAT dla szkoleń otwartych
szkolenia zamknietę
Zapytaj o cenę dla szkoleń zamkniętych
Kurs JASP - sposoby wizualizacji danych...
Kurs Tableau - nowa perspektywa pracy z danymi, analizy i wizualizacji danych
średnio zaawansowany
cena
od 3850 zł + VAT dla szkoleń otwartych
szkolenia zamknietę
Zapytaj o cenę dla szkoleń zamkniętych
Kurs Tableau - nowa perspektywa pracy z danymi...
icon

Formularz kontaktowyContact form

Imię *Name
NazwiskoSurname
Adres e-mail *E-mail address
Telefon *Phone number
UwagiComments