RMSE, MAE, R², accuracy, precision i recall – jak dobrać właściwą metrykę do modelu?

Dowiedz się, jak dobrać odpowiednią metrykę do oceny modelu ML – regresja, klasyfikacja, RMSE, R², accuracy, precision czy recall? Przykłady i porady.
20 października 2025
blog
Poziom: Średnio zaawansowany

Artykuł przeznaczony dla osób uczących się uczenia maszynowego oraz praktyków analizy danych, którzy chcą świadomie dobierać i interpretować metryki oceny modeli w regresji i klasyfikacji.

Z tego artykułu dowiesz się

  • Czym różnią się problemy regresji i klasyfikacji oraz jak wpływa to na dobór metryk oceny modeli?
  • Jak interpretować metryki RMSE, MAE i R² w zadaniach regresyjnych oraz kiedy warto użyć każdej z nich?
  • Kiedy accuracy, precision i recall mogą wprowadzać w błąd i jak dobierać metryki do rozkładu danych oraz celów biznesowych?

Wprowadzenie do metryk oceny modeli uczenia maszynowego

Ocena jakości modelu uczenia maszynowego to jeden z kluczowych etapów w procesie tworzenia rozwiązań opartych na danych. Niezależnie od tego, czy model przewiduje ceny mieszkań, czy klasyfikuje wiadomości jako spam, konieczne jest mierzenie jego skuteczności przy pomocy odpowiednich metryk. Wybór właściwej metryki ma bezpośredni wpływ na sposób interpretacji wyników oraz podejmowanie dalszych decyzji dotyczących modelowania.

W praktyce używa się różnych metryk w zależności od rodzaju problemu, nad którym pracujemy. W przypadku problemów regresyjnych – gdzie przewidujemy wartości liczbowe – stosuje się inne miary niż w problemach klasyfikacyjnych, gdzie celem jest przypisanie danych do jednej z kilku kategorii.

Dobrze dobrana metryka pozwala nie tylko ocenić trafność modelu, ale także wychwycić jego słabości, takie jak nadmierne upraszczanie danych (underfitting) lub zbytnie dopasowanie do danych uczących (overfitting). W zależności od charakterystyki danych, kontekstu biznesowego oraz oczekiwanego rezultatu, niektóre metryki mogą dostarczać bardziej użytecznych informacji niż inne.

Wśród najczęściej stosowanych metryk znajdują się między innymi:

  • RMSE i MAE – używane do mierzenia błędów w modelach regresyjnych,
  • – pokazujący, jak dobrze model wyjaśnia zmienność danych,
  • Accuracy, Precision i Recall – powszechnie stosowane przy klasyfikacji danych.

Rozumienie, czym różnią się te metryki i w jakich sytuacjach warto je stosować, pomaga w lepszym wykorzystaniu modeli uczenia maszynowego oraz unikaniu błędnych wniosków wynikających z niewłaściwej interpretacji wyników.

Różnice między problemami regresji a klasyfikacji

W uczeniu maszynowym rozróżniamy dwa główne typy problemów: regresję i klasyfikację. Każdy z nich dotyczy innego rodzaju przewidywań i wymaga zastosowania odpowiednich metryk oceny skuteczności modelu. Temat tego artykułu pojawia się w niemal każdej sesji szkoleniowej Cognity – czasem w formie pytania, czasem w formie frustracji, dlatego przybliżamy go również tutaj.

Regresja dotyczy problemów, w których model przewiduje wartości liczbowe. Przykładem może być prognozowanie cen nieruchomości, przewidywanie temperatury czy szacowanie popytu na produkt. Wynik modelu regresyjnego to zazwyczaj liczba rzeczywista, co oznacza, że różnice między przewidywaniami a rzeczywistymi wartościami można mierzyć za pomocą miar ilościowych.

Klasyfikacja odnosi się do problemów, w których model przypisuje dane wejściowe do jednej z predefiniowanych kategorii. Przykłady obejmują rozpoznawanie spamu w wiadomościach e-mail, diagnozowanie chorób na podstawie objawów czy identyfikację gatunku rośliny. W tym przypadku wynik modelu to najczęściej etykieta klasy, a skuteczność ocenia się na podstawie zgodności tych etykiet z rzeczywistością.

Podstawowa różnica polega więc na tym, że regresja przewiduje wartości ciągłe, natomiast klasyfikacja – kategorie dyskretne. Ta różnica determinuje wybór odpowiednich metryk do oceny jakości działania modelu, co ma kluczowe znaczenie przy analizie wyników i podejmowaniu decyzji na podstawie predykcji.

Przegląd metryk dla regresji: RMSE, MAE, R²

W problemach regresyjnych, gdzie celem modelu jest przewidzenie wartości liczbowej (np. ceny, temperatury, popytu), stosuje się inne metryki niż w klasyfikacji. Do najczęściej używanych należą: RMSE (Root Mean Squared Error), MAE (Mean Absolute Error) oraz (współczynnik determinacji). Każda z nich mierzy jakość predykcji w inny sposób i ma swoje unikalne zastosowania. Jeśli chcesz dowiedzieć się więcej o praktycznym wykorzystaniu tych oraz innych metryk w modelach uczenia maszynowego, sprawdź Kurs Machine Learning i Deep Learning w języku Python – modelowanie, optymalizacja, analiza danych.

  • RMSE – wyraża średnią różnicę kwadratową między wartościami przewidywanymi a rzeczywistymi. Kładzie większy nacisk na większe błędy, przez co jest czuła na obserwacje odstające.
  • MAE – mierzy średnią bezwzględną różnicę między przewidywaniami a obserwacjami. Jest bardziej odporna na pojedyncze duże błędy niż RMSE.
  • – informuje, jaka część zmienności danych została wyjaśniona przez model. Przyjmuje wartości od 0 do 1 (czasem może być ujemny), gdzie wyższe wartości sugerują lepsze dopasowanie modelu.

Poniższa tabela przedstawia syntetyczne porównanie tych metryk:

Metryka Typ błędu Odporność na wartości odstające Interpretacja
RMSE Średni błąd kwadratowy (pierwiastek) Niska Im niższa wartość, tym lepiej
MAE Średni błąd bezwzględny Wysoka Im niższa wartość, tym lepiej
Proporcja wyjaśnionej wariancji Nie dotyczy Im bliżej 1, tym lepiej

Dla ilustracji, poniższy przykład w Pythonie pokazuje sposób obliczenia tych trzech metryk przy użyciu biblioteki scikit-learn:

from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np

# Przykładowe wartości rzeczywiste i przewidziane
y_true = [3.0, -0.5, 2.0, 7.0]
y_pred = [2.5, 0.0, 2.1, 7.8]

rmse = np.sqrt(mean_squared_error(y_true, y_pred))
mae = mean_absolute_error(y_true, y_pred)
r2 = r2_score(y_true, y_pred)

print(f"RMSE: {rmse:.2f}")
print(f"MAE: {mae:.2f}")
print(f"R²: {r2:.2f}")

Wybór odpowiedniej metryki zależy od charakterystyki danych i tego, na jakiego rodzaju błędach najbardziej nam zależy. W kolejnych sekcjach zostanie to omówione bardziej szczegółowo.

Przegląd metryk dla klasyfikacji: accuracy, precision, recall

W problemach klasyfikacyjnych, gdzie model ma przypisać dane wejściowe do jednej z kilku kategorii, stosuje się inne metryki niż w regresji. Trzy z najczęściej wykorzystywanych to accuracy (dokładność), precision (precyzja) i recall (czułość), każda z nich oferująca inny punkt widzenia na skuteczność modelu. W czasie szkoleń Cognity ten temat bardzo często budzi ożywione dyskusje między uczestnikami.

Accuracy to najbardziej intuicyjna metryka: mierzy odsetek poprawnie sklasyfikowanych przykładów względem całej populacji. Choć użyteczna, może być myląca w przypadku niezbalansowanych danych (np. gdy jedna klasa dominuje w zbiorze).

Precision informuje nas, jaki procent przykładów zaklasyfikowanych przez model do danej klasy faktycznie do niej należy. Jest szczególnie istotna, gdy koszt fałszywie pozytywnych wyników jest wysoki (np. przy wykrywaniu spamu).

Recall, z kolei, pokazuje, jak duży odsetek rzeczywistych przypadków danej klasy został poprawnie wykryty przez model. Ma duże znaczenie tam, gdzie kluczowe jest wykrycie jak największej liczby przypadków (np. choroby w diagnostyce medycznej).

Metryka Definicja Typowy przypadek użycia
Accuracy (TP + TN) / (TP + TN + FP + FN) Problemy z równomiernym rozkładem klas
Precision TP / (TP + FP) Gdy błędna klasyfikacja pozytywna jest kosztowna
Recall TP / (TP + FN) Gdy ważne jest wykrycie jak największej liczby pozytywnych przypadków

Dla zilustrowania podstawowego użycia tych metryk, poniżej znajduje się przykładowy kod w Pythonie z użyciem biblioteki scikit-learn:

from sklearn.metrics import accuracy_score, precision_score, recall_score

y_true = [1, 0, 1, 1, 0, 1, 0]
y_pred = [1, 0, 1, 0, 0, 1, 1]

print("Accuracy:", accuracy_score(y_true, y_pred))
print("Precision:", precision_score(y_true, y_pred))
print("Recall:", recall_score(y_true, y_pred))

Dobór odpowiedniej metryki zależy od kontekstu problemu i konsekwencji błędnych predykcji. Każda z powyższych metryk może prowadzić do innych wniosków o skuteczności tego samego modelu.

Kiedy stosować którą metrykę – wpływ rozkładu danych i celów biznesowych

Dobór odpowiedniej metryki oceny modelu uczenia maszynowego ma kluczowe znaczenie dla właściwej interpretacji wyników i skutecznego podejmowania decyzji. Wybór ten zależy przede wszystkim od dwóch czynników: charakterystyki danych (np. ich rozkładu, obecności klas niezrównoważonych) oraz celów biznesowych (np. minimalizacja błędów, wykrywanie anomalii, optymalizacja konwersji).

Regresja vs klasyfikacja – różne cele, różne metryki

Dla problemów regresyjnych (np. przewidywanie ceny, czasu, ilości) najczęściej stosuje się metryki mierzące wielkość błędu, natomiast w klasyfikacji (np. rozpoznawanie spamu, diagnoza choroby) istotne jest poprawne przypisanie przykładów do właściwych klas, co wymaga innych narzędzi oceny.

Wpływ rozkładu danych

Rozkład danych może znacząco wpłynąć na wybór metryki. Przykładowo:

  • Niezrównoważone dane klasowe (np. 95% klasy negatywnej, 5% pozytywnej): Accuracy może być myląca, lepiej sprawdzą się precision, recall lub F1-score.
  • Obecność wartości odstających w regresji: RMSE będzie bardziej „wrażliwa” na duże błędy niż MAE.

Wpływ celów biznesowych

Wybór metryki powinien być zgodny z rzeczywistym celem biznesowym, np.:

Cel biznesowyPrzykładRekomendowana metryka
Minimalizacja dużych błędówPrognozowanie budżetuRMSE
Równa waga błędów małych i dużychSzacowanie zapotrzebowaniaMAE
Ograniczenie fałszywych alarmówSystem antyfraudowyPrecision
Wychwycenie każdego przypadkuWstępna diagnostyka choróbRecall
Ogólna skuteczność klasyfikacjiFiltrowanie spamuAccuracy lub F1-score

Przykład implementacji – klasyfikacja z niezrównoważonymi danymi

from sklearn.metrics import precision_score, recall_score, f1_score

# Przykladowe predykcje
y_true = [0, 0, 1, 1, 1, 0, 1, 0, 0, 0]
y_pred = [0, 0, 1, 0, 1, 0, 1, 0, 0, 0]

print("Precision:", precision_score(y_true, y_pred))
print("Recall:", recall_score(y_true, y_pred))
print("F1-score:", f1_score(y_true, y_pred))

Dobór metryki to nie tylko kwestia techniczna – to również decyzja strategiczna, która wpływa na sposób, w jaki model będzie oceniany i interpretowany w kontekście jego zastosowania w rzeczywistości biznesowej. Jeśli chcesz lepiej zrozumieć, jak właściwie dobierać metryki i budować skuteczne modele, zobacz Kurs Machine Learning dla programistów.

💡 Pro tip: Zacznij od zdefiniowania kosztów błędów i rozkładu danych: przy nierównowadze optymalizuj precision/recall/F1 zamiast accuracy, a w regresji z odstającymi rozważ MAE; gdy chcesz mocniej karać duże błędy, wybierz RMSE. Dobierz też próg decyzji pod metrykę, która najlepiej odzwierciedla cel biznesowy.

Pułapki związane z używaniem jednej metryki

Dobór właściwej metryki do oceny modelu uczenia maszynowego to kluczowy element skutecznej analizy. Używanie tylko jednej miary może prowadzić do błędnych wniosków na temat jakości modelu, szczególnie w bardziej złożonych przypadkach, gdzie jedna liczba nie oddaje pełnego obrazu działania algorytmu.

Poniżej przedstawiamy najczęstsze pułapki związane z opieraniem się wyłącznie na jednej metryce:

  • Ignorowanie kontekstu problemu: Metryka, która sprawdza się w jednym zastosowaniu, może być zupełnie nieprzydatna w innym. Przykładowo, accuracy w problemach klasyfikacji z niezrównoważonymi danymi może dawać złudzenie wysokiej skuteczności, mimo że model nie wykrywa istotnych przypadków.
  • Brak wglądu w błędy modelu: RMSE w regresji silnie karze duże błędy, ale nie pokazuje, czy są one systematyczne. Z kolei R² może być wysokie, mimo że model nie radzi sobie z prognozami dla kluczowych obserwacji.
  • Przecenianie jednej właściwości modelu: Precision i recall opisują różne aspekty skuteczności – skupienie się tylko na jednej z nich może prowadzić do mylnych decyzji. Na przykład, wysoka precision przy niskim recall oznacza, że model pomija większość pozytywnych przypadków.
  • Trudność w porównywaniu modeli: Dwa modele mogą mieć zbliżoną wartość accuracy, ale ich zachowanie względem innych metryk (np. recall lub F1-score) może się znacznie różnić. Wybór tylko jednej liczby utrudnia holistyczną ocenę.

Poniższa tabela ilustruje, jak stosowanie jednej metryki może prowadzić do mylących wniosków:

Problem Metryka Potencjalna pułapka
Klasyfikacja binarna z niezrównoważonymi klasami Accuracy Może być wysoka, mimo że model ignoruje klasę mniejszościową
Regresja z wartościami odstającymi RMSE Silnie obniża wynik przez kilka dużych błędów
Detekcja chorób Precision Wysoka precision nie kompensuje niskiego recall (model pomija chorych pacjentów)

W praktyce warto analizować zestaw metryk, a nie polegać na jednej liczbie. Dzięki temu można lepiej zrozumieć, jak działa model i jakie ma ograniczenia.

💡 Pro tip: Nie opieraj się na jednej liczbie — analizuj co najmniej dwie uzupełniające się metryki i macierz pomyłek, by zobaczyć strukturę błędów. Ustal priorytety (precision vs recall vs koszty) i porównuj modele wielowymiarowo.

Przykłady zastosowania metryk w praktyce

Dobór odpowiedniej metryki oceny modelu ma kluczowe znaczenie dla skuteczności rozwiązań opartych na uczeniu maszynowym. W praktyce różne metryki wykorzystuje się w zależności od charakterystyki problemu oraz oczekiwań biznesowych. Poniżej przedstawiono kilka typowych scenariuszy zastosowań metryk w rzeczywistych projektach.

  • Prognozowanie sprzedaży (regresja): W przypadku modeli przewidujących wartości liczbowe, takich jak prognozowanie miesięcznej sprzedaży, często korzysta się z metryk takich jak RMSE (Root Mean Squared Error) lub MAE (Mean Absolute Error). Pozwalają one określić, jak bardzo przewidywania odbiegają od rzeczywistych wyników.
  • Wykrywanie oszustw finansowych (klasyfikacja): W zastosowaniach, gdzie ważna jest identyfikacja rzadkich, ale istotnych przypadków (np. transakcji fraudowych), większe znaczenie zyskują metryki takie jak precision i recall, które pozwalają lepiej kontrolować liczbę fałszywych alarmów i przeoczonych przypadków.
  • Systemy rekomendacyjne: W przypadkach, w których model rekomenduje produkty lub treści, kluczowe może być zrozumienie nie tylko, czy rekomendacje są trafne (precision), ale również czy użytkownik miał szansę zobaczyć wszystkie istotne pozycje (recall).
  • Klasyfikacja obrazów medycznych: W diagnostyce medycznej, gdzie analiza obrazów służy do wykrywania chorób, niezwykle istotne jest minimalizowanie fałszywie negatywnych wyników. Dlatego recall często traktowany jest jako metryka krytyczna – zapewnia większą czułość modelu na przypadki chorobowe.
  • Ocena jakości predykcji cen nieruchomości: W analizach rynkowych, gdzie niezbędna jest dokładna predykcja cen mieszkań, stosuje się R² jako wskaźnik ogólnej siły dopasowania modelu do danych, co pomaga zrozumieć, jak dobrze model wyjaśnia zmienność cen.

Wybór metryki zależy więc nie tylko od rodzaju problemu (regresja lub klasyfikacja), ale także od konsekwencji błędów modelu w danym kontekście biznesowym czy społecznym.

💡 Pro tip: Dopasuj metrykę do konsekwencji błędu w danym scenariuszu (sprzedaż: RMSE/MAE, fraud/medycyna: recall/precision, rekomendacje: precision/recall, ceny: R²). Okresowo weryfikuj wybór metryki wraz ze zmianą danych i celów.

Podsumowanie i rekomendacje dotyczące wyboru metryk

Dobór odpowiedniej metryki oceny modelu uczenia maszynowego jest kluczowy dla właściwego zrozumienia jego skuteczności oraz podejmowania trafnych decyzji opartych na wynikach modelowania. W zależności od rodzaju problemu – regresyjnego lub klasyfikacyjnego – stosuje się różne metryki, które mierzą inne aspekty działania modelu.

W przypadku problemów regresji istotne jest, aby metryka odpowiednio odwzorowywała poziom błędu między przewidywaniami a rzeczywistymi wartościami. Z kolei w zadaniach klasyfikacyjnych kluczowe staje się nie tylko ogólne dopasowanie modelu, ale również równowaga między różnymi typami błędów, np. fałszywymi alarmami a przeoczonymi przypadkami.

Rekomendując wybór metryki, warto kierować się:

  • Charakterem problemu – czy przewidujemy liczby, czy klasy?
  • Rodzajem danych – czy dane są zrównoważone, czy występuje silna asymetria klas?
  • Celami biznesowymi – czy ważniejsze jest unikanie fałszywie pozytywnych wyników, czy może minimalizacja średniego błędu?

Nie istnieje jedna uniwersalna metryka, która byłaby odpowiednia w każdej sytuacji. Dlatego też zawsze warto rozważyć użycie kilku metryk jednocześnie oraz dostosować ich dobór do konkretnego kontekstu zastosowania modelu. W Cognity uczymy, jak skutecznie radzić sobie z podobnymi wyzwaniami – zarówno indywidualnie, jak i zespołowo.

Kurs Uczenie maszynowe z wykorzystaniem Pythona
ogólny
cena
od 3850 zł + VAT dla szkoleń otwartych
szkolenia zamknietę
Zapytaj o cenę dla szkoleń zamkniętych
Kurs Uczenie maszynowe z wykorzystaniem Pythona...
Kurs Machine Learning i sieci neuronowe
ogólny
cena
od 4560 zł + VAT dla szkoleń otwartych
szkolenia zamknietę
Zapytaj o cenę dla szkoleń zamkniętych
Kurs Machine Learning i sieci neuronowe...
Kurs Data Science: algorytmy, techniki i narzędzia
ogólny
cena
od 4560 zł + VAT dla szkoleń otwartych
szkolenia zamknietę
Zapytaj o cenę dla szkoleń zamkniętych
Kurs Data Science ...
icon

Formularz kontaktowyContact form

Imię *Name
NazwiskoSurname
Adres e-mail *E-mail address
Telefon *Phone number
UwagiComments