📊 RMSE, MAE, R2, Accuracy – Jak dobrać metrykę do modelu? 🤔

Poziom: Średnio zaawansowany

Artykuł przeznaczony dla osób uczących się uczenia maszynowego oraz praktyków analizy danych, którzy chcą świadomie dobierać i interpretować metryki oceny modeli w regresji i klasyfikacji.

Z tego artykułu dowiesz się

Czym różnią się problemy regresji i klasyfikacji oraz jak wpływa to na dobór metryk oceny modeli?
Jak interpretować metryki RMSE, MAE i R² w zadaniach regresyjnych oraz kiedy warto użyć każdej z nich?
Kiedy accuracy, precision i recall mogą wprowadzać w błąd i jak dobierać metryki do rozkładu danych oraz celów biznesowych?

Wprowadzenie do metryk oceny modeli uczenia maszynowego

Ocena jakości modelu uczenia maszynowego to jeden z kluczowych etapów w procesie tworzenia rozwiązań opartych na danych. Niezależnie od tego, czy model przewiduje ceny mieszkań, czy klasyfikuje wiadomości jako spam, konieczne jest mierzenie jego skuteczności przy pomocy odpowiednich metryk. Wybór właściwej metryki ma bezpośredni wpływ na sposób interpretacji wyników oraz podejmowanie dalszych decyzji dotyczących modelowania.

W praktyce używa się różnych metryk w zależności od rodzaju problemu, nad którym pracujemy. W przypadku problemów regresyjnych – gdzie przewidujemy wartości liczbowe – stosuje się inne miary niż w problemach klasyfikacyjnych, gdzie celem jest przypisanie danych do jednej z kilku kategorii.

Dobrze dobrana metryka pozwala nie tylko ocenić trafność modelu, ale także wychwycić jego słabości, takie jak nadmierne upraszczanie danych (underfitting) lub zbytnie dopasowanie do danych uczących (overfitting). W zależności od charakterystyki danych, kontekstu biznesowego oraz oczekiwanego rezultatu, niektóre metryki mogą dostarczać bardziej użytecznych informacji niż inne.

Wśród najczęściej stosowanych metryk znajdują się między innymi:

RMSE i MAE – używane do mierzenia błędów w modelach regresyjnych,
R² – pokazujący, jak dobrze model wyjaśnia zmienność danych,
Accuracy, Precision i Recall – powszechnie stosowane przy klasyfikacji danych.

Rozumienie, czym różnią się te metryki i w jakich sytuacjach warto je stosować, pomaga w lepszym wykorzystaniu modeli uczenia maszynowego oraz unikaniu błędnych wniosków wynikających z niewłaściwej interpretacji wyników.

Różnice między problemami regresji a klasyfikacji

W uczeniu maszynowym rozróżniamy dwa główne typy problemów: regresję i klasyfikację. Każdy z nich dotyczy innego rodzaju przewidywań i wymaga zastosowania odpowiednich metryk oceny skuteczności modelu. Temat tego artykułu pojawia się w niemal każdej sesji szkoleniowej Cognity – czasem w formie pytania, czasem w formie frustracji, dlatego przybliżamy go również tutaj.

Regresja dotyczy problemów, w których model przewiduje wartości liczbowe. Przykładem może być prognozowanie cen nieruchomości, przewidywanie temperatury czy szacowanie popytu na produkt. Wynik modelu regresyjnego to zazwyczaj liczba rzeczywista, co oznacza, że różnice między przewidywaniami a rzeczywistymi wartościami można mierzyć za pomocą miar ilościowych.

Klasyfikacja odnosi się do problemów, w których model przypisuje dane wejściowe do jednej z predefiniowanych kategorii. Przykłady obejmują rozpoznawanie spamu w wiadomościach e-mail, diagnozowanie chorób na podstawie objawów czy identyfikację gatunku rośliny. W tym przypadku wynik modelu to najczęściej etykieta klasy, a skuteczność ocenia się na podstawie zgodności tych etykiet z rzeczywistością.

Podstawowa różnica polega więc na tym, że regresja przewiduje wartości ciągłe, natomiast klasyfikacja – kategorie dyskretne. Ta różnica determinuje wybór odpowiednich metryk do oceny jakości działania modelu, co ma kluczowe znaczenie przy analizie wyników i podejmowaniu decyzji na podstawie predykcji.

Przegląd metryk dla regresji: RMSE, MAE, R²

W problemach regresyjnych, gdzie celem modelu jest przewidzenie wartości liczbowej (np. ceny, temperatury, popytu), stosuje się inne metryki niż w klasyfikacji. Do najczęściej używanych należą: RMSE (Root Mean Squared Error), MAE (Mean Absolute Error) oraz R² (współczynnik determinacji). Każda z nich mierzy jakość predykcji w inny sposób i ma swoje unikalne zastosowania. Jeśli chcesz dowiedzieć się więcej o praktycznym wykorzystaniu tych oraz innych metryk w modelach uczenia maszynowego, sprawdź Kurs Machine Learning i Deep Learning w języku Python – modelowanie, optymalizacja, analiza danych.

RMSE – wyraża średnią różnicę kwadratową między wartościami przewidywanymi a rzeczywistymi. Kładzie większy nacisk na większe błędy, przez co jest czuła na obserwacje odstające.
MAE – mierzy średnią bezwzględną różnicę między przewidywaniami a obserwacjami. Jest bardziej odporna na pojedyncze duże błędy niż RMSE.
R² – informuje, jaka część zmienności danych została wyjaśniona przez model. Przyjmuje wartości od 0 do 1 (czasem może być ujemny), gdzie wyższe wartości sugerują lepsze dopasowanie modelu.

Poniższa tabela przedstawia syntetyczne porównanie tych metryk:

Metryka	Typ błędu	Odporność na wartości odstające	Interpretacja
RMSE	Średni błąd kwadratowy (pierwiastek)	Niska	Im niższa wartość, tym lepiej
MAE	Średni błąd bezwzględny	Wysoka	Im niższa wartość, tym lepiej
R²	Proporcja wyjaśnionej wariancji	Nie dotyczy	Im bliżej 1, tym lepiej

Dla ilustracji, poniższy przykład w Pythonie pokazuje sposób obliczenia tych trzech metryk przy użyciu biblioteki scikit-learn:

from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np

# Przykładowe wartości rzeczywiste i przewidziane
y_true = [3.0, -0.5, 2.0, 7.0]
y_pred = [2.5, 0.0, 2.1, 7.8]

rmse = np.sqrt(mean_squared_error(y_true, y_pred))
mae = mean_absolute_error(y_true, y_pred)
r2 = r2_score(y_true, y_pred)

print(f"RMSE: {rmse:.2f}")
print(f"MAE: {mae:.2f}")
print(f"R²: {r2:.2f}")

Wybór odpowiedniej metryki zależy od charakterystyki danych i tego, na jakiego rodzaju błędach najbardziej nam zależy. W kolejnych sekcjach zostanie to omówione bardziej szczegółowo.

Przegląd metryk dla klasyfikacji: accuracy, precision, recall

W problemach klasyfikacyjnych, gdzie model ma przypisać dane wejściowe do jednej z kilku kategorii, stosuje się inne metryki niż w regresji. Trzy z najczęściej wykorzystywanych to accuracy (dokładność), precision (precyzja) i recall (czułość), każda z nich oferująca inny punkt widzenia na skuteczność modelu. W czasie szkoleń Cognity ten temat bardzo często budzi ożywione dyskusje między uczestnikami.

Accuracy to najbardziej intuicyjna metryka: mierzy odsetek poprawnie sklasyfikowanych przykładów względem całej populacji. Choć użyteczna, może być myląca w przypadku niezbalansowanych danych (np. gdy jedna klasa dominuje w zbiorze).

Precision informuje nas, jaki procent przykładów zaklasyfikowanych przez model do danej klasy faktycznie do niej należy. Jest szczególnie istotna, gdy koszt fałszywie pozytywnych wyników jest wysoki (np. przy wykrywaniu spamu).

Recall, z kolei, pokazuje, jak duży odsetek rzeczywistych przypadków danej klasy został poprawnie wykryty przez model. Ma duże znaczenie tam, gdzie kluczowe jest wykrycie jak największej liczby przypadków (np. choroby w diagnostyce medycznej).

Metryka	Definicja	Typowy przypadek użycia
Accuracy	(TP + TN) / (TP + TN + FP + FN)	Problemy z równomiernym rozkładem klas
Precision	TP / (TP + FP)	Gdy błędna klasyfikacja pozytywna jest kosztowna
Recall	TP / (TP + FN)	Gdy ważne jest wykrycie jak największej liczby pozytywnych przypadków

Dla zilustrowania podstawowego użycia tych metryk, poniżej znajduje się przykładowy kod w Pythonie z użyciem biblioteki scikit-learn:

from sklearn.metrics import accuracy_score, precision_score, recall_score

y_true = [1, 0, 1, 1, 0, 1, 0]
y_pred = [1, 0, 1, 0, 0, 1, 1]

print("Accuracy:", accuracy_score(y_true, y_pred))
print("Precision:", precision_score(y_true, y_pred))
print("Recall:", recall_score(y_true, y_pred))

Dobór odpowiedniej metryki zależy od kontekstu problemu i konsekwencji błędnych predykcji. Każda z powyższych metryk może prowadzić do innych wniosków o skuteczności tego samego modelu.

Kiedy stosować którą metrykę – wpływ rozkładu danych i celów biznesowych

Dobór odpowiedniej metryki oceny modelu uczenia maszynowego ma kluczowe znaczenie dla właściwej interpretacji wyników i skutecznego podejmowania decyzji. Wybór ten zależy przede wszystkim od dwóch czynników: charakterystyki danych (np. ich rozkładu, obecności klas niezrównoważonych) oraz celów biznesowych (np. minimalizacja błędów, wykrywanie anomalii, optymalizacja konwersji).

Regresja vs klasyfikacja – różne cele, różne metryki

Dla problemów regresyjnych (np. przewidywanie ceny, czasu, ilości) najczęściej stosuje się metryki mierzące wielkość błędu, natomiast w klasyfikacji (np. rozpoznawanie spamu, diagnoza choroby) istotne jest poprawne przypisanie przykładów do właściwych klas, co wymaga innych narzędzi oceny.

Wpływ rozkładu danych

Rozkład danych może znacząco wpłynąć na wybór metryki. Przykładowo:

Niezrównoważone dane klasowe (np. 95% klasy negatywnej, 5% pozytywnej): Accuracy może być myląca, lepiej sprawdzą się precision, recall lub F1-score.
Obecność wartości odstających w regresji: RMSE będzie bardziej „wrażliwa” na duże błędy niż MAE.

Wpływ celów biznesowych

Wybór metryki powinien być zgodny z rzeczywistym celem biznesowym, np.:

Cel biznesowy	Przykład	Rekomendowana metryka
Minimalizacja dużych błędów	Prognozowanie budżetu	RMSE
Równa waga błędów małych i dużych	Szacowanie zapotrzebowania	MAE
Ograniczenie fałszywych alarmów	System antyfraudowy	Precision
Wychwycenie każdego przypadku	Wstępna diagnostyka chorób	Recall
Ogólna skuteczność klasyfikacji	Filtrowanie spamu	Accuracy lub F1-score

Przykład implementacji – klasyfikacja z niezrównoważonymi danymi

from sklearn.metrics import precision_score, recall_score, f1_score

# Przykladowe predykcje
y_true = [0, 0, 1, 1, 1, 0, 1, 0, 0, 0]
y_pred = [0, 0, 1, 0, 1, 0, 1, 0, 0, 0]

print("Precision:", precision_score(y_true, y_pred))
print("Recall:", recall_score(y_true, y_pred))
print("F1-score:", f1_score(y_true, y_pred))

Dobór metryki to nie tylko kwestia techniczna – to również decyzja strategiczna, która wpływa na sposób, w jaki model będzie oceniany i interpretowany w kontekście jego zastosowania w rzeczywistości biznesowej. Jeśli chcesz lepiej zrozumieć, jak właściwie dobierać metryki i budować skuteczne modele, zobacz Kurs Machine Learning dla programistów.

💡 Pro tip: Zacznij od zdefiniowania kosztów błędów i rozkładu danych: przy nierównowadze optymalizuj precision/recall/F1 zamiast accuracy, a w regresji z odstającymi rozważ MAE; gdy chcesz mocniej karać duże błędy, wybierz RMSE. Dobierz też próg decyzji pod metrykę, która najlepiej odzwierciedla cel biznesowy.

Pułapki związane z używaniem jednej metryki

Dobór właściwej metryki do oceny modelu uczenia maszynowego to kluczowy element skutecznej analizy. Używanie tylko jednej miary może prowadzić do błędnych wniosków na temat jakości modelu, szczególnie w bardziej złożonych przypadkach, gdzie jedna liczba nie oddaje pełnego obrazu działania algorytmu.

Poniżej przedstawiamy najczęstsze pułapki związane z opieraniem się wyłącznie na jednej metryce:

Ignorowanie kontekstu problemu: Metryka, która sprawdza się w jednym zastosowaniu, może być zupełnie nieprzydatna w innym. Przykładowo, accuracy w problemach klasyfikacji z niezrównoważonymi danymi może dawać złudzenie wysokiej skuteczności, mimo że model nie wykrywa istotnych przypadków.
Brak wglądu w błędy modelu: RMSE w regresji silnie karze duże błędy, ale nie pokazuje, czy są one systematyczne. Z kolei R² może być wysokie, mimo że model nie radzi sobie z prognozami dla kluczowych obserwacji.
Przecenianie jednej właściwości modelu: Precision i recall opisują różne aspekty skuteczności – skupienie się tylko na jednej z nich może prowadzić do mylnych decyzji. Na przykład, wysoka precision przy niskim recall oznacza, że model pomija większość pozytywnych przypadków.
Trudność w porównywaniu modeli: Dwa modele mogą mieć zbliżoną wartość accuracy, ale ich zachowanie względem innych metryk (np. recall lub F1-score) może się znacznie różnić. Wybór tylko jednej liczby utrudnia holistyczną ocenę.

Poniższa tabela ilustruje, jak stosowanie jednej metryki może prowadzić do mylących wniosków:

Problem	Metryka	Potencjalna pułapka
Klasyfikacja binarna z niezrównoważonymi klasami	Accuracy	Może być wysoka, mimo że model ignoruje klasę mniejszościową
Regresja z wartościami odstającymi	RMSE	Silnie obniża wynik przez kilka dużych błędów
Detekcja chorób	Precision	Wysoka precision nie kompensuje niskiego recall (model pomija chorych pacjentów)

W praktyce warto analizować zestaw metryk, a nie polegać na jednej liczbie. Dzięki temu można lepiej zrozumieć, jak działa model i jakie ma ograniczenia.

💡 Pro tip: Nie opieraj się na jednej liczbie — analizuj co najmniej dwie uzupełniające się metryki i macierz pomyłek, by zobaczyć strukturę błędów. Ustal priorytety (precision vs recall vs koszty) i porównuj modele wielowymiarowo.

Przykłady zastosowania metryk w praktyce

Dobór odpowiedniej metryki oceny modelu ma kluczowe znaczenie dla skuteczności rozwiązań opartych na uczeniu maszynowym. W praktyce różne metryki wykorzystuje się w zależności od charakterystyki problemu oraz oczekiwań biznesowych. Poniżej przedstawiono kilka typowych scenariuszy zastosowań metryk w rzeczywistych projektach.

Prognozowanie sprzedaży (regresja): W przypadku modeli przewidujących wartości liczbowe, takich jak prognozowanie miesięcznej sprzedaży, często korzysta się z metryk takich jak RMSE (Root Mean Squared Error) lub MAE (Mean Absolute Error). Pozwalają one określić, jak bardzo przewidywania odbiegają od rzeczywistych wyników.
Wykrywanie oszustw finansowych (klasyfikacja): W zastosowaniach, gdzie ważna jest identyfikacja rzadkich, ale istotnych przypadków (np. transakcji fraudowych), większe znaczenie zyskują metryki takie jak precision i recall, które pozwalają lepiej kontrolować liczbę fałszywych alarmów i przeoczonych przypadków.
Systemy rekomendacyjne: W przypadkach, w których model rekomenduje produkty lub treści, kluczowe może być zrozumienie nie tylko, czy rekomendacje są trafne (precision), ale również czy użytkownik miał szansę zobaczyć wszystkie istotne pozycje (recall).
Klasyfikacja obrazów medycznych: W diagnostyce medycznej, gdzie analiza obrazów służy do wykrywania chorób, niezwykle istotne jest minimalizowanie fałszywie negatywnych wyników. Dlatego recall często traktowany jest jako metryka krytyczna – zapewnia większą czułość modelu na przypadki chorobowe.
Ocena jakości predykcji cen nieruchomości: W analizach rynkowych, gdzie niezbędna jest dokładna predykcja cen mieszkań, stosuje się R² jako wskaźnik ogólnej siły dopasowania modelu do danych, co pomaga zrozumieć, jak dobrze model wyjaśnia zmienność cen.

Wybór metryki zależy więc nie tylko od rodzaju problemu (regresja lub klasyfikacja), ale także od konsekwencji błędów modelu w danym kontekście biznesowym czy społecznym.

💡 Pro tip: Dopasuj metrykę do konsekwencji błędu w danym scenariuszu (sprzedaż: RMSE/MAE, fraud/medycyna: recall/precision, rekomendacje: precision/recall, ceny: R²). Okresowo weryfikuj wybór metryki wraz ze zmianą danych i celów.

Podsumowanie i rekomendacje dotyczące wyboru metryk

Dobór odpowiedniej metryki oceny modelu uczenia maszynowego jest kluczowy dla właściwego zrozumienia jego skuteczności oraz podejmowania trafnych decyzji opartych na wynikach modelowania. W zależności od rodzaju problemu – regresyjnego lub klasyfikacyjnego – stosuje się różne metryki, które mierzą inne aspekty działania modelu.

W przypadku problemów regresji istotne jest, aby metryka odpowiednio odwzorowywała poziom błędu między przewidywaniami a rzeczywistymi wartościami. Z kolei w zadaniach klasyfikacyjnych kluczowe staje się nie tylko ogólne dopasowanie modelu, ale również równowaga między różnymi typami błędów, np. fałszywymi alarmami a przeoczonymi przypadkami.

Rekomendując wybór metryki, warto kierować się:

Charakterem problemu – czy przewidujemy liczby, czy klasy?
Rodzajem danych – czy dane są zrównoważone, czy występuje silna asymetria klas?
Celami biznesowymi – czy ważniejsze jest unikanie fałszywie pozytywnych wyników, czy może minimalizacja średniego błędu?

Nie istnieje jedna uniwersalna metryka, która byłaby odpowiednia w każdej sytuacji. Dlatego też zawsze warto rozważyć użycie kilku metryk jednocześnie oraz dostosować ich dobór do konkretnego kontekstu zastosowania modelu. W Cognity uczymy, jak skutecznie radzić sobie z podobnymi wyzwaniami – zarówno indywidualnie, jak i zespołowo.

Formatowanie danych 21 października 2025

Microsoft Excel – przypomnienie 19 października 2025

ogólny

od 3850 zł + VAT dla szkoleń otwartych

Zapytaj o cenę dla szkoleń zamkniętych

Kurs Uczenie maszynowe z wykorzystaniem Pythona...

Zobacz szczegóły szkolenia

ogólny

od 4560 zł + VAT dla szkoleń otwartych

Zapytaj o cenę dla szkoleń zamkniętych

Kurs Machine Learning i sieci neuronowe...

Zobacz szczegóły szkolenia

ogólny

od 4560 zł + VAT dla szkoleń otwartych

Zapytaj o cenę dla szkoleń zamkniętych

Kurs Data Science ...

Zobacz szczegóły szkolenia

Inne teksty z tej kategorii

Algorytmy i metody AI – aspekty techniczne i prawne 04 września 2025 Mózg agenta AI: jak działa LLM, RAG i warstwa zarządzająca? 02 lipca 2025 Ile kosztuje stworzenie agenta AI? 21 lipca 2025 Zastosowanie AI w budownictwie – od projektowania po utrzymanie obiektów 25 grudnia 2025

RMSE, MAE, R², accuracy, precision i recall – jak dobrać właściwą metrykę do modelu?

Z tego artykułu dowiesz się

Wprowadzenie do metryk oceny modeli uczenia maszynowego

Różnice między problemami regresji a klasyfikacji

Przegląd metryk dla regresji: RMSE, MAE, R²

Przegląd metryk dla klasyfikacji: accuracy, precision, recall

Kiedy stosować którą metrykę – wpływ rozkładu danych i celów biznesowych

Regresja vs klasyfikacja – różne cele, różne metryki

Wpływ rozkładu danych

Wpływ celów biznesowych

Przykład implementacji – klasyfikacja z niezrównoważonymi danymi

Pułapki związane z używaniem jednej metryki

Przykłady zastosowania metryk w praktyce

Podsumowanie i rekomendacje dotyczące wyboru metryk

Inne teksty z tej kategorii

Formularz kontaktowyContact form

RMSE, MAE, R², accuracy, precision i recall – jak dobrać właściwą metrykę do modelu?

Z tego artykułu dowiesz się

Wprowadzenie do metryk oceny modeli uczenia maszynowego

Różnice między problemami regresji a klasyfikacji

Przegląd metryk dla regresji: RMSE, MAE, R²

Przegląd metryk dla klasyfikacji: accuracy, precision, recall

Kiedy stosować którą metrykę – wpływ rozkładu danych i celów biznesowych

Regresja vs klasyfikacja – różne cele, różne metryki

Wpływ rozkładu danych

Wpływ celów biznesowych

Przykład implementacji – klasyfikacja z niezrównoważonymi danymi

Pułapki związane z używaniem jednej metryki

Przykłady zastosowania metryk w praktyce

Podsumowanie i rekomendacje dotyczące wyboru metryk

Inne teksty z tej kategorii

Podziel się tym tekstem

Trzymaj rękę na pulsie!

Formularz kontaktowyContact form