5 błędów w SPSS, przez które wyniki testów t, ANOVA i chi-kwadrat wychodzą „dziwnie”
Poznaj 5 częstych błędów w SPSS, przez które test t, ANOVA i chi-kwadrat dają mylące wyniki. Sprawdź założenia, kodowanie zmiennych, braki danych i zasady poprawnego raportowania wyników.
Dlaczego w SPSS test t-Studenta daje wyniki sprzeczne z intuicją i co sprawdzić jako pierwsze?
Najczęściej problem nie wynika z samego testu t-Studenta, tylko z tego, że SPSS porównuje grupy inaczej, niż użytkownik zakłada. Jeżeli wynik wydaje się „nielogiczny”, w pierwszej kolejności trzeba sprawdzić, która grupa została zakodowana jako pierwsza, a która jako druga, oraz w jakiej kolejności SPSS liczy różnicę średnich. W teście t dla prób niezależnych znak statystyki t i znak różnicy średnich zależą od kolejności grup. To oznacza, że wynik może być poprawny statystycznie, ale wyglądać odwrotnie do intuicji, jeśli użytkownik spodziewał się porównania w odwrotnym kierunku.
Druga rzecz to poprawność kodowania zmiennej grupującej. Jeśli grupy są oznaczone np. jako 1 i 2, ale użytkownik mylnie interpretuje, która liczba odpowiada której kategorii, łatwo wyciągnąć błędny wniosek o kierunku efektu. Warto więc porównać tabelę z liczebnościami i średnimi dla każdej grupy z rzeczywistym znaczeniem kodów w danych.
Trzeci częsty powód to obecność błędnie wprowadzonych danych: odwrócona skala, literówka w wartościach, pomylenie jednostek albo pojedyncze obserwacje odstające. Test t jest wrażliwy na średnie i odchylenia standardowe, więc kilka nietypowych rekordów może zmienić wynik bardziej, niż sugeruje intuicja oparta na pobieżnym przeglądzie danych.
Warto też upewnić się, że uruchomiono właściwy wariant analizy. Inny wynik da test dla prób niezależnych, a inny dla prób zależnych. Jeżeli dane mają charakter sparowany, a użyto testu dla grup niezależnych, rezultat może być trudny do interpretacji i sprawiać wrażenie błędnego.
Jako pierwsze należy więc sprawdzić definicję i kodowanie grup oraz kierunek porównania średnich. Dopiero potem ma sens analizowanie założeń testu, takich jak jednorodność wariancji czy rozkład zmiennej. W praktyce to właśnie błędna interpretacja kodów grup i znaku różnicy najczęściej odpowiada za wyniki, które w SPSS wydają się sprzeczne z intuicją.
Jakie założenia ANOVA najczęściej są łamane w SPSS i jak to szybko zweryfikować?
W praktyce najczęściej problem dotyczy nie samego uruchomienia ANOVA w SPSS, tylko naruszenia jej kluczowych założeń: normalności rozkładu reszt w grupach, jednorodności wariancji oraz obserwacji odstających. Rzadziej błędem jest też użycie ANOVA przy danych, które nie są niezależne, ale tego SPSS sam nie wykryje — to wynika z projektu badania.
Najłatwiej sprawdzić jednorodność wariancji w tabeli z testem Levene’a, dostępnej przy standardowej analizie ANOVA. Jeśli wynik testu jest istotny statystycznie, wariancje między grupami różnią się bardziej, niż zakłada model. To jeden z najczęstszych powodów „dziwnych” wyników, zwłaszcza gdy grupy mają bardzo różne liczebności.
Normalność warto oceniać nie tylko testem Shapiro-Wilka, ale też wykresem Q-Q i histogramem reszt lub wyników w grupach. Przy dużych próbach test normalności bywa nadwrażliwy i wykrywa drobne odchylenia bez większego znaczenia praktycznego. Przy małych próbach z kolei pojedyncze odchylenia lub asymetria mogą realnie zniekształcać wynik ANOVA.
Obserwacje odstające najlepiej szybko wychwycić przez boxplot dla grup. Pojedyncze skrajne przypadki potrafią silnie wpłynąć na średnią i wariancję, a przez to na cały wynik testu. Jeśli w jednej grupie widać kilka wartości wyraźnie odseparowanych od reszty, trzeba to sprawdzić przed interpretacją ANOVA.
- Jednorodność wariancji: sprawdź test Levene’a w wynikach ANOVA; istotny wynik sugeruje naruszenie założenia.
- Normalność: sprawdź Q-Q plot, histogram i ewentualnie Shapiro-Wilka osobno dla grup lub reszt.
- Odstające obserwacje: sprawdź boxplot dla każdej grupy.
- Niezależność obserwacji: oceń na poziomie projektu badania; SPSS tego automatycznie nie testuje.
Jeśli chcesz wykonać szybką kontrolę w SPSS, najpraktyczniejszy zestaw to: Levene + boxplot + Q-Q plot. To zwykle wystarcza, by wychwycić większość naruszeń, które później prowadzą do mylącej interpretacji wyniku ANOVA.
Kiedy test chi-kwadrat w SPSS jest niewłaściwy i co zrobić przy małych liczebnościach?
Test chi-kwadrat Pearsona w SPSS staje się niewłaściwy przede wszystkim wtedy, gdy oczekiwane liczebności w komórkach tabeli są zbyt małe. Problem nie dotyczy liczebności obserwowanych „na oko”, ale właśnie wartości oczekiwanych, czyli tych, które wynikają z założenia o braku związku między zmiennymi. Gdy komórki są zbyt rzadko obsadzone, rozkład statystyki chi-kwadrat jest słabym przybliżeniem i uzyskane p-value może być mylące.
W praktyce najczęściej stosuje się regułę: żadna oczekiwana liczebność nie powinna być mniejsza niż 1, a więcej niż 20% komórek nie powinno mieć oczekiwanej liczebności mniejszej niż 5. SPSS pokazuje to w tabeli z informacją o minimalnej oczekiwanej liczebności i odsetku komórek niespełniających warunku. Jeśli te kryteria są naruszone, zwykły test chi-kwadrat nie powinien być podstawą wnioskowania.
Najczęstsza przyczyna to zbyt mała próba albo zbyt szczegółowa tabela, na przykład wiele kategorii odpowiedzi przy niewielkiej liczbie przypadków. Wtedy część komórek ma bardzo mało obserwacji lub nawet zero, co osłabia wiarygodność wyniku.
- Dla tabel 2x2 zamiast klasycznego chi-kwadrat należy rozważyć dokładny test Fishera, który jest przeznaczony do małych liczebności.
- Dla większych tabel warto najpierw sprawdzić, czy da się połączyć rzadkie kategorie w sposób merytorycznie uzasadniony. Nie wolno robić tego mechanicznie tylko po to, by „poprawić” wynik.
- Jeśli połączenie kategorii nie ma sensu, lepszym rozwiązaniem bywa zastosowanie testu dokładnego dostępnego w odpowiednich procedurach SPSS albo zwiększenie liczebności próby, jeśli to jeszcze możliwe.
- Nie należy interpretować wyniku mimo naruszonych założeń tak, jakby test był w pełni poprawny, bo ryzyko błędnych wniosków jest wtedy realne.
W skrócie: test chi-kwadrat w SPSS jest niewłaściwy wtedy, gdy tabela jest zbyt „pusta” z punktu widzenia oczekiwanych liczebności. W takiej sytuacji trzeba albo użyć testu dokładnego, albo sensownie scalić kategorie, a nie opierać się bezkrytycznie na standardowym wyniku chi-kwadrat.
Jak błędne kodowanie zmiennych i brakujące dane psują wyniki testów w SPSS?
Błędne kodowanie zmiennych i nieprawidłowo obsłużone braki danych mogą zniekształcić wyniki testów w SPSS już na etapie przygotowania danych, zanim sam test zostanie policzony. Problem polega na tym, że program analizuje dane dokładnie tak, jak zostały zapisane. Jeśli zmienna ma zły typ, złą definicję wartości albo błędnie oznaczone braki, SPSS może włączyć do obliczeń przypadki, które powinny być pominięte, albo odwrotnie — usunąć poprawne obserwacje.
Najczęstszy błąd dotyczy kodów używanych zamiast rzeczywistych odpowiedzi. Przykładowo, wartość 999, 99 albo -1 bywa wpisywana jako brak danych, ale jeśli nie zostanie zdefiniowana jako missing, SPSS potraktuje ją jak normalny wynik. W testach t i ANOVA zawyża to lub zaniża średnie, zwiększa odchylenie standardowe i może sztucznie zmienić istotność statystyczną. W teście chi-kwadrat taki kod może utworzyć dodatkową kategorię i całkowicie zmienić rozkład liczebności w tabeli.
Drugi problem to błędne kodowanie zmiennych kategorialnych. Jeżeli grupy są zakodowane niespójnie, na przykład część rekordów ma 1 i 2, a część 0 i 1, albo pojawiają się literówki w zmiennych tekstowych, SPSS potraktuje je jako różne kategorie. W efekcie liczebności grup będą niepoprawne, a test może zostać wykonany na innych podgrupach niż zamierzone. To szczególnie groźne przy ANOVA i chi-kwadrat, gdzie poprawny podział na kategorie jest kluczowy.
Znaczenie ma też ustawienie poziomu pomiaru i rodzaju zmiennej. Jeśli zmienna liczbowa została zapisana jako tekst, część procedur może jej nie uwzględnić albo wymusić niewłaściwe przetwarzanie. Jeśli zmienna porządkowa lub nominalna zostanie potraktowana jak skala, łatwo użyć testu nieadekwatnego do danych. Sam wynik może wyglądać formalnie poprawnie, ale będzie oparty na błędnym założeniu co do charakteru zmiennej.
Brakujące dane psują wyniki także przez zmianę liczebności analizowanej próby. SPSS w wielu procedurach domyślnie usuwa przypadki z brakami dla zmiennych użytych w danym teście. To oznacza, że rzeczywista liczba obserwacji może być dużo mniejsza niż liczba w zbiorze. Skutkiem bywa spadek mocy testu, niestabilne estymacje i wyniki różniące się między analizami tylko dlatego, że każda z nich opiera się na nieco innym podzbiorze przypadków.
Żeby uniknąć tych zniekształceń, trzeba przed analizą sprawdzić, czy kody braków są zdefiniowane jako brakujące, czy kategorie są zapisane jednolicie, czy zmienne mają właściwy typ oraz czy liczebności i zakresy wartości są logiczne. W praktyce wiele „dziwnych” wyników testów w SPSS wynika nie z samej statystyki, lecz z tego, że program dostał źle przygotowane dane wejściowe.
Jak poprawnie raportować istotność, przedziały ufności i wielkość efektu z SPSS?
Poprawne raportowanie wyników z SPSS powinno obejmować trzy odrębne elementy: wartość statystyki testowej z odpowiednimi stopniami swobody, poziom istotności p oraz wielkość efektu i, jeśli to możliwe, przedział ufności. Samo „p < 0,05” nie wystarcza, bo informuje tylko o zgodności danych z hipotezą zerową, a nie o sile ani precyzji efektu.
Wartość p najlepiej podawać w formie dokładnej, na przykład p = 0,032, zamiast ograniczać się do p < 0,05. Wyjątkiem są bardzo małe wartości, które zwykle zapisuje się jako p < 0,001, a nie p = 0,000, nawet jeśli tak pokazuje SPSS. Należy też podawać pełny wynik testu, na przykład dla testu t: t(48) = 2,21, p = 0,032, dla ANOVA: F(2, 57) = 4,86, p = 0,011, a dla chi-kwadrat: χ²(1) = 6,14, p = 0,013.
Przedział ufności pokazuje, w jakim zakresie z określonym poziomem ufności, najczęściej 95%, mieści się oszacowany efekt. W SPSS najczęściej pojawia się on bezpośrednio przy różnicy średnich, współczynniku regresji albo ilorazie szans, zależnie od procedury. Raportując wynik, warto zapisać nie tylko samą różnicę, ale też jej 95% przedział ufności, na przykład: różnica średnich = 3,4; 95% PU [0,3; 6,5]. Taki zapis jest bardziej informacyjny niż samo p, bo pokazuje zarówno kierunek efektu, jak i jego precyzję. Jeżeli przedział dla różnicy średnich nie obejmuje zera, a dla ilorazu szans nie obejmuje jedności, wynik jest zgodny z istotnością na poziomie 0,05.
Wielkość efektu jest konieczna, bo mówi, czy efekt jest praktycznie mały, umiarkowany czy duży. W zależności od testu raportuje się różne miary. Dla testu t zwykle stosuje się Cohen’s d, dla ANOVA najczęściej eta kwadrat lub częściowe eta kwadrat, a dla testu chi-kwadrat phi albo V Craméra. Trzeba przy tym uważać, bo SPSS nie zawsze pokazuje te miary automatycznie w podstawowym wyniku. Jeśli program podaje tylko statystykę testową i p, to wielkość efektu trzeba obliczyć osobno lub uzyskać z odpowiedniej procedury dodatkowej. Nie należy udawać, że istotność statystyczna zastępuje wielkość efektu, bo są to różne informacje.
W praktyce poprawny zapis powinien więc łączyć te elementy w jednym zdaniu, na przykład: Grupa A uzyskała wyższy wynik niż grupa B, t(48) = 2,21, p = 0,032, d = 0,63, 95% PU dla różnicy [0,3; 6,5]. Dla ANOVA można zapisać: Stwierdzono efekt grupy, F(2, 57) = 4,86, p = 0,011, η² = 0,15. Dla chi-kwadrat: Zależność była istotna, χ²(1) = 6,14, p = 0,013, V = 0,28. Kluczowe jest to, by nie raportować wyłącznie p, nie przepisywać bezrefleksyjnie tabel z SPSS i nie mylić wyniku testu z miarą siły efektu.
Jeśli SPSS pokazuje kilka wersji wyniku, należy wybrać tę zgodną z zastosowaną procedurą i założeniami testu. Przykładowo przy teście t dla prób niezależnych nie raportuje się jednocześnie obu wierszy z założoną i niezałożoną równością wariancji, tylko ten właściwy. Analogicznie przedział ufności i wielkość efektu powinny odnosić się dokładnie do tego samego porównania lub modelu, który opisuje raportowany test.