📊 Indeksy w T-SQL: Clustered vs Nonclustered

Wprowadzenie do indeksów w T-SQL

Indeksy w T-SQL pełnią kluczową rolę w zapewnianiu wydajnego dostępu do danych przechowywanych w bazach Microsoft SQL Server. Ich głównym celem jest przyspieszenie operacji odczytu — zapytań SELECT — poprzez ograniczenie liczby wierszy, które muszą zostać przeszukane w tabeli. Dobrze zaprojektowane indeksy mogą znacząco poprawić wydajność aplikacji, podczas gdy źle dobrane lub nadmiarowe mogą prowadzić do przeciążenia systemu i wolniejszego działania.

W SQL Server dostępne są różne rodzaje indeksów, spośród których najczęściej spotykane to indeksy CLUSTERED i indeksy NONCLUSTERED. Choć oba typy mają na celu przyspieszenie dostępu do danych, różnią się sposobem organizacji i przechowywania informacji.

Indeks CLUSTERED definiuje fizyczny sposób uporządkowania danych w tabeli. Oznacza to, że dane w tabeli są przechowywane na dysku dokładnie w takiej kolejności, jaką określa ten indeks. W praktyce każda tabela może mieć tylko jeden indeks typu CLUSTERED.
Indeks NONCLUSTERED to oddzielna struktura od danych tabeli, która zawiera kopie wybranych kolumn oraz wskaźniki prowadzące do rzeczywistych danych. Tabela może zawierać wiele indeksów NONCLUSTERED.

Wybór odpowiedniego rodzaju indeksu zależy od wielu czynników, takich jak typ wykonywanych zapytań, częstotliwość operacji modyfikujących dane oraz charakterystyka danych w tabeli. Właściwe zastosowanie CLUSTERED i NONCLUSTERED indeksów może przynieść znaczne korzyści wydajnościowe, jednak wymaga zrozumienia ich działania i wpływu na procesy bazodanowe.

Czym jest indeks CLUSTERED i jak działa

Indeks CLUSTERED to podstawowy typ indeksu w SQL Server, w którym dane w tabeli są fizycznie uporządkowane według klucza indeksu. Oznacza to, że kolejność przechowywania danych na dysku odpowiada kolejności wartości klucza indeksu klastrowego. W praktyce tabela posiadająca indeks CLUSTERED jest jednocześnie strukturą samego indeksu – dane są częścią tego indeksu.

Ze względu na swoją specyfikę, każda tabela może mieć tylko jeden indeks klastrowy. Jego zastosowanie ma kluczowe znaczenie w przypadku operacji sortujących, wyszukiwania zakresowego lub częstego dostępu do danych według głównego klucza sortowania. Najczęściej indeks CLUSTERED tworzy się na kolumnach unikalnych i często używanych w filtrach, np. na identyfikatorach rekordów.

Warto jednak pamiętać, że nie zawsze indeks klastrowy jest optymalnym wyborem. W niektórych przypadkach jego obecność może spowalniać operacje modyfikujące dane, zwłaszcza gdy dane są często aktualizowane lub wstawiane w losowej kolejności względem indeksu. W takich sytuacjach konieczne bywa rozważenie alternatywnych rozwiązań, takich jak indeksy nieklastrowe. Temat tego artykułu pojawia się w niemal każdej sesji szkoleniowej Cognity – czasem w formie pytania, czasem w formie frustracji.

Charakterystyka indeksu NONCLUSTERED

Indeks NONCLUSTERED to jeden z dwóch podstawowych typów indeksów w systemie SQL Server. Różni się od indeksu CLUSTERED przede wszystkim tym, że nie determinuje fizycznej kolejności przechowywania danych w tabeli. Zamiast tego tworzy odrębną strukturę przechowującą klucze indeksu oraz wskaźniki do właściwych wierszy danych.

Indeksy NONCLUSTERED są szczególnie przydatne w scenariuszach, gdzie często występują operacje wyszukiwania po kolumnach niebędących częścią indeksu CLUSTERED, lub gdy chcemy zoptymalizować zapytania wykorzystujące różne kryteria filtrujące.

Cecha	CLUSTERED	NONCLUSTERED
Fizyczna kolejność danych	Tak (porządkuje dane na dysku)	Nie (oddzielna struktura)
Liczba w tabeli	Jeden	Wiele
Typowy scenariusz	Wyszukiwanie po kluczu głównym	Filtrowanie, sortowanie, dostęp do konkretnych kolumn

Struktura indeksu NONCLUSTERED przypomina drzewo B+, w którym liście zawierają wartości klucza oraz wskaźniki do odpowiednich wierszy danych. Dla tabel z indeksem CLUSTERED, wskaźniki te to klucze klastra, natomiast w przypadku tzw. heapów – wskaźniki do fizycznych lokalizacji (RID).

Przykład utworzenia prostego indeksu NONCLUSTERED:

CREATE NONCLUSTERED INDEX IX_Customers_LastName
ON Customers (LastName);

Dzięki elastyczności, indeksy NONCLUSTERED można rozszerzać o dodatkowe kolumny (poprzez klauzulę INCLUDE), stosować jako indeksy unikalne lub filtrowane, a także dynamicznie dopasowywać do zmieniających się potrzeb aplikacji. Jeśli chcesz lepiej zrozumieć działanie indeksów i innych mechanizmów T-SQL od podstaw, polecamy Kurs SQL Server - tworzenie skryptów, zapytań i poleceń w T-SQL - poziom od podstaw.

Zastosowania i ograniczenia indeksów CLUSTERED

Indeks CLUSTERED w SQL Server pełni szczególną rolę, ponieważ determinuje fizyczny sposób przechowywania danych w tabeli. Każda tabela może mieć tylko jeden indeks typu CLUSTERED, ponieważ dane mogą być posortowane według tylko jednej kolejności fizycznej. To sprawia, że jego zaprojektowanie ma kluczowe znaczenie dla ogólnej wydajności bazy danych. Na warsztatach Cognity wiele osób dopiero pierwszy raz zauważa, jak bardzo to zagadnienie wpływa na ich efektywność.

Typowe zastosowania indeksu CLUSTERED

Dla kolumn, które są często wykorzystywane w ORDER BY, GROUP BY lub JOIN.
W sytuacjach, gdy zapytania pobierają zakresy danych (np. daty, identyfikatory).
Gdy kolumna zawiera wartości unikalne lub niemal unikalne (np. klucz główny).

Przykład utworzenia indeksu CLUSTERED na kolumnie daty:

CREATE CLUSTERED INDEX IX_Orders_OrderDate
ON Orders (OrderDate);

Ograniczenia indeksu CLUSTERED

Możliwość utworzenia tylko jednego indeksu CLUSTERED na tabeli.
Wstawianie danych do tabeli z częstymi zmianami w kolejności sortowania (np. losowe wartości klucza) może prowadzić do fragmentacji i obniżenia wydajności.
Zmiana indeksu CLUSTERED wiąże się z fizycznym przeniesieniem danych, co może być kosztowne przy dużych tabelach.
Nie zawsze nadaje się do kolumn zawierających duplikujące się wartości, np. stan magazynowy lub status zamówienia.

Porównanie: kiedy stosować, a kiedy unikać

Kryterium	Dobry wybór	Potencjalny problem
Unikalność kolumny	Kolumna unikalna (np. ID)	Kolumna z wieloma duplikatami
Sortowanie danych	Częste zapytania z ORDER BY	Brak korzyści z sortowania
Typ operacji	Wyszukiwania zakresowe	Częste wstawianie/usuwanie w losowej kolejności

Właściwe zastosowanie indeksu CLUSTERED może znacząco przyspieszyć działanie zapytań, lecz jego nieprzemyślane użycie może również obniżyć wydajność. Dlatego dobór kolumny, na której zostanie założony, powinien być poprzedzony analizą charakterystyki danych i typowych operacji wykonywanych na tabeli.

Zalety indeksów NONCLUSTERED z INCLUDE i filtrowanych

Indeksy NONCLUSTERED w T-SQL są niezwykle elastyczne i oferują dodatkowe możliwości optymalizacji zapytań dzięki dwóm rozszerzeniom: klauzuli INCLUDE oraz indeksom filtrowanym. Odpowiednio zastosowane, mogą znacznie poprawić wydajność operacji odczytu bez negatywnego wpływu na strukturę danych w tabeli. Jeśli chcesz poznać więcej praktycznych technik usprawniających działanie zapytań w SQL Server, sprawdź Kurs SQL Server - wykorzystanie języka SQL Server do pracy z danymi i raportami.

Indeksy NONCLUSTERED z INCLUDE

W tradycyjnym indeksie NONCLUSTERED tylko kolumny kluczowe przechowywane są w strukturze indeksu. Dzięki klauzuli INCLUDE, możliwe jest dodanie dodatkowych kolumn do tzw. sekcji dołączonej, które nie są częścią klucza indeksu, ale są przechowywane razem z nim. Pozwala to uniknąć konieczności odwoływania się do danych w tabeli bazowej (tzw. lookup), co znacząco przyspiesza działanie zapytań.

CREATE NONCLUSTERED INDEX IX_Zamowienia_DataNaStatus
ON Zamowienia (DataZamowienia)
INCLUDE (Status, KlientID);

Dzięki temu zapytania filtrujące po DataZamowienia, ale zwracające też Status i KlientID, mogą obsłużyć całość z poziomu indeksu, bez potrzeby sięgania do danych tabeli.

Indeksy filtrowane

Filtrowane indeksy NONCLUSTERED pozwalają tworzyć indeks obejmujący tylko wybrany podzbiór danych na podstawie warunku WHERE. To znacznie zmniejsza rozmiar indeksu oraz poprawia wydajność, gdy dane spełniające kryterium są stosunkowo rzadkie lub często wykorzystywane w zapytaniach.

CREATE NONCLUSTERED INDEX IX_Zamowienia_TylkoOtwarte
ON Zamowienia (KlientID)
WHERE Status = 'Otwarte';

Taki indeks będzie używany tylko do zapytań, które odwołują się do kolumny KlientID i jednocześnie ograniczają wyniki do wierszy spełniających warunek Status = 'Otwarte', co znacząco zmniejsza koszty przetwarzania.

Porównanie możliwości

Cecha	Indeks z INCLUDE	Indeks filtrowany
Zasięg danych	Cała tabela	Tylko spełniające warunek
Rozszerzenie danych indeksu	Dodatkowe kolumny niekluczowe	Brak dodatkowych kolumn (opcjonalnie INCLUDE)
Skuteczność w zapytaniach	Unika lookupów	Przyspiesza zapytania na wybranych danych
Rozmiar indeksu	Większy niż podstawowy, ale obejmuje całość	Mniejszy, bo obejmuje tylko wycinek danych

Stosowanie indeksów z INCLUDE oraz filtrowanych pozwala administratorom baz danych i programistom SQL precyzyjnie dostosować strukturę indeksów do potrzeb zapytań, osiągając lepszy balans między wydajnością a rozmiarem danych pomocniczych. Więcej takich przykładów i praktycznych wskazówek znajdziesz w Kursie SQL Server - wykorzystanie języka SQL Server do pracy z danymi i raportami.

Scenariusze praktyczne i porównanie wydajności

Wybór odpowiedniego typu indeksu może znacząco wpłynąć na wydajność zapytań w bazie danych SQL Server. Oto kilka typowych scenariuszy, które ilustrują, kiedy indeks CLUSTERED może okazać się nieoptymalny, a NONCLUSTERED przynosi istotne korzyści.

Przykład 1: Wyszukiwanie po kolumnie niekluczowej

Załóżmy, że mamy tabelę Orders z indeksem CLUSTERED na kolumnie OrderID. Zapytanie często wyszukuje dane po kolumnie CustomerID:

SELECT * FROM Orders WHERE CustomerID = 'ALFKI'

W tym przypadku brak odpowiedniego indeksu NONCLUSTERED na kolumnie CustomerID powoduje pełne skanowanie tabeli (table scan). Dodanie indeksu NONCLUSTERED na CustomerID znacząco poprawia wydajność:

CREATE NONCLUSTERED INDEX IX_Orders_CustomerID ON Orders(CustomerID);

Przykład 2: Zapytania analityczne z wyborem tylko kilku kolumn

Dla zapytań selektywnych, które zwracają tylko kilka kolumn z dużej tabeli, indeks NONCLUSTERED z klauzulą INCLUDE może zredukować konieczność odczytu danych z indeksu CLUSTERED.


SELECT OrderDate, Freight FROM Orders WHERE CustomerID = 'ALFKI';

Poprawa:


CREATE NONCLUSTERED INDEX IX_Orders_CustomerID_Inc ON Orders(CustomerID) INCLUDE (OrderDate, Freight);

Porównanie wydajności

Scenariusz	CLUSTERED	NONCLUSTERED
Wyszukiwanie po kolumnie niebędącej kluczem głównym	Niska wydajność (table scan)	Wysoka wydajność (index seek)
Filtrowanie po kolumnie z warunkiem WHERE	Może wymagać dodatkowych operacji	Możliwość stworzenia indeksu filtrowanego
Zapytania tylko z wybranymi kolumnami	Odczyt całego wiersza	Możliwość użycia INCLUDE i odczytu z indeksu
Sortowanie po kolumnie indeksowanej	Naturalne sortowanie (jeśli to klaster)	Może wymagać dodatkowego sortowania

Jak widać, indeksy NONCLUSTERED lepiej sprawdzają się w zapytaniach selektywnych, wyszukujących dane po kolumnach innych niż główny klucz tabeli. Warto świadomie łączyć oba typy indeksów, aby uzyskać optymalną wydajność w różnych scenariuszach użytkowania bazy danych.

Najlepsze praktyki wyboru typu indeksu

Dobór odpowiedniego typu indeksu w T-SQL to kluczowy element optymalizacji zapytań i zarządzania wydajnością baz danych. Wybór pomiędzy indeksem CLUSTERED a NONCLUSTERED powinien być świadomy i oparty na konkretnych potrzebach aplikacji oraz charakterystyce danych.

Oto kilka najważniejszych zasad, które warto mieć na uwadze przy projektowaniu indeksów:

Indeks CLUSTERED powinien być stosowany tam, gdzie dane są często sortowane lub filtrowane według jednej, dominującej kolumny – ponieważ fizycznie porządkuje dane w tabeli.
Warto unikać zbyt częstych zmian klucza CLUSTERED, ponieważ może to prowadzić do fragmentacji danych i spadku wydajności.
Indeksy NONCLUSTERED sprawdzają się najlepiej przy zapytaniach odwołujących się do różnych kolumn niezależnie od porządku fizycznego danych w tabeli.
W przypadku zapytań zwracających tylko wybrane kolumny pomocne będzie rozszerzenie indeksu NONCLUSTERED o dodatkowe kolumny (np. z użyciem opcji INCLUDE), co może zredukować konieczność odczytu danych z tabeli bazowej.
Nie należy nadużywać liczby indeksów – każdy dodatkowy indeks obciąża operacje zapisu i aktualizacji danych.
Dobrym podejściem jest monitorowanie zapytań i korzystanie z narzędzi analizy planów zapytań, aby podejmować decyzje oparte na rzeczywistym użyciu danych.

Stosowanie tych zasad pozwala lepiej dostosować strukturę indeksów do wymagań aplikacji oraz utrzymać wysoką wydajność operacji zarówno odczytu, jak i modyfikacji danych.

Wprowadzenie do indeksów w T-SQL

Indeksy w T-SQL są jednym z kluczowych mechanizmów wpływających na wydajność zapytań w bazach danych Microsoft SQL Server. Pozwalają one na szybszy dostęp do danych, ograniczenie liczby odczytywanych stron i przyspieszenie operacji sortowania czy filtrowania. Jednak nie każdy indeks pasuje do każdego scenariusza, a ich niewłaściwe użycie może przynieść więcej szkód niż korzyści.

Podstawowy podział indeksów obejmuje dwa główne typy: CLUSTERED i NONCLUSTERED. Każdy z nich ma swoje unikalne cechy i zastosowania. Indeks CLUSTERED porządkuje fizycznie dane w tabeli według określonej kolumny lub zestawu kolumn, co ma znaczenie dla operacji, które korzystają z zakresów danych czy sortowania. Z kolei indeks NONCLUSTERED tworzy osobną strukturę z odwołaniami do danych w tabeli, dzięki czemu można tworzyć wiele takich indeksów i precyzyjnie dostosowywać je do konkretnych zapytań.

Prawidłowe wykorzystanie indeksów wymaga zrozumienia ich wpływu na wydajność, zarówno pod względem przyspieszenia odczytów, jak i potencjalnego spowolnienia operacji zapisu czy aktualizacji. Wybór między CLUSTERED a NONCLUSTERED często zależy od sposobu, w jaki aplikacja korzysta z danych, oraz od rodzaju zapytań dominujących w systemie.

W kolejnych częściach artykułu przyjrzymy się bliżej, jak działają oba typy indeksów, jakie mają ograniczenia, a także kiedy zastosowanie indeksu NONCLUSTERED może znacząco poprawić wydajność zapytań w porównaniu do indeksu CLUSTERED. Podczas szkoleń Cognity pogłębiamy te zagadnienia w oparciu o konkretne przykłady z pracy uczestników.

Majczęściej zadawane pytania i odpowiedzi odnośnie Indeksy w T-SQL: kiedy CLUSTERED szkodzi, a NONCLUSTERED ratuje wydajność

Kiedy indeks CLUSTERED może pogorszyć wydajność w SQL Server?

Indeks CLUSTERED może pogorszyć wydajność wtedy, gdy tabela jest często modyfikowana w losowej kolejności względem klucza. W takich przypadkach rośnie ryzyko fragmentacji i kosztów związanych z fizycznym porządkowaniem danych. Problem pojawia się szczególnie przy częstych operacjach INSERT, UPDATE i DELETE, gdy klucz klastra nie wspiera rzeczywistego sposobu używania tabeli przez aplikację.

Kiedy lepiej wybrać indeks NONCLUSTERED zamiast CLUSTERED?

Indeks NONCLUSTERED jest lepszym wyborem, gdy zapytania filtrują dane po kolumnach innych niż główny klucz sortowania tabeli. Sprawdza się przy selektywnych wyszukiwaniach, raportach i zapytaniach zwracających tylko część kolumn. Jest też przydatny wtedy, gdy nie chcemy zmieniać fizycznej organizacji danych, ale potrzebujemy szybszego dostępu do konkretnych wartości.

Dlaczego tabela może mieć tylko jeden indeks CLUSTERED?

Tabela może mieć tylko jeden indeks CLUSTERED, ponieważ dane można fizycznie uporządkować tylko w jednej kolejności. Indeks klastrowy nie jest wyłącznie dodatkową strukturą, ale wpływa bezpośrednio na sposób przechowywania wierszy. Z tego powodu jego wybór powinien dotyczyć kolumny najważniejszej dla zakresowego odczytu, sortowania lub dominującego wzorca filtrowania.

Po czym poznać, że brakuje indeksu NONCLUSTERED dla zapytania?

Brak indeksu NONCLUSTERED często widać wtedy, gdy zapytanie przeszukuje całą tabelę zamiast trafiać od razu do potrzebnych wierszy. Typowy sygnał to słaba wydajność zapytań filtrujących po kolumnie niebędącej kluczem klastra. W praktyce warto sprawdzić:

czy zapytanie używa warunku WHERE na często wyszukiwanej kolumnie,
czy zwracane są tylko wybrane kolumny,
czy pełne skanowanie tabeli pojawia się regularnie.

Do czego służy INCLUDE w indeksie NONCLUSTERED?

Klauzula INCLUDE służy do dołączania dodatkowych kolumn do indeksu NONCLUSTERED bez rozszerzania jego klucza. Dzięki temu zapytanie może pobrać potrzebne dane bez dodatkowego odwołania do tabeli bazowej. To szczególnie przydatne wtedy, gdy filtr odbywa się po jednej kolumnie, ale wynik ma zawierać także inne pola często używane w SELECT.

Kiedy warto użyć filtrowanego indeksu NONCLUSTERED?

Filtrowany indeks NONCLUSTERED warto stosować wtedy, gdy zapytania regularnie dotyczą tylko określonego podzbioru danych. Taki indeks obejmuje wyłącznie wiersze spełniające warunek WHERE, więc bywa mniejszy i bardziej efektywny od indeksu na całej tabeli. Dobrze sprawdza się przy danych rzadkich albo często odczytywanych tylko w jednym konkretnym stanie.

Jakie kolumny najczęściej nadają się na indeks CLUSTERED?

Na indeks CLUSTERED najlepiej nadają się kolumny unikalne, często używane w sortowaniu i odczycie zakresowym. Chodzi o takie pola, które wspierają naturalny sposób pracy z danymi. W praktyce zwykle dobrze sprawdzają się:

identyfikatory rekordów,
kolumny używane w ORDER BY,
kolumny wykorzystywane w zapytaniach zakresowych, na przykład po dacie.

Jakie są najczęstsze błędy przy projektowaniu indeksów w T-SQL?

Najczęstsze błędy to wybór niewłaściwego klucza CLUSTERED i tworzenie zbyt wielu indeksów bez analizy zapytań. Problemem bywa też indeksowanie kolumn z wieloma duplikatami lub ignorowanie kosztu operacji zapisu. Dobre projektowanie indeksów wymaga obserwacji planów zapytań, oceny rzeczywistych filtrów oraz dopasowania struktury indeksów do najczęściej wykonywanych operacji.