Przygotowanie danych pod modele ML w Fabric

Dowiedz się, jak skutecznie przygotować dane do modeli uczenia maszynowego w Microsoft Fabric – od pozyskiwania po inżynierię cech i zapis.
21 stycznia 2026
blog
Poziom: Średnio zaawansowany

Artykuł przeznaczony dla analityków danych, inżynierów danych oraz osób wdrażających modele ML, które chcą przygotowywać dane w Microsoft Fabric.

Z tego artykułu dowiesz się

  • Jak pozyskiwać dane do uczenia maszynowego w Microsoft Fabric z różnych źródeł i narzędzi?
  • Jak oczyszczać, transformować i kodować dane (normalizacja, standaryzacja, zmienne kategoryczne) w środowisku Fabric?
  • Jak przeprowadzić inżynierię cech, zweryfikować jakość danych i zarządzać przetworzonymi danymi przed modelowaniem ML?

Wprowadzenie do Microsoft Fabric i uczenia maszynowego

Microsoft Fabric to nowoczesna, zintegrowana platforma analityczna, zaprojektowana z myślą o uproszczeniu i przyspieszeniu pracy z danymi w dużej skali. Łączy w sobie funkcjonalności znane z wielu narzędzi Microsoft – takich jak Power BI, Azure Synapse, Data Factory czy OneLake – tworząc spójne środowisko do zarządzania danymi, ich przetwarzania oraz modelowania. Dzięki temu umożliwia organizacjom kompleksową obsługę całego cyklu życia danych – od pozyskiwania, przez przekształcanie, aż po zaawansowaną analizę i uczenie maszynowe.

Uczenie maszynowe (ML) to gałąź sztucznej inteligencji, która opiera się na budowaniu modeli statystycznych zdolnych do samodzielnego rozpoznawania wzorców i podejmowania decyzji na podstawie danych. W kontekście Microsoft Fabric, ML może być wykorzystywane np. do prognozowania popytu, klasyfikacji klientów, wykrywania anomalii czy optymalizacji procesów biznesowych.

Jednym z kluczowych aspektów skutecznego wykorzystania uczenia maszynowego jest odpowiednie przygotowanie danych. Chociaż modele potrafią uczyć się na podstawie surowych danych, ich jakość, struktura i reprezentacja mają ogromny wpływ na dokładność i wiarygodność predykcji. Microsoft Fabric oferuje szereg narzędzi i możliwości, które wspierają ten proces w sposób zintegrowany i skalowalny.

Warto zaznaczyć, że przygotowanie danych pod modele ML obejmuje szereg różnorodnych etapów – od ich pozyskania, przez oczyszczenie i transformację, po inżynierię cech i ocenę zgodności danych z wymaganiami konkretnych algorytmów. Microsoft Fabric zapewnia środowisko, w którym każdy z tych etapów może być realizowany w sposób efektywny i powtarzalny, bez konieczności przełączania się między odrębnymi narzędziami czy platformami.

Pozyskiwanie danych w środowisku Microsoft Fabric

Microsoft Fabric to zintegrowana platforma analityczna, która umożliwia użytkownikom dostęp do danych z różnych źródeł oraz ich przetwarzanie w jednym, spójnym środowisku. W kontekście przygotowania danych do uczenia maszynowego, kluczowym etapem jest efektywne pozyskiwanie danych, które stanowi fundament dalszych operacji takich jak oczyszczanie, transformacja czy inżynieria cech. Ten artykuł powstał jako rozwinięcie jednego z najczęstszych tematów poruszanych podczas szkoleń Cognity.

Microsoft Fabric wspiera szereg mechanizmów pozyskiwania danych – zarówno w czasie rzeczywistym, jak i wsadowym – co pozwala na elastyczne dostosowanie procesu do źródeł danych i potrzeb biznesowych. Użytkownicy mają możliwość integrowania danych z lokalnych systemów, chmur publicznych, baz danych, hurtowni danych czy też popularnych usług SaaS.

W Fabric do najczęściej wykorzystywanych sposobów pozyskiwania danych należą:

  • Dataflows Gen2 – umożliwiają pobieranie danych z wielu źródeł i ich automatyczne przekształcanie przy użyciu interfejsu graficznego, bez potrzeby pisania kodu.
  • OneLake – centralny, zintegrowany magazyn danych w Microsoft Fabric, który pozwala gromadzić dane z wielu obszarów organizacji w jednym repozytorium, zachowując ich dostępność i wersjonowanie.
  • Notebooki – elastyczne środowisko do pracy z danymi przy użyciu języków takich jak Python czy SQL, co pozwala na bardziej zaawansowane pobieranie i wstępne przetwarzanie danych.
  • Pipeline'y – automatyzacja przepływu danych i procesów ETL/ELT w oparciu o harmonogramy lub zdarzenia.

Ważne jest, aby na etapie pozyskiwania danych zwrócić uwagę na ich źródło, strukturę oraz dostępność. Microsoft Fabric umożliwia przy tym kontrolę nad jakością i zgodnością danych już w momencie ich ładowania, co pozwala na uniknięcie wielu problemów w kolejnych krokach przygotowania do modelowania.

Oczyszczanie danych: identyfikacja i usuwanie nieprawidłowości

Oczyszczanie danych to jeden z kluczowych etapów przygotowania zbioru danych do modelowania w uczeniu maszynowym. W kontekście Microsoft Fabric, który integruje narzędzia analityczne, przetwarzania danych i ML w jednej platformie, proces ten może być znacznie usprawniony dzięki ujednoliconemu środowisku Data Factory, Lakehouse oraz Dataflows.

Główne cele oczyszczania danych to:

  • wyszukiwanie i usuwanie brakujących lub błędnych wartości,
  • eliminacja duplikatów,
  • identyfikacja wartości odstających (outliers),
  • zapewnienie spójności typów danych i formatów.

Microsoft Fabric umożliwia realizację tych działań m.in. poprzez Power Query w Dataflows, transformacje w Spark notebooks oraz przepływy danych w Data Factory.

Typowe problemy jakości danych

Rodzaj nieprawidłowości Opis Przykład
Brakujące dane Kolumny zawierają wartości null lub puste pola Niezarejestrowany wiek klienta
Duplikaty Wielokrotne identyczne rekordy Powielone wpisy transakcji
Błędy logiczne Wartości sprzeczne z logiką biznesową Data urodzenia późniejsza niż data zakupu
Wartości odstające Dane znacznie odbiegające od reszty Dochód klienta = 10 000 000 zł

Przykład usuwania duplikatów w PySpark

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
df = spark.read.csv("/lakehouse/sales.csv", header=True, inferSchema=True)
df_cleaned = df.dropDuplicates()
df_cleaned.show()

W Microsoft Fabric dane mogą być oczyszczane zarówno w czasie rzeczywistym, jak i w przetwarzaniu wsadowym, co daje dużą elastyczność w zależności od wymagań projektu. Rzetelne oczyszczenie danych to podstawa skutecznych analiz i modeli predykcyjnych – pozwala uniknąć błędnych wniosków oraz poprawić dokładność prognoz. Jeśli chcesz dowiedzieć się więcej i poznać praktyczne metody przygotowania danych, sprawdź Kurs Microsoft Fabric – modelowanie i przygotowanie danych.

Transformacja danych: normalizacja, standaryzacja i kodowanie

Transformacja danych to kluczowy etap w procesie przygotowania danych pod modele uczenia maszynowego. W środowisku Microsoft Fabric, które integruje wiele narzędzi analitycznych i przetwarzania danych, odpowiednie przekształcenie danych wejściowych ma bezpośredni wpływ na skuteczność i wydajność modeli ML. W Cognity wierzymy, że dobre zrozumienie tego tematu to podstawa efektywnej pracy z narzędziami cyfrowymi. W tej sekcji omówimy trzy podstawowe techniki transformacji danych: normalizację, standaryzację oraz kodowanie zmiennych kategorycznych.

Normalizacja

Normalizacja polega na przeskalowaniu wartości cech numerycznych do z góry określonego zakresu, najczęściej od 0 do 1. Technika ta jest szczególnie przydatna w przypadku algorytmów opartych na odległości (np. KNN, SVM), gdzie różnice w skali mogą zaburzać działanie modelu.

normalized = (x - x_min) / (x_max - x_min)

Standaryzacja

Standaryzacja przekształca dane tak, aby miały średnią równą 0 i odchylenie standardowe równe 1. Metoda ta znajduje zastosowanie, gdy dane zawierają wartości odstające lub różnią się rozkładem, co może wpływać na modele oparte na rozkładach statystycznych (np. regresja logistyczna, PCA).

standardized = (x - mean) / std

Kodowanie zmiennych kategorycznych

Modele ML wymagają danych liczbowych, dlatego zmienne kategoryczne muszą zostać zakodowane. Najczęściej stosuje się:

  • One-hot encoding – tworzy nowe kolumny dla każdej unikalnej wartości w kolumnie kategorycznej; przydatne, gdy liczba kategorii jest niewielka.
  • Label encoding – przypisuje każdej kategorii wartość liczbową; może być mylący dla modeli zakładających relacje między wartościami liczbowymi.

Porównanie technik

Technika Zakres danych Zastosowanie
Normalizacja 0–1 (lub inny zdefiniowany zakres) Modele oparte na odległości, dane bez wartości odstających
Standaryzacja Średnia = 0, odchylenie std = 1 Modele statystyczne, dane z wartościami odstającymi
One-hot encoding Binarny (0/1) Niewielka liczba kategorii, brak porządku między kategoriami
Label encoding Liczby całkowite Duża liczba kategorii, modele drzewiaste (np. XGBoost)

W środowisku Microsoft Fabric wszystkie opisane techniki można zaimplementować za pomocą języków Python, PySpark lub wbudowanych narzędzi transformacji danych dostępnych np. w Dataflow Gen2 czy Notebooks. Dobór odpowiedniej metody powinien uwzględniać charakter danych oraz wymagania modelu ML.

💡 Pro tip: Skaluj i koduj dane dopiero po podziale na zbiory train/test (fit na train, transform na test), żeby uniknąć data leakage i zawyżonych wyników. One-hot stosuj przy małej liczbie kategorii, a przy wielu rozważ target/frequency encoding lub modele drzewiaste zamiast label encoding w modelach liniowych.

Inżynieria cech (feature engineering) w Microsoft Fabric

Inżynieria cech to proces tworzenia, modyfikowania i wybierania najbardziej reprezentatywnych atrybutów (cech) z danych wejściowych, które zwiększają skuteczność modeli uczenia maszynowego. W środowisku Microsoft Fabric, które łączy w sobie możliwości analizy danych, modelowania i integracji z usługami Azure, inżynieria cech może być realizowana w sposób zarówno zautomatyzowany, jak i kodowy – z wykorzystaniem m.in. Dataflows Gen2, Notebooks oraz Lakehouse.

Główne cele inżynierii cech to:

  • Wydobycie istotnych informacji ukrytych w danych surowych, których modele ML nie są w stanie samodzielnie zidentyfikować.
  • Redukcja szumu i nadmiarowości, co przekłada się na lepszą generalizację modeli.
  • Przygotowanie danych w taki sposób, by były zgodne z wymaganiami algorytmów uczenia maszynowego (np. liczby zamiast tekstów, kategorie zamiast wartości ciągłych itd.).

W Microsoft Fabric inżynieria cech może być prowadzona przy użyciu różnych podejść:

Technika Opis Zastosowanie w Fabric
Tworzenie cech pochodnych Łączenie kilku kolumn w nowe cechy (np. konwersja daty urodzenia na wiek) Kolumny obliczeniowe w Dataflows lub transformacje w notebookach
Ekstrakcja cech z tekstu Wydobycie słów kluczowych, długości tekstu, n-gramów Skrypty w Spark Notebooks lub funkcje języka Python
Kodowanie danych kategorycznych Mapowanie kategorii na liczby (np. One-Hot Encoding) Skrypty PySpark lub wbudowane transformacje w Dataflows
Agregacje czasowe Obliczenia takie jak średnia/maksymalna wartość w oknie czasowym Użycie funkcji okienkowych w Spark lub Power Query

Przykładowy kod w notebooku Spark (Python) pokazujący tworzenie cechy „wiek” na podstawie daty urodzenia:

from pyspark.sql.functions import datediff, current_date, floor

df = df.withColumn("wiek", floor(datediff(current_date(), df["data_urodzenia"])/365.25))
df.select("data_urodzenia", "wiek").show(5)

Microsoft Fabric dzięki integracji z usługami Spark, Delta Lake i Power Query umożliwia elastyczne przetwarzanie danych oraz szybkie prototypowanie i testowanie nowych cech. Kluczowe znaczenie ma tu iteracyjność procesu – inżynieria cech nie jest jednorazowym etapem, ale często wymaga wielu cykli eksploracji i walidacji. Więcej praktycznych przykładów oraz materiałów znajdziesz w Kursie Microsoft Fabric w praktyce: od Lakehouse do Apache Spark – kompleksowa analityka danych.

Weryfikacja jakości danych i przygotowanie do modelowania

Przed przystąpieniem do trenowania modeli uczenia maszynowego, kluczowe jest upewnienie się, że dane są nie tylko odpowiednio przekształcone, lecz także spełniają kryteria jakościowe. Microsoft Fabric oferuje szereg narzędzi i możliwości analitycznych, które wspomagają ten proces. Na tym etapie następuje ostateczna ocena kompletności, spójności oraz przydatności danych do uczenia modeli. Dobór odpowiednich metryk i wskaźników może znacząco wpłynąć na efektywność modelu.

Podstawowe aspekty jakości danych

Poniżej przedstawiono kluczowe cechy, które należy ocenić przed wykorzystaniem danych w uczeniu maszynowym:

  • Kompletność: Czy dane zawierają wszystkie niezbędne atrybuty?
  • Spójność: Czy dane są logicznie i semantycznie zgodne w obrębie całego zbioru?
  • Aktualność: Jak bardzo dane są świeże i czy nadal odzwierciedlają bieżące zjawiska?
  • Unikalność: Czy dane nie zawierają duplikatów, które mogą zakłócać proces uczenia?
  • Rozkład wartości: Czy istnieje równowaga pomiędzy klasami w przypadku problemów klasyfikacyjnych?

Praktyczne techniki weryfikacji danych w Fabric

Microsoft Fabric pozwala na wykonywanie analiz jakości danych za pomocą funkcji w Power Query, SQL oraz Spark DataFrames. Przykładowo, można obliczyć podstawowe statystyki opisowe lub sprawdzić występowanie wartości odstających:

from pyspark.sql.functions import col, count, when, isnan

# Liczba brakujących wartości w każdej kolumnie
df.select([count(when(isnan(c) | col(c).isNull(), c)).alias(c) for c in df.columns]).show()

Porównanie stanu danych przed i po przygotowaniu

Cecha Przed przygotowaniem Po przygotowaniu
Liczba braków danych Wysoka Zredukowana do minimum
Format danych Niejednolity Ustandaryzowany
Balans klas Niezrównoważony Skorygowany (np. przez undersampling/oversampling)
Liczba duplikatów Występują Usunięte

Gotowość danych do modelowania

Ostateczna weryfikacja danych obejmuje także sprawdzenie, czy wszystkie zmienne wejściowe (features) są kompatybilne z wymaganiami wybranego algorytmu. Może to obejmować m.in. konwersję typów danych, redukcję liczby zmiennych lub ich transformację do postaci numerycznej.

Po zakończeniu procesu weryfikacji jakości danych, można przejść do właściwego modelowania — mając pewność, że dane są czyste, kompletne i dobrze dopasowane do wybranego problemu biznesowego.

💡 Pro tip: Zrób automatyczny „quality gate” przed treningiem: progi na braki, duplikaty, outliery i balans klas, a w razie niespełnienia warunków przerywaj pipeline. Kluczowe statystyki licz zawsze osobno dla train/test, aby wykryć drift i nie przenosić informacji między zbiorami.

Zapis i zarządzanie przetworzonymi danymi w Microsoft Fabric

Po zakończeniu procesu przygotowania danych — obejmującego ich oczyszczenie, transformację oraz wzbogacenie — kluczowym etapem staje się skuteczny zapis oraz zarządzanie tymi danymi w środowisku Microsoft Fabric. Organizacja danych w sposób umożliwiający ich łatwe wykorzystanie w modelach uczenia maszynowego ma bezpośredni wpływ na wydajność i skalowalność całego procesu analitycznego.

Microsoft Fabric oferuje elastyczne możliwości przechowywania danych w zależności od ich charakteru i przeznaczenia. Przetworzone dane można zapisać m.in. w Lakehouse, który łączy zalety jeziora danych (Data Lake) i hurtowni danych (Data Warehouse), umożliwiając zarówno przechowywanie danych niestrukturalnych, jak i wydajne zapytania analityczne. Alternatywnie, dane mogą być zorganizowane w formie tabel w magazynie OneLake, który stanowi centralny punkt dostępu do danych w całej platformie Fabric.

Ważnym aspektem zarządzania danymi jest również wersjonowanie i kontrola dostępu. Dzięki integracji z usługami Microsoft Entra (dawniej Azure Active Directory) oraz politykami zarządzania danymi, możliwe jest precyzyjne określenie, kto i na jakich warunkach może korzystać z konkretnych zasobów danych. Ułatwia to współpracę w zespołach oraz zwiększa bezpieczeństwo danych wykorzystywanych do trenowania modeli ML.

Oprócz aspektów bezpieczeństwa, Microsoft Fabric wspiera także automatyzację procesów zapisu i organizacji danych, m.in. poprzez Dataflows Gen2 oraz Pipelines. Pozwala to zbudować powtarzalne, łatwe do utrzymania procesy przygotowywania i zapisu danych, które można łatwo zintegrować z dalszymi etapami modelowania i wdrażania uczenia maszynowego.

Podsumowanie i najlepsze praktyki

Przygotowanie danych pod modele uczenia maszynowego to kluczowy etap, który bezpośrednio wpływa na jakość i skuteczność tworzonych rozwiązań. Microsoft Fabric oferuje zintegrowane środowisko pracy z danymi, umożliwiające ich pozyskiwanie, przetwarzanie oraz analizę w ramach jednej platformy. Dzięki połączeniu narzędzi analitycznych, przepływów danych i funkcji AI, Fabric staje się elastycznym fundamentem dla projektów ML w skali przedsiębiorstwa.

W kontekście przygotowania danych w Microsoft Fabric warto kierować się kilkoma najlepszymi praktykami:

  • Zrozumienie danych: Zanim przystąpimy do modelowania, należy dokładnie poznać strukturę, źródła oraz kontekst dostępnych danych.
  • Jakość ponad ilość: Staranna selekcja i oczyszczanie danych zwiększają wartość predykcyjną modeli, redukując ryzyko błędnych wniosków.
  • Automatyzacja procesów: Warto wykorzystywać możliwości automatyzacji oferowane przez Fabric, np. w zakresie przepływów danych i harmonogramowania zadań.
  • Reużywalność komponentów: Budując procesy przetwarzania danych w sposób modułowy, łatwiej je później skalować i dostosować do nowych przypadków użycia.
  • Ścisła współpraca zespołów: Efektywne przygotowanie danych wymaga współpracy analityków, inżynierów danych i specjalistów ML – Microsoft Fabric ułatwia tę współpracę dzięki wspólnemu środowisku roboczemu.

Stosowanie powyższych praktyk pozwala nie tylko zwiększyć efektywność procesów przygotowania danych, ale także budować solidne podstawy pod skuteczne modele uczenia maszynowego w środowisku Microsoft Fabric. W Cognity uczymy, jak skutecznie radzić sobie z podobnymi wyzwaniami – zarówno indywidualnie, jak i zespołowo.

icon

Formularz kontaktowyContact form

Imię *Name
NazwiskoSurname
Adres e-mail *E-mail address
Telefon *Phone number
UwagiComments