Czyszczenie i standaryzacja danych w Power Query – case study krok po kroku

Dowiedz się, jak krok po kroku czyścić i standaryzować dane w Power Query – od importu po walidację, z praktycznymi przykładami i wskazówkami.
01 grudnia 2025
blog
Poziom: Średnio zaawansowany

Artykuł przeznaczony dla analityków danych oraz użytkowników Excela i Power BI, którzy chcą praktycznie nauczyć się czyszczenia, standaryzacji i walidacji danych w Power Query.

Z tego artykułu dowiesz się

  • Jak importować dane do Power Query i przygotować źródło pod dalsze transformacje?
  • Jak czyścić i standaryzować dane adresowe (spacje, wielkość liter, skróty, podział i scalanie kolumn) z użyciem funkcji Power Query i języka M?
  • Jak ujednolicić formaty dat oraz standaryzować i przeliczać wartości walutowe, a następnie zwalidować jakość danych?

Wprowadzenie do czyszczenia i standaryzacji danych w Power Query

Współczesna analiza danych wymaga pracy na wiarygodnych, spójnych i dobrze przygotowanych zbiorach danych. Surowe dane, pozyskane z różnych źródeł, najczęściej zawierają błędy, niespójności lub różnice w formacie, które mogą znacząco zaburzyć jakość analiz. Właśnie dlatego proces czyszczenia i standaryzacji danych staje się jednym z kluczowych etapów przygotowania danych do dalszego wykorzystania.

Power Query, dostępny w narzędziach takich jak Microsoft Excel i Power BI, to elastyczne i wydajne środowisko do transformacji danych. Umożliwia on użytkownikom m.in. importowanie, filtrowanie, sortowanie, przekształcanie oraz standaryzowanie informacji nawet bez zaawansowanej znajomości programowania. Dzięki podejściu opartemu na krokach (tzw. transformations), użytkownik może w przejrzysty sposób budować proces oczyszczania danych.

Czyszczenie danych odnosi się do usuwania błędów, braków, duplikatów oraz nieaktualnych lub niepotrzebnych wpisów. Standaryzacja z kolei polega na ujednolicaniu formatu danych, np. poprzez sprowadzenie różnych zapisań tej samej wartości do jednego standardu, co zwiększa spójność i ułatwia późniejsze analizy.

W praktyce oznacza to m.in. zamianę literówek w nazwach miejscowości, ujednolicanie sposobu zapisu dat, konwersję wartości walutowych czy też normalizację adresów. Poprawnie przeprowadzony proces czyszczenia i standaryzacji nie tylko zapobiega błędnym wnioskom, ale także znacząco skraca czas potrzebny na przygotowanie danych do raportowania.

Power Query wyróżnia się możliwością automatyzacji tych procesów – po jednorazowym zdefiniowaniu działań użytkownik może je wielokrotnie zastosować do nowych danych, co znacznie zwiększa efektywność pracy z dużymi zbiorami.

W dalszej części artykułu krok po kroku prześledzimy, jak w Power Query zrealizować procesy czyszczenia i standaryzacji danych na konkretnym przykładzie, pokazując, jak przekształcić nieuporządkowany zbiór w gotowy do analizy materiał.

Importowanie danych i przygotowanie źródła

Proces czyszczenia i standaryzacji danych w Power Query rozpoczyna się od poprawnego zaimportowania danych i przygotowania ich źródła. Etap ten ma kluczowe znaczenie, ponieważ jakość i struktura danych wejściowych wpływa na skuteczność dalszych operacji transformacyjnych. Power Query umożliwia łączenie się z różnymi źródłami danych, oferując dużą elastyczność w pracy z rozproszonymi i niejednorodnymi zbiorami informacji.

Ten wpis powstał w odpowiedzi na zagadnienia, które regularnie pojawiają się na szkoleniach prowadzonych przez Cognity.

Najczęściej wykorzystywane źródła danych w Power Query to m.in.:

  • pliki Excel i CSV,
  • bazy danych (np. SQL Server, PostgreSQL),
  • usługi online (np. SharePoint, Microsoft Exchange),
  • strony internetowe i interfejsy API,
  • foldery zawierające wiele plików tego samego typu.

Import danych polega na wskazaniu lokalizacji źródła i załadowaniu danych do edytora Power Query. Na tym etapie ważne jest rozpoznanie typu danych, struktury kolumn oraz wstępne filtrowanie niepotrzebnych informacji. Zdarza się, że dane zawierają puste wiersze, niepożądane nagłówki lub kolumny pomocnicze – ich usunięcie lub przekształcenie pozwala uprościć dalsze etapy przetwarzania.

Warto także zadbać o nadanie odpowiednich nazw kolumnom oraz sprawdzenie ich typów danych (np. tekst, liczba, data), co ułatwia późniejsze operacje transformacyjne. Poprawna konfiguracja źródła znacząco wpływa na jakość i efektywność całego procesu czyszczenia oraz ułatwia pracę z dużymi lub złożonymi zestawami danych.

W przypadku pracy z danymi z wielu plików lub folderów, Power Query oferuje narzędzia do scalania i łączenia danych, co pozwala na ich konsolidację już na poziomie importu. Dzięki temu możliwe jest ujednolicenie struktury danych przed przystąpieniem do właściwych operacji transformacyjnych.

Czyszczenie i standaryzacja danych adresowych

Dane adresowe należą do najczęściej spotykanych typów danych w praktyce analizy i raportowania. Ze względu na różnorodność formatów, skrótów, błędów literowych oraz niejednolitego zapisu, stanowią one istotne wyzwanie podczas procesu czyszczenia i standaryzacji. W Power Query możliwe jest skuteczne przekształcanie takich danych w sposób automatyczny, z zachowaniem przejrzystości i powtarzalności operacji.

Typowe problemy, jakie można napotkać w danych adresowych, to między innymi:

  • Inconsistent use of abbreviations (e.g. "ul." vs "ulica"),
  • Wieloznaczność zapisu numeru domu i mieszkania (np. "12/4", "12 m.4", "12-4"),
  • Brak wielkich liter lub ich nadmiar,
  • Niepotrzebne spacje, znaki specjalne lub błędy literowe,
  • Rozproszenie danych adresowych w kilku kolumnach lub ich scalanie w jedną kolumnę.

Standardowym podejściem w Power Query jest wykorzystanie kombinacji transformacji tekstowych, dzielenia i łączenia kolumn, funkcji warunkowych oraz operacji dopasowywania wzorców. Poniżej przedstawiono przykładowe operacje, które mogą być zastosowane:

Problem Rozwiązanie w Power Query
Różne skróty typu ulic Użycie funkcji Replace Values lub kolumny warunkowej do standaryzacji (np. zamiana "ul." na "ulica")
Błędy w pisowni / brak wielkich liter Transformacja „Capitalize Each Word” lub zastosowanie formuły: Text.Proper([Adres])
Numery mieszkań i domów w jednej kolumnie Dzielenie tekstu za pomocą Text.Split lub „Split Column by Delimiter”
Nadmierne spacje Funkcja Text.Trim lub „Clean” w zakładce „Format”

Zaawansowane transformacje mogą również wykorzystywać funkcje M, takie jak Text.RegexReplace, do usuwania zbędnych znaków lub dostosowywania struktury adresu do określonego wzorca. Przykład prostego czyszczenia adresu z podwójnych spacji i niepożądanych znaków może wyglądać następująco:

let
    Źródło = Excel.CurrentWorkbook(){[Name="DaneAdresowe"]}[Content],
    UsunięteSpacje = Table.TransformColumns(Źródło, {{"Adres", each Text.Trim(Text.Clean(_)), type text}})
in
    UsunięteSpacje

Skuteczna standaryzacja danych adresowych nie tylko poprawia jakość danych, ale również znacznie zwiększa ich przydatność w analizach geograficznych, segmentacji klientów oraz integracji z zewnętrznymi systemami. Jeśli chcesz pogłębić swoją wiedzę i nauczyć się jeszcze skuteczniejszego wykorzystania języka M w Power Query, sprawdź Kurs Microsoft Power Query - analiza danych przy użyciu języka M i optymalizacja procesu analizy danych.

Ujednolicanie formatów dat i korekta wartości

Daty odgrywają kluczową rolę w analizie danych — niezależnie od tego, czy chodzi o śledzenie transakcji, analizę trendów czy prognozowanie. Jednak w praktyce dane dat mogą występować w wielu formatach, uzależnionych od ustawień regionalnych, źródła importu lub błędów użytkownika. W Power Query ujednolicanie tych formatów to istotny krok, który pozwala na dalszą, spójną analizę.

Najczęściej spotykane problemy związane z formatami dat to:

  • Różnice regionalne: np. MM/DD/YYYY (USA) kontra DD.MM.YYYY (Polska).
  • Dane tekstowe zamiast daty: np. "2023-12-01" jako tekst.
  • Braki i błędne wartości: np. niepełne daty, błędne zera, literówki.

Power Query oferuje szereg narzędzi do konwersji i korekty dat. Przykładowo, funkcja Date.FromText pozwala zamienić tekst na wartość typu date, a opcje regionalne umożliwiają doprecyzowanie interpretacji formatu:

Date.FromText("31.12.2023", "pl-PL")

W przypadku błędnych wartości dat często warto zastosować transformacje warunkowe, które pozwalają zidentyfikować i zastąpić nieprawidłowe wpisy. Typowe podejścia obejmują:

  • Zastąpienie wartości błędnych wartością domyślną (np. ostatni dzień miesiąca).
  • Usunięcie lub oznaczenie braków do dalszej weryfikacji.
  • Przekształcenie niepełnych dat (np. samo "01.2023") na pełne za pomocą niestandardowej logiki.

W tabeli poniżej zestawiono przykładowe niejednolite formaty dat i możliwe działania transformacyjne:

Oryginalna wartość Typowy problem Działanie w Power Query
12/31/2023 Format amerykański (MM/DD/YYYY) Ustawienie kultury na "en-US" przy konwersji
31.12.2023 Format polski Ustawienie kultury na "pl-PL"
"2023-12-01" (tekst) Nieprawidłowy typ danych Użycie Date.FromText dla konwersji
01.2023 Niepełna data (brak dnia) Dodanie domyślnego dnia (np. 1) za pomocą kolumny warunkowej

Ujednolicenie dat to nie tylko kwestia estetyki — od tego zależy poprawność sortowania, grupowania i filtrowania danych w kolejnych etapach analizy. Warto więc poświęcić czas na ich dokładne sprawdzenie i oczyszczenie zaraz po imporcie danych. Na szkoleniach Cognity pokazujemy, jak poradzić sobie z tym zagadnieniem krok po kroku – poniżej przedstawiamy skrót tych metod.

💡 Pro tip: Zmieniaj typ kolumny daty z użyciem ustawień regionalnych (Change Type using Locale lub Date.FromText z kulturą), aby uniknąć błędnej interpretacji 12/03/2023. Błędy obsługuj konstrukcją try ... otherwise i zamieniaj na wartość domyślną (np. Date.EndOfMonth dla niepełnych dat) lub oznaczaj flagą do weryfikacji.

Konwersja i standaryzacja wartości walutowych

W przypadku pracy z danymi finansowymi pochodzącymi z różnych źródeł, często napotykamy na wartości wyrażone w różnych walutach oraz w różnych formatach liczbowych. Konieczność konwersji i standaryzacji walut staje się kluczowym krokiem, szczególnie jeśli dane mają być analizowane zbiorczo lub porównywane między sobą.

Power Query oferuje szereg funkcji umożliwiających obsługę takich scenariuszy. Do najczęstszych przypadków użycia należą:

  • Konwersja waluty – przeliczanie kwot z jednej waluty na inną przy wykorzystaniu dostępnych kursów wymiany.
  • Standaryzacja formatu liczbowego – ujednolicanie zapisu liczb z różnych systemów lokalnych (np. przecinek jako separator dziesiętny vs. kropka).
  • Ujednolicenie jednostek – w niektórych przypadkach wartości mogą być wyrażone w tysiącach, milionach lub innych przeliczeniach, które również wymagają transformacji.

Poniższa tabela przedstawia przykładowe różnice, które należy uwzględnić podczas procesu standaryzacji:

Źródło danych Waluta Format liczby Potencjalne problemy
Raport finansowy z Niemiec EUR 1.234,56 Odwrotne separatory dziesiętne i tysięczne
System raportowy z USA USD 1,234.56 Inna waluta, inny układ separatorów
Plik Excel z Polski PLN 1234,56 Brak separatora tysięcy, przecinek dziesiętny

W Power Query proces może obejmować kilka kroków, takich jak oczyszczenie danych liczbowych, konwersja tekstu na liczby oraz przemnożenie wartości przez obowiązujący kurs walutowy. Przykładowa transformacja może wyglądać następująco:

let
    Źródło = Excel.Workbook(File.Contents("C:\\Dane\\finanse.xlsx"), null, true),
    Tabela1 = Źródło{[Item="Arkusz1",Kind="Sheet"]}[Data],
    ZmienionaKolumna = Table.TransformColumnTypes(Tabela1, {{"Kwota", type text}}),
    UsuniętoSpacje = Table.TransformColumns(ZmienionaKolumna, {{"Kwota", Text.Trim}}),
    ZamienionoPrzecinek = Table.ReplaceValue(UsuniętoSpacje, ",", ".", Replacer.ReplaceText, {"Kwota"}),
    NaLiczby = Table.TransformColumnTypes(ZamienionoPrzecinek, {{"Kwota", type number}}),
    Kurs = 4.65,
    Przeliczono = Table.AddColumn(NaLiczby, "Kwota_EUR", each [Kwota] / Kurs, type number)
in
    Przeliczono

Warto pamiętać, że kursy walut mogą się zmieniać, dlatego dobrą praktyką jest pobieranie ich dynamicznie z wiarygodnych źródeł, np. za pomocą API bankowego lub pliku CSV z aktualnymi notowaniami.

Konwersja i standaryzacja walut to nie tylko kwestia poprawności danych, ale także ich interpretowalności i spójności biznesowej. Zaniedbanie tego kroku może prowadzić do błędnych wniosków analitycznych lub nieporozumień na poziomie raportowania. Jeśli chcesz pogłębić swoją praktyczną wiedzę w tym zakresie, warto rozważyć udział w Kursie Język M - Microsoft Business Intelligence - sprawne wykorzystanie Power BI podczas analizy danych i stosowanie języka M.

💡 Pro tip: Zamiast ręcznie podmieniać separatory, konwertuj tekst na liczby funkcją Number.FromText z kulturą i ustaw typ Fixed Decimal dla stabilnych obliczeń walutowych. Kursy dołączaj przez merge z tabelą stawek po dacie i walucie, a braki obsłuż try ... otherwise lub regułą domyślną.

Praktyczne wskazówki i najlepsze praktyki

Podczas pracy z Power Query przy czyszczeniu i standaryzacji danych warto kierować się sprawdzonymi praktykami, które zwiększają przejrzystość kodu, ułatwiają utrzymanie zapytań oraz poprawiają jakość wyników. Poniżej zebraliśmy kluczowe wskazówki, które warto mieć na uwadze w codziennej pracy analitycznej:

  • Stosuj czytelne nazwy kroków: Domyślne nazwy generowane przez Power Query (np. Changed Type1, Renamed Columns2) mogą utrudniać orientację w kodzie. Zmieniaj je na opisowe, np. Zmiana_typu_daty lub Usunięcie_duplikatów, co ułatwia przeglądanie i debugowanie kodu.
  • Utrzymuj porządek w transformacjach: Każdy krok powinien odpowiadać jednej operacji. Unikaj łączenia wielu przekształceń w jednym kroku, co utrudnia analizę i wprowadzanie zmian.
  • Dokumentuj zapytania: Dodawaj komentarze do kodu M (język zapytań Power Query), aby wyjaśnić nietypowe transformacje lub decyzje.
  • Twórz parametry konfiguracyjne: Zamiast używać twardo zakodowanych wartości (np. nazw arkuszy, ścieżek plików czy progów filtrowania), stosuj parametry, co zwiększy elastyczność i umożliwi ponowne wykorzystanie zapytań.
  • Używaj funkcji użytkownika: Jeżeli wykonujesz podobne transformacje w wielu miejscach, rozważ stworzenie własnych funkcji, co poprawi modularność i ograniczy powielanie kodu.
  • Unikaj odwołań do pozycji kolumn po indeksie: Wszelkie zmiany w strukturze danych (dodanie/usunięcie kolumn) mogą zaburzyć działanie transformacji. Lepiej odwoływać się do kolumn po nazwie niż po pozycji.
  • Sprawdzaj dane na każdym etapie: Po każdej istotnej transformacji podglądaj dane, aby upewnić się, że zmiany przebiegły zgodnie z oczekiwaniami.
  • Optymalizuj kolejność kroków: Operacje takie jak filtrowanie i redukcja kolumn powinny być wykonywane możliwie jak najwcześniej – Power Query może wtedy szybciej i wydajniej przetwarzać dane.
  • Unikaj nadmiarowych kroków: Regularnie przeglądaj listę transformacji, aby usuwać zbędne lub nieużywane kroki, które mogą niepotrzebnie obciążać zapytanie.
  • Twórz wersje robocze zapytań: Jeśli planujesz większe zmiany, warto skopiować zapytanie i wykonać je na kopii, co pozwala na bezpieczne eksperymentowanie bez ryzyka utraty działającego rozwiązania.

Dopasowanie tych praktyk do specyfiki projektu pozwala nie tylko przyspieszyć proces czyszczenia i standaryzacji, ale również zwiększyć jakość i powtarzalność przetwarzania danych. Poniższa tabela prezentuje krótkie porównanie wpływu stosowania dobrych praktyk:

Obszar Bez dobrych praktyk Po zastosowaniu dobrych praktyk
Czytelność kodu Niska – trudności w interpretacji kroków Wysoka – logiczny i opisowy przebieg transformacji
Utrzymanie zapytań Problematyczne przy zmianach struktury danych Szybkie i bezpieczne dzięki modularności
Wydajność Wolniejsze przetwarzanie dużych zbiorów Optymalizacja kolejności operacji zwiększa szybkość

Stosowanie opisanych praktyk jest kluczowe dla efektywnego wykorzystania Power Query w przetwarzaniu danych – niezależnie od branży czy wielkości projektu.

Walidacja i kontrola jakości danych

Po zakończeniu procesu czyszczenia i standaryzacji danych w Power Query niezwykle istotnym etapem jest ich walidacja oraz kontrola jakości. Dzięki nim możemy upewnić się, że przekształcone dane są spójne, poprawne i gotowe do dalszej analizy.

Walidacja danych polega na sprawdzeniu, czy dane spełniają określone kryteria logiczne i biznesowe. Może to obejmować m.in. weryfikację obecności wymaganych wartości, sprawdzenie zgodności formatów (np. dat, kodów pocztowych) czy eliminację duplikatów. Ten etap pozwala wychwycić błędy, które mogły zostać pominięte podczas wcześniejszych operacji przekształcania.

Kontrola jakości danych to szersze podejście, które obejmuje zarówno walidację, jak i ocenę spójności oraz kompletności danych. W Power Query możemy stosować różne techniki, takie jak filtrowanie wartości odstających, monitorowanie występowania błędów czy porównywanie wyników z danymi referencyjnymi. Celem jest nie tylko identyfikacja problemów, ale również zapewnienie, że dane spełniają odpowiednie standardy jakościowe.

W praktyce warto tworzyć dodatkowe kroki diagnostyczne, które ułatwią wykrywanie niezgodności, a także stosować metody umożliwiające szybkie raportowanie błędów. Dobrą praktyką jest również dokumentowanie zastosowanych reguł walidacyjnych, co ułatwia utrzymanie i rozwój modelu danych w przyszłości.

💡 Pro tip: Zbuduj osobny raport jakości danych: policz braki, duplikaty i zakresy (np. Table.Profile lub Group By) oraz zwracaj listę naruszeń reguł biznesowych. W głównym zapytaniu dodaj kolumny kontrolne i try ... otherwise do wychwytywania błędów, zapisując odrzucone rekordy do osobnej tabeli do przeglądu.

Podsumowanie i wnioski z case study

Czyszczenie i standaryzacja danych to kluczowe etapy w każdej analizie danych, wpływające bezpośrednio na jakość i wiarygodność wyników biznesowych. Power Query, jako integralna część środowiska Power BI i Excel, dostarcza użytkownikom wszechstronnych narzędzi do przekształcania danych źródłowych w uporządkowane, spójne i gotowe do analizy zestawy informacji.

W przedstawionym case study pokazaliśmy, jak praktyczne zastosowanie funkcji Power Query może znacząco uprościć proces przygotowania danych. Użytkownicy zyskali możliwość:

  • automatyzacji powtarzalnych zadań związanych z czyszczeniem danych,
  • ujednolicania formatów i struktur, co umożliwia łatwiejszą integrację danych z różnych źródeł,
  • minimalizacji błędów wynikających z niespójności danych wejściowych,
  • zwiększenia efektywności pracy analitycznej i raportowej.

Efektywne wykorzystanie Power Query nie wymaga zaawansowanej znajomości programowania, co sprawia, że narzędzie to jest dostępne dla szerokiego grona użytkowników – od analityków po pracowników działów operacyjnych. Największą wartością wynikającą z wdrożenia standaryzowanych procesów czyszczenia danych jest poprawa jakości decyzji opartych na danych oraz oszczędność czasu w codziennej pracy.

Case study uwidoczniło, jak konsekwentne podejście do przygotowania danych wpływa na ich przejrzystość, spójność i wartość analityczną. Dzięki Power Query możliwe jest nie tylko oczyszczanie danych, ale też ich logiczne uporządkowanie, co stanowi solidny fundament pod dalszą analizę, wizualizację lub integrację z innymi systemami.

W Cognity uczymy, jak skutecznie radzić sobie z podobnymi wyzwaniami – zarówno indywidualnie, jak i zespołowo.

icon

Formularz kontaktowyContact form

Imię *Name
NazwiskoSurname
Adres e-mail *E-mail address
Telefon *Phone number
UwagiComments