📊 Jak wytrenować model regresji liniowej w Power BI z ML.NET

Wprowadzenie do ML.NET i Power BI

Współczesna analiza danych coraz częściej łączy narzędzia wizualizacji z możliwościami uczenia maszynowego. ML.NET oraz Power BI to dwa potężne rozwiązania, które w połączeniu pozwalają nie tylko na prezentację i eksplorację danych, ale również na ich predykcyjną analizę.

ML.NET to framework open-source stworzony przez firmę Microsoft, umożliwiający tworzenie modeli uczenia maszynowego bez konieczności opuszczania ekosystemu .NET. Dzięki temu programiści C# i F# mogą budować, trenować i wdrażać modele, takie jak regresja liniowa, klasyfikacja czy analiza klastrów, bez użycia zewnętrznych bibliotek w językach takich jak Python czy R.

Z drugiej strony, Power BI to narzędzie do analizy biznesowej, które użytkownicy wykorzystują do tworzenia interaktywnych raportów i pulpitów nawigacyjnych. Umożliwia ono szybkie łączenie się z różnorodnymi źródłami danych oraz intuicyjne przedstawianie informacji za pomocą wizualizacji.

Połączenie ML.NET i Power BI otwiera nowe możliwości analityczne, pozwalając na integrację modeli predykcyjnych z dynamicznymi raportami. Dzięki temu użytkownicy biznesowi mogą podejmować decyzje w oparciu o prognozy generowane w czasie rzeczywistym – na przykład przewidywać przyszłą sprzedaż, zużycie zasobów czy reakcje klientów.

W tym artykule skupimy się na stworzeniu modelu regresji liniowej przy użyciu ML.NET oraz jego integracji z Power BI w celu wizualizacji wyników predykcji.

Importowanie danych do Power BI

Proces budowania modelu regresji liniowej w Power BI z wykorzystaniem ML.NET rozpoczyna się od załadowania odpowiednich danych. Power BI oferuje szeroki wachlarz możliwości importu danych z różnych źródeł – od prostych plików CSV i Excel, po bazy danych SQL Server, usługi online (takie jak SharePoint czy Dynamics 365), a także źródła zewnętrzne typu API lub Azure.

W kontekście analizy predykcyjnej z wykorzystaniem ML.NET, kluczowe jest, aby dane były nie tylko poprawnie zaimportowane, ale również odpowiednio ustrukturyzowane. Już na etapie importu warto zadbać o to, by dane zawierały kolumny odpowiedzialne za cechy (features) oraz kolumnę docelową (target), którą model będzie miał za zadanie przewidywać.

W Power BI można zaimportować dane na kilka sposobów:

Pliki lokalne, takie jak CSV, XLSX – proste w użyciu, szczególnie dla mniejszych zbiorów danych.
Bazy danych, np. SQL Server, MySQL czy PostgreSQL – umożliwiają pracę na większych i bardziej złożonych zbiorach danych.
Usługi online, jak SharePoint, OneDrive czy Dynamics 365 – przydatne w środowiskach korporacyjnych.
Źródła OData i REST API – pozwalają na dynamiczne pobieranie danych w czasie rzeczywistym.

Po nawiązaniu połączenia ze źródłem, Power BI umożliwia podgląd i selekcję danych, co pozwala na zaimportowanie tylko tych kolumn, które będą istotne w dalszej analizie i budowie modelu. Można również wykorzystać edytor Power Query do wstępnego oczyszczenia i przekształcenia danych jeszcze przed ich załadowaniem do modelu danych Power BI.

Dobrze przygotowane i poprawnie zaimportowane dane stanowią fundament skutecznego modelu uczenia maszynowego. Choć sam proces importu może wydawać się prosty, to już na tym etapie warto kierować się zasadą: im lepiej ustrukturyzowane dane, tym większa szansa na uzyskanie trafnych prognoz w modelu ML.NET.

Przygotowanie danych i inżynieria cech

Jednym z kluczowych etapów procesu tworzenia modelu regresji liniowej jest odpowiednie przygotowanie danych. Jakość danych wejściowych ma bezpośrednie przełożenie na trafność prognoz i ogólną skuteczność modelu. W kontekście Power BI i ML.NET przygotowanie danych obejmuje ich czyszczenie, transformację oraz wybór właściwych cech (zmiennych), które będą wykorzystywane do predykcji.

Wstępne przygotowanie danych

Uzupełnianie braków danych – brakujące wartości mogą prowadzić do błędów w trakcie trenowania modelu. Najczęściej stosuje się strategie takie jak średnia, mediana lub usunięcie wierszy.
Normalizacja – skala wartości cech może znacząco wpływać na działanie modelu regresji. Warto rozważyć przeskalowanie danych np. do zakresu 0–1 lub zastosowanie standaryzacji.
Usuwanie odstających obserwacji – wartości odstające mogą zaburzać liniowość danych i wpływać negatywnie na jakość predykcji.

Inżynieria cech

Inżynieria cech polega na tworzeniu nowych lub przekształcaniu istniejących zmiennych, aby lepiej reprezentowały zależności ukryte w danych. W przypadku regresji liniowej, kluczowe jest zapewnienie, że cechy są odpowiednio zakodowane i możliwie liniowo zależne od zmiennej docelowej.

One-hot encoding – potrzebny w przypadku cech kategorycznych. Polega na zamianie kategorii na osobne kolumny binarne.
Ekstrakcja cech czasowych – z dat można wydzielić takie informacje jak miesiąc, dzień tygodnia czy pora roku, które mogą mieć wpływ na wynik.
Transformacje matematyczne – logarytmowanie, potęgowanie czy pierwiastkowanie cech może pomóc uzyskać zależność bardziej liniową.

Przykład: normalizacja i kodowanie zmiennych

using Microsoft.ML.Data;

public class InputData
{
    [LoadColumn(0)] public float Cena;
    [LoadColumn(1)] public float Metraz;
    [LoadColumn(2)] public string Lokalizacja;
}

public class TransformedData
{
    public float Cena;
    public float Metraz;
    public float[] LokalizacjaEncoded;
}

W powyższym przykładzie kolumna Lokalizacja zostanie zakodowana na wektor cech typu one-hot, co umożliwia jej wykorzystanie w modelu regresji liniowej.

Porównanie: surowe vs przygotowane dane

Cecha	Surowe dane	Dane po przygotowaniu
Metraż	12 – 150 m² (różne jednostki)	0.1 – 1.0 (przeskalowane)
Lokalizacja	"Centrum", "Przedmieścia"	[1,0], [0,1] (one-hot)
Cena	Brak wartości w niektórych wierszach	Uzupełniono medianą

Efektywne przygotowanie danych i inżynieria cech są niezbędne dla uzyskania rzetelnego modelu regresji. Pozwalają one na redukcję szumu, uwzględnienie nieliniowości i zwiększenie jakości predykcji. Jeśli chcesz dowiedzieć się więcej o praktycznym wykorzystaniu AI i uczenia maszynowego w analizie danych, zapoznaj się z Kursem Praktyczne narzędzia AI: Machine Learning, Deep Learning i RAG dla analityków i nieprogramistów.

💡 Pro tip: Zbuduj w ML.NET jeden spójny pipeline (imputacja braków, skalowanie, one-hot), aby identycznie stosować preprocessing w treningu i podczas predykcji oraz uniknąć rozjazdów cech.

Tworzenie modelu regresji liniowej przy użyciu ML.NET

ML.NET to framework stworzony przez Microsoft, który umożliwia tworzenie modeli uczenia maszynowego bez konieczności wychodzenia z ekosystemu .NET. Dzięki temu można łatwo budować, trenować i wdrażać modele predykcyjne, w tym regresji liniowej, wykorzystując języki takie jak C# czy F#.

Regresja liniowa jest jednym z najprostszych i najbardziej intuicyjnych modeli predykcyjnych. Jest używana głównie do przewidywania wartości liczbowych na podstawie jednej lub wielu zmiennych wejściowych. Typowe zastosowania to np. prognozowanie sprzedaży, przewidywanie cen nieruchomości czy estymacja kosztów.

Element	Opis
Framework	ML.NET
Typ modelu	Regresja liniowa
Cel	Predykcja wartości ciągłych (np. liczby, ceny)
Wymagania	Środowisko .NET, biblioteka Microsoft.ML

Aby stworzyć model regresji liniowej w ML.NET, należy przejść przez kilka kluczowych kroków:

Załadowanie i przygotowanie danych do treningu.
Zdefiniowanie schematu danych (klasy wejściowej i wyjściowej).
Skonfigurowanie potoku treningowego przy użyciu odpowiedniego algorytmu regresji.
Trenowanie modelu na zestawie danych.

Poniżej znajduje się uproszczony przykład kodu tworzącego model regresji liniowej w ML.NET:

using Microsoft.ML;
using Microsoft.ML.Data;

public class InputData
{
    public float Feature1 { get; set; }
    public float Feature2 { get; set; }
    public float Label { get; set; }
}

public class Prediction
{
    public float Score { get; set; }
}

var context = new MLContext();
var data = context.Data.LoadFromTextFile("dane.csv", separatorChar: ',');

var pipeline = context.Transforms.Concatenate("Features", nameof(InputData.Feature1), nameof(InputData.Feature2))
    .Append(context.Regression.Trainers.Sdca(labelColumnName: "Label", maximumNumberOfIterations: 100));

var model = pipeline.Fit(data);

Powyższy kod tworzy prosty model regresji liniowej przy użyciu algorytmu SDCA (Stochastic Dual Coordinate Ascent). W kolejnych etapach można ten model zapisać do pliku, wykorzystać do predykcji lub zintegrować z Power BI.

Integracja modelu ML.NET z Power BI

Po utworzeniu i wytrenowaniu modelu regresji liniowej w ML.NET, kolejnym krokiem jest jego integracja z Power BI. Proces ten umożliwia wykorzystanie predykcji modelu bezpośrednio w raportach i wizualizacjach, co znacząco zwiększa wartość analityczną danych prezentowanych w Power BI.

Integracja ML.NET z Power BI nie odbywa się natywnie – wymaga użycia pośrednich mechanizmów, takich jak:

Power BI Desktop + R lub Python Script – umożliwia wywoływanie modelu ML.NET poprzez skrypt uruchamiany lokalnie wewnątrz Power BI.
Usługa REST API – model ML.NET może zostać opakowany jako aplikacja webowa (.NET), która udostępnia interfejs API. Power BI pobiera wtedy predykcje za pomocą źródła danych typu Web.
Plik CSV/Excel z wynikami predykcji – prostsze, ale statyczne podejście: dane są eksportowane z aplikacji ML.NET do pliku, który następnie jest ładowany do Power BI.

Poniższa tabela podsumowuje najczęściej stosowane metody integracji modelu ML.NET z Power BI:

Metoda	Zastosowanie	Zalety	Wady
Skrypt R/Python	Szybka integracja lokalna	Bez potrzeby budowy API, szybkie prototypowanie	Ograniczenia wydajności, zależność od lokalnego środowiska
REST API	Produkcja, interaktywne zapytania	Elastyczność, skalowalność, aktualne dane	Wymaga hostingu i zabezpieczeń
Eksport do CSV	Raporty okresowe	Najprostsze rozwiązanie, brak zależności zewnętrznych	Dane statyczne, brak automatyzacji

Dla bardziej zaawansowanych scenariuszy i dynamicznych raportów, rekomenduje się wdrożenie modelu ML.NET jako usługi REST API. Poniżej przykład podstawowego zapytania HTTP, jakie Power BI może wykonać do modelu:

GET https://moj-model-ml.azurewebsites.net/predict?x1=42&x2=3.14
Content-Type: application/json

Otrzymane dane można następnie załadować do Power BI jako źródło typu Web i przekształcić za pomocą Power Query. Ten sposób daje największą elastyczność i umożliwia automatyzację prognoz w czasie rzeczywistym. Jeśli chcesz lepiej zrozumieć proces implementacji i wykorzystania modeli ML.NET w praktyce, rozważ zapisanie się na Kurs Machine Learning dla programistów, który krok po kroku przeprowadzi Cię przez wszystkie istotne zagadnienia.

W kolejnych etapach skupimy się na przygotowaniu konkretnych połączeń oraz implementacji odpowiednich skryptów i parametrów w Power BI, aby w pełni wykorzystać potencjał tej integracji.

💡 Pro tip: Wystaw model jako REST API z uwierzytelnianiem (Bearer token) i w Power BI włącz odświeżanie inkrementalne oraz buforowanie wyników, aby mieć interaktywne prognozy bez zbędnego obciążenia.

Wizualizacja wyników modelu w Power BI

Po wytrenowaniu modelu regresji liniowej przy użyciu ML.NET i zaimplementowaniu go w Power BI, kluczowe staje się przejrzyste przedstawienie jego wyników. Odpowiednia wizualizacja pozwala nie tylko zrozumieć działanie modelu, ale także podejmować trafniejsze decyzje biznesowe w oparciu o prognozy.

Power BI oferuje szeroki wachlarz narzędzi wizualnych, które można wykorzystać do prezentacji wyników predykcji. Do najczęściej stosowanych należą:

Wykresy liniowe – idealne do porównania wartości rzeczywistych i prognozowanych w czasie.
Wizualizacje punktowe (Scatter plot) – przydatne do oceny trafności predykcji na podstawie relacji pomiędzy zmienną niezależną a przewidywaną.
Kolumnowe wykresy porównawcze – do zestawienia wartości przewidywanych i rzeczywistych w różnych kategoriach.
Karty wskaźnikowe – do prezentacji metryk modelu, np. średniego błędu (MAE), R² czy RMSE.

Przykładowo, aby porównać wartości przewidywane z rzeczywistymi, można utworzyć wykres liniowy z dwiema seriami danych:

X-Axis: Data lub indeks obserwacji
Y-Axis: Wartość rzeczywista i wartość przewidywana

Dodatkowo, warto stworzyć prostą tabelę porównawczą w Power BI pokazującą wartości rzeczywiste i prognozy obok siebie:

Indeks	Wartość rzeczywista	Wartość prognozowana
1	120	118.7
2	135	132.4
3	150	151.2

Takie zestawienie pozwala szybko zidentyfikować obserwacje odbiegające od przewidywań i ocenić skuteczność modelu w praktyce.

Warto również wykorzystać interaktywność Power BI, np. możliwość filtrowania wyników wg segmentów danych, co umożliwia bardziej granularne spojrzenie na skuteczność modelu w różnych kontekstach biznesowych.

Podsumowując, wizualizacja wyników w Power BI to nie tylko przedstawienie danych, ale też istotny krok w procesie interpretacji i walidacji skuteczności modelu regresji liniowej.

Weryfikacja i ocena skuteczności modelu

Po wytrenowaniu modelu regresji liniowej przy użyciu ML.NET, kluczowym krokiem jest jego ocena pod kątem skuteczności i trafności predykcji. Weryfikacja modelu polega na analizie, jak dobrze przewiduje on rzeczywiste wartości na podstawie danych wejściowych, których nie znał wcześniej.

Najczęściej stosowanymi metrykami do oceny modeli regresyjnych są:

R² (współczynnik determinacji) – wskazuje, jaka część wariancji zmiennej zależnej jest wyjaśniona przez model. Im bliżej 1, tym lepiej.
MAE (średni błąd bezwzględny) – mierzy średnią różnicę między wartościami rzeczywistymi a przewidywanymi, bez uwzględniania kierunku błędu.
RMSE (pierwiastek z błędu średniokwadratowego) – podkreśla większe błędy, przez co jest bardziej wrażliwy na odchylenia niż MAE.

W ML.NET metryki te można łatwo obliczyć przy użyciu klasy RegressionMetrics, dostępnej po przeprowadzeniu ewaluacji modelu. Przykładowo, jeśli posiadamy obiekt metrics, możemy uzyskać dostęp do poszczególnych wskaźników w następujący sposób:

Console.WriteLine($"R²: {metrics.RSquared}");
Console.WriteLine($"MAE: {metrics.MeanAbsoluteError}");
Console.WriteLine($"RMSE: {metrics.RootMeanSquaredError}");

Aby zwiększyć wiarygodność oceny, warto wykorzystać dane testowe, które nie były użyte podczas treningu modelu. Dzięki temu możliwe jest sprawdzenie, czy model nie jest nadmiernie dopasowany (overfitted) do danych treningowych.

W kontekście Power BI, wyniki metryk mogą zostać zwizualizowane w raporcie, co ułatwia ich interpretację użytkownikom biznesowym. To także stanowi podstawę do dalszych decyzji: czy model spełnia oczekiwania, czy wymaga dalszej optymalizacji bądź ponownego treningu z innym zestawem cech lub hiperparametrów.

Podsumowanie i dalsze kroki

W artykule pokazaliśmy, jak wykorzystać ML.NET w połączeniu z Power BI do stworzenia prostego modelu regresji liniowej. ML.NET to elastyczna platforma uczenia maszynowego dla .NET, która umożliwia tworzenie modeli predykcyjnych bez konieczności opuszczania ekosystemu Microsoft. Natomiast Power BI to potężne narzędzie do analizy i wizualizacji danych, które pozwala w przejrzysty sposób prezentować wyniki działania modeli uczenia maszynowego.

Połączenie ML.NET i Power BI otwiera wiele możliwości dla analityków danych oraz programistów pracujących w środowisku .NET. Dzięki temu można:

tworzyć niestandardowe modele ML lokalnie, bez konieczności korzystania z usług chmurowych,
wykorzystywać predykcje modeli bezpośrednio w raportach Power BI,
automatyzować analizę danych historycznych i szacować wartości przyszłe na podstawie istniejących trendów.

Choć regresja liniowa to jedno z najprostszych podejść w uczeniu maszynowym, proces jej implementacji i integracji z Power BI pozwala zrozumieć, jak cały pipeline – od danych po wizualizację – może wyglądać w praktyce. W kolejnych krokach warto rozważyć rozszerzenie modelu o bardziej zaawansowane algorytmy, walidację wyników oraz optymalizację cech wejściowych.

To podejście stanowi solidny fundament do dalszego wdrażania uczenia maszynowego w codziennej pracy analitycznej i raportowej.

Majczęściej zadawane pytania i odpowiedzi odnośnie Jak wytrenować model regresji liniowej w Power BI za pomocą ML.NET?

Czy można wytrenować model regresji liniowej w Power BI bezpośrednio w samym Power BI?

Nie, opisane rozwiązanie nie polega na natywnym trenowaniu modelu ML.NET bezpośrednio w Power BI. W artykule model regresji liniowej jest tworzony i trenowany w ML.NET, a Power BI służy głównie do importu danych, prezentacji wyników oraz integracji predykcji. Połączenie obu narzędzi wymaga użycia mechanizmu pośredniego, na przykład API, skryptu lub pliku z wynikami.

Jakie dane są potrzebne do stworzenia modelu regresji liniowej w ML.NET?

Potrzebne są dane z cechami wejściowymi oraz kolumną docelową, którą model ma przewidywać. Artykuł podkreśla, że już na etapie importu warto zadbać o właściwą strukturę danych. W praktyce oznacza to przygotowanie kolumn liczbowych lub odpowiednio zakodowanych kategorii oraz jednej zmiennej, która będzie etykietą treningową dla modelu regresyjnego.

Jak przygotować dane w Power BI przed treningiem modelu regresji liniowej?

Najpierw trzeba oczyścić i przekształcić dane tak, aby nadawały się do treningu modelu. W artykule wskazano kilka kluczowych działań:

uzupełnianie brakujących wartości,
normalizację lub standaryzację cech,
usuwanie obserwacji odstających,
wybór kolumn istotnych dla predykcji.

Do wstępnego przygotowania danych można wykorzystać Power Query jeszcze przed załadowaniem danych do modelu.

Po co stosuje się one-hot encoding w modelu regresji liniowej z ML.NET?

One-hot encoding pozwala zamienić dane kategoryczne na formę liczbową zrozumiałą dla modelu. W artykule pokazano przykład kolumny lokalizacji, która po zakodowaniu staje się wektorem cech binarnych. Dzięki temu regresja liniowa może uwzględniać wartości tekstowe, takie jak nazwy miejsc, bez ryzyka błędnej interpretacji ich jako zwykłych liczb.

Jaki algorytm regresji liniowej został użyty w przykładzie ML.NET?

W przykładzie użyto algorytmu SDCA dostępnego w ML.NET. Kod pokazuje budowę potoku, w którym najpierw łączone są cechy wejściowe, a następnie uruchamiany jest trener regresji z wykorzystaniem SDCA. To podejście pozwala szybko zbudować prosty model przewidujący wartości ciągłe, takie jak cena, sprzedaż lub koszt.

Jak zintegrować model ML.NET z Power BI, żeby pokazywać predykcje w raporcie?

Model ML.NET można połączyć z Power BI przez warstwę pośrednią, a nie bezpośrednio. Artykuł opisuje trzy główne sposoby integracji:

uruchamianie przez skrypt R lub Python w Power BI Desktop,
wystawienie modelu jako usługi REST API,
eksport wyników predykcji do pliku CSV lub Excel.

Do raportów dynamicznych najbardziej praktyczne jest API, ponieważ umożliwia pobieranie aktualnych wyników.

Jakie metryki najlepiej sprawdzić, aby ocenić skuteczność modelu regresji liniowej w ML.NET?

Najczęściej warto sprawdzić R², MAE i RMSE. Artykuł wskazuje, że te trzy metryki dobrze pokazują jakość modelu regresyjnego. R² mówi, jak dobrze model wyjaśnia zmienność danych, MAE pokazuje średni bezwzględny błąd, a RMSE mocniej uwzględnia większe odchylenia między wartościami rzeczywistymi i przewidywanymi.

Jak najlepiej wizualizować wyniki modelu regresji liniowej w Power BI?

Najlepiej porównywać wartości rzeczywiste i prognozowane na czytelnych wizualizacjach. Artykuł rekomenduje kilka form prezentacji wyników: