Business Intelligence
Tableau
W ramach ćwiczenia zostaną omówione techniki modelowania predykcyjnego wykorzystujące funkcje wbudowane w Tableau:
Dane źródłowe do ćwiczenia to data source zapisane w Tableau: World Indicators. Ćwiczenie polega na badaniu zależności między następującymi miarami zawartymi w ww. pliku:
Zakładamy, że istnieje związek (trend) pomiędzy następującymi miarami:
a - oczekiwana długość życia kobiet i wydatki na zdrowie,
b - oczekiwana długość życia kobiet i współczynnik urodzeń (na 1000 mieszkańców).
W ćwiczeniu postaramy się zbadać, które kraje dobrze wpisują się w obserowowany trend, a które oddalają się od niego.
Badamy zależność między wskaźnikami:
Wykreślamy ww. zaleźność (używająca funkcji agregujących AVG oraz MEDIAN) ja na Rys.1. Dodatkowo, aby sprawdzić trend pomiędzy miarami na rysunku dodano najlepiej doasowaną linię trendu (proszę samodzielnie wybrać którą).
Aby zniwelować efekt dużej róźnicy wartości współczynnika związanego z wydatkai na osobę można zastosować skalę logarytmiczną na osi OX - Rys.2.
Zakładając, że zależność logarytmiczna jest trendem dobrze opisującym analizowany zestaw danych, przyjmijmy, że dalszą analizę będziemy prowadzić między:
W tym celu należy zdefiniować pole obliczeniowe np. LifeExpPerc zgodnie z formułą:
Następnie należy dodać zdefiniowane pole obliczeniowe MODEL_PERCENTILE do widoku, zgodnie z poniższymi punktami.
Na Rys. można zobaczyć rozkład krajów, w których oczekiwana długość życiajest zarówno wyższa, jak i niższa niż oczekiwano, na podstawie poziomu wydatków. Należy zauważyć, że ogólnie ciemnoczerwone znaki wskazują, że oczekiwana długość życia jest wysoka w stosunku do wydatków na opiekę zdrowotną, ciemnoniebieska oznacza, że oczekiwana długość życia jest niska w porównaniu z wydatkami na opiekę zdrowotną, a kolor szary oznacza, że oczekiwana długość życia jest zbliżona do oczekiwanej przez model, na podstawie poziomu wydatków na opiekę zdrowotną.
MODEL_PERCENTILE zwraca prawdopodobieństwo, że nieobserwowana wartość jest mniejsza lub równa obserwowanemu znacznikowi, zdefiniowanemu przez target_expression i na podstawie innych predyktorów (predyktor - zmienna modelu statystycznego, stosowana w prognozowaniu; zmienna niezależna, zmienna objaśniająca), które użytkownik może wybrać. Jest to funkcja przewidywania a posteriori, znana również jako funkcja skumulowanej gęstości (CDF). To obliczenie zwróci wartość z przedziału od 0 do 1.
Percentyl, w praktyce pomiarowej nazywany również centylem (centyl) jest jednostką statystyczną opisującą położenie danego wyniku względem całej grupy wyników. Poszczególne centyle określają nam jaki ile wyników (procentowo) było niższych bądź wyższych od pewnego wyniki.
Aby uprościć analizę, użyj wyników prognozowania w polu obliczeniowym, aby wizualnie pogrupować wyniki. Zbudujemy grupy w taki sposób, aby zgrupowane były razem znaczniki powyżej 90. i poniżej 10. percentyla, punkty z przedziału od 80 do 90 centyla oraz z przedziału od 10 do 20 centyla i tak dalej.
Następnie nalezy dodać ww. pole obliczeniowe do znacznika kolor menu podręcznego wybierając Compute Using > Country/Region. Proszę ponadto wybrać paletę kolorów Traffic Light oraz kolor szary dla Nulls.
Patrząc na pomarańczowy znak w rogu, zauważ, że Stany Zjednoczone wydają 8895 USD na kobietę przy średniej długości życia 81 lat. Poruszając się wzdłuż osi X w lewo, widać, że inne kraje wydają mniej i mają taką samą długość życia.
Model ocenia siłę relacji dla każdego kraju.
W kolejnym kroku zbadamy trend pomiędzy długością życia kobiet i współczynnikiem urodzeń.
Zgodnie z poprzednią procedurą zrealizujemy modelowanie za pomocą funkcji MODEL_PERCENTILE
Niestety, nie wszystkie punkty wpisują się w trend.
Do weryfikacji bardziej subtelnych zależności można użyć funkcji MODEL_QUANTILE. MODEL_QUANTILE jest używana do generowania prognoz numerycznych na podstawie docelowego percentyla, wyrażenia docelowego i predyktorów. Jest odwrotnością MODEL_PERCENTILE.
Zdefiniujmy zmienną Quantile of Life Expectancy vs Spending
Objaśmijmy obliczenia, aby lepiej je zrozumieć:
Dodajmy ww. wyrażenie do tooltipa jako Przewidywana przez model długość życia kobiet. Proszę wykorzystać tą zmienną do opisania każdego punktu (Państwa) w tooltip.