# 11 Lab - Business Intelligence ###### tags: `Niestacjonarne` `Business Intelligence` `Tableau` [TOC] # Wprowadzenie - cel ćwiczenia Celem ćwiczenia jest doskonalenie umiejętności wykorzystania narzędzi analityki wizualnej w Tableau. # 1. Klastrowanie Wśród narzędzi analitycznych oferowanych przez Tableau są znajdują się m.in. metody grupowania danych - tzw. analiza klastrowa. Klastrowanie to technika grupowania obiektów o podobnych własnościach, zaś klaster powstający podczas grupowania to klasa obiektów podobnych. Klastrowanie to metoda uczenia maszynowego, należąca do klasy metod uczenia nienadzorowanego - jej celem jest znalezienie „naturalnych” skupień dla zbioru obiektów. Odpowiednikiem tej metody w uczeniu nadzorowanym jest proces klasyfikacji. Problem klastrowania ppolega na podziale zbioru **P** na **k** klastrów tak aby funkcja **F** przyjmowała maksymalną wartość, gdzie: * **k** - liczba klastrów, * **P** - zbiór obiektów, * **F** - funkcja oceny jakości klastrów (objective function). ## Przykład klastrowania - analiza atrakcyjności krajów pod katem trustyki senioralnej Celem zadania jest przeprowadzenie procesu przyporządkowania poszczególnych krajów do zbiorów grupujących kraje, wśród których potencjał turystyczny osób w przewdziale wiekowym 65+ jest na podobnym poziomie. ## 1.1. Dane źródłowe Analiza będzie przeprowadzona na wbudowanym w Tableau zbiorze wskaźników ekonomicznych - World Indicators. ## 1.2. Identyfikacja zmiennych wykorzystywanych do klastrowania Podczas przygotowania analizy to projektant/analityk decyduje, które zmienne wykorzysta do realizacji procesu klastrowania. Wybór zmiennych powinien być uzasadniony logicznie, tzn. należy poszukiwać takich zmiennych, których wartości mogą być determinujące dla analizowanego podziału. W naszym zadaniu, jako zmienne wykorzystywane podczas klastrowania proponuję przyjąć: * oczekiwana długość zycia kobiet, oczekiwana długość życia mężczyzn - im dłużej osoby z grupy 65+ żyją tym dłużej mogą być uczestnikami rynku turystycznego, * liczebność grupy 65+ (w % ogólnej populacji)- im jest liczniejsza, tym rynek usług utystycznych skierowany do niej może być większy, * suma wydatków trustycznych na osobę w danym kraju - większa wartość wpływa korzystnie na rynek usług turystycznych. {%youtube mfrNWvoBCTg %} ## 1.3 Ocena wyników klastrowania W celu oceny wynikó klastrowania należy wyświetlić z menu podręcznego opcję *Describe clusters*. ![](https://i.imgur.com/gCCparp.png) Opcja ta wywołuje okienko , w którym mamy dostępne następujące informacje: * współrzędne centrów poszczególnych klastrów, * liczbę punktów sklasyfikowanych w poszczególnych grupach, * **Suma kwadratów między grupami (Between-group sum of squares)** - metryka kwantyfikująca separację między klastrami jako suma kwadratowych odległości między centrum każdego klastra (wartość średnia), ważona liczbą punktów danych przypisanych do klastra i środkiem zestawu danych. **Im większa wartość, tym lepsza separacja między klastrami.** * **Suma kwadratów w grupie (Within-group sum of squares)** - Metryka określająca spójność skupień jako suma kwadratowych odległości między środkiem każdego skupienia a poszczególnymi znakami w skupieniu. **Im mniejsza wartość, tym bardziej spójne są klastry.** :::info Zasadniczo, analiza jest tym bardziej udana im większa jest wartość metryki: **(between-group sum of squares)/(total sum of squares)** Powyższa metryka może przyjmować wartości z zakresu <0; 1>. ::: ![](https://i.imgur.com/PCIX6SR.png) # 2. Ćwiczenie W celu doskonalenia umiejętności wykorzystania analityki wizualnej w Tableau proponuję realizację ćwiczeń przygotowanych przez autorów Tableau: [Find Clusters in Data](https://help.tableau.com/v2020.1/pro/desktop/en-us/clustering.htm). Ostatni przykład zaprezentowany na ww. stronie (Example: Create clusters using World Economic Indicators data) zawiera podobne zadanie jak zaprezentowane w pkt. 1.1-1.3 - użyto jednak innego zestawu zmiennych do klastrowania. Które podejście do wyboru zmiennych do klastrowania jest lepsze: z pkt.1.1-1.3 czy [strony Tableau](https://help.tableau.com/v2020.1/pro/desktop/en-us/clustering.htm) (spróbuj ocenić używając metryki z niebieskiej ramki powyżej)? Zrealizowane ćwiczenie należy przesłać na zaliczenie w ramach zadania na Wirtualnym Kampusie do dnia **04.06.2020**.