Try   HackMD

BI - eksploracja danych: klastrowanie

tags: Business Intelligence Tableau

Wprowadzenie - cel ćwiczenia

Celem ćwiczenia jest doskonalenie umiejętności wykorzystania narzędzi analityki wizualnej w Tableau.

1. Klastrowanie

Wśród narzędzi analitycznych oferowanych przez Tableau są znajdują się m.in. metody grupowania danych - tzw. analiza klastrowa. Klastrowanie to technika grupowania obiektów o podobnych własnościach, zaś klaster powstający podczas grupowania to klasa obiektów podobnych.

Klastrowanie to metoda uczenia maszynowego, należąca do klasy metod uczenia nienadzorowanego - jej celem jest znalezienie „naturalnych” skupień dla zbioru obiektów. Odpowiednikiem tej metody w uczeniu nadzorowanym jest proces klasyfikacji.

Problem klastrowania ppolega na podziale zbioru P na k klastrów tak aby funkcja F przyjmowała maksymalną wartość, gdzie:

  • k - liczba klastrów,
  • P - zbiór obiektów,
  • F - funkcja oceny jakości klastrów (objective function).

Przykład klastrowania - analiza atrakcyjności krajów pod katem trustyki senioralnej

Celem zadania jest przeprowadzenie procesu przyporządkowania poszczególnych krajów do zbiorów grupujących kraje, wśród których potencjał turystyczny osób w przewdziale wiekowym 65+ jest na podobnym poziomie.

1.1. Dane źródłowe

Analiza będzie przeprowadzona na wbudowanym w Tableau zbiorze wskaźników ekonomicznych - World Indicators.

1.2. Identyfikacja zmiennych wykorzystywanych do klastrowania

Podczas przygotowania analizy to projektant/analityk decyduje, które zmienne wykorzysta do realizacji procesu klastrowania. Wybór zmiennych powinien być uzasadniony logicznie, tzn. należy poszukiwać takich zmiennych, których wartości mogą być determinujące dla analizowanego podziału. W naszym zadaniu, jako zmienne wykorzystywane podczas klastrowania proponuję przyjąć:

  • oczekiwana długość zycia kobiet, oczekiwana długość życia mężczyzn - im dłużej osoby z grupy 65+ żyją tym dłużej mogą być uczestnikami rynku turystycznego,
  • liczebność grupy 65+ (w % ogólnej populacji)- im jest liczniejsza, tym rynek usług utystycznych skierowany do niej może być większy,
  • suma wydatków trustycznych na osobę w danym kraju - większa wartość wpływa korzystnie na rynek usług turystycznych.

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

1.3 Ocena wyników klastrowania

W celu oceny wynikó klastrowania należy wyświetlić z menu podręcznego opcję Describe clusters.

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

Opcja ta wywołuje okienko , w którym mamy dostępne następujące informacje:

  • współrzędne centrów poszczególnych klastrów,
  • liczbę punktów sklasyfikowanych w poszczególnych grupach,
  • Suma kwadratów między grupami (Between-group sum of squares) - metryka kwantyfikująca separację między klastrami jako suma kwadratowych odległości między centrum każdego klastra (wartość średnia), ważona liczbą punktów danych przypisanych do klastra i środkiem zestawu danych. Im większa wartość, tym lepsza separacja między klastrami.
  • Suma kwadratów w grupie (Within-group sum of squares) - Metryka określająca spójność skupień jako suma kwadratowych odległości między środkiem każdego skupienia a poszczególnymi znakami w skupieniu. Im mniejsza wartość, tym bardziej spójne są klastry.

Zasadniczo, analiza jest tym bardziej udana im większa jest wartość metryki:
(between-group sum of squares)/(total sum of squares)
Powyższa metryka może przyjmować wartości z zakresu <0; 1>.

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

2. Ćwiczenie - Klasteryzacja krajów z wykorzystaniem uczenia nienadzorowanego dla HELP International

2.1 Opis problemu

Cel:
Sklasyfikowanie krajów na podstawie czynników społeczno-ekonomicznych i zdrowotnych, które decydują o ogólnym rozwoju kraju.

O organizacji:
HELP International to międzynarodowa humanitarna organizacja pozarządowa, której celem jest walka z ubóstwem i zapewnienie mieszkańcom krajów zacofanych podstawowych udogodnień i pomocy w czasie katastrof i klęsk żywiołowych.

Opis problemu:
HELP International udało się zebrać około 10 milionów dolarów. Dyrektor generalny organizacji pozarządowej musi teraz zdecydować, jak wykorzystać te pieniądze w sposób strategiczny i efektywny. Prezes musi więc podjąć decyzję o wyborze krajów, które najbardziej potrzebują pomocy. Twoim zadaniem jako Data scientist jest zatem skategoryzowanie krajów na podstawie pewnych czynników społeczno-ekonomicznych i zdrowotnych, które determinują ogólny rozwój kraju. Następnie musisz zasugerować, na których krajach dyrektor generalny powinien się najbardziej skupić.

2.2 Dane źródłowe

Dane dostęppne w serwisie Kaggle.

Kaggle, spółka zależna Google LLC, to internetowa społeczność naukowców zajmujących się danymi oraz praktyków uczenia maszynowego. Kaggle pozwala użytkownikom wyszukiwać i publikować zbiory danych, badać i budować modele w internetowym środowisku nauki o danych, współpracować z innymi naukowcami i inżynierami uczenia maszynowego oraz brać udział w konkursach mających na celu rozwiązywanie problemów z zakresu nauki o danych.
Firma Kaggle rozpoczęła swoją działalność w 2010 r., organizując konkursy z zakresu uczenia maszynowego, a obecnie oferuje również publiczną platformę danych, oparty na chmurze warsztat do nauki o danych oraz edukację w zakresie sztucznej inteligencji. W 2011 roku firma pozyskała kapitał własny, który wyceniono na 25 milionów dolarów. W dniu 8 marca 2017 r. firma Google ogłosiła, że przejmuje Kaggle.