# 12 Lab - BI :: Data Mining ###### tags: `Business Intelligence` `Tableau` `data mining` `współwystępowanie` `histogram` [TOC] # Wprowadzenie - cel ćwiczenia Podczas zajęć należy przygotować kokpit managerski służący do analizy współwystępowania (*Co-Occurrence*) oraz do analizy rozkładu wybranej cechy. # 1. Informacje podstawowe ## 1.1. Techniki data mining: współwystępowanie Grupowanie współwystąpień (*co-occurence grouping*) lub odkrywanie zależności (*association discovery*) stara się znaleźć związki pomiędzy jednostkami na podstawie transakcji z ich udziałem. Załóżmy, że prowadzimy sklep internetowy. Na podstawie danych koszykowych moglibyśmy poinformować klienta, że „klienci, którzy kupowali nowy zegarek eWatch, kupowali także bransoletkę eBracelet z Bluetooth i głośnikiem”. Gdyby zależności faktycznie wychwytywały rzeczywiste preferencje klientów, to moglibyśmy zwiększyć swoje przychody poprzez sprzedaż wiązaną. Mogłoby to także zwiększyć wartość doświadczenia klientów (w tym przypadku dzięki możliwości słuchania muzyki stereo z ich, w innym przypadku monofonicznych, zegarków), a tym samym wzmocnić naszą pozycję dzięki dodatkowej porcji ich lojalności. ## 1.2.Wizualizacja współwystępowania w Tableau W Tableau można tworzyć wizualizacje współwystępowania: użytkownicy mogą wybrać jedną wartość pola, a następnie zobaczyć, z jakimi innymi wartościami pól współwystępuje i jak często. Jednym z praktycznych zastosowań takiej analizy jest analiza koszyka rynkowego, którą można wykorzystać do odkrycia i zrozumienia zachowań zakupowych klientów. Możesz użyć analizy koszyka rynkowego, aby odpowiedzieć na pytania takie jak: * Ile osób kupiło zarówno Produkt A, jak i Produkt B? * Jakie inne produkty zazwyczaj kupują osoby, które kupiły Produkt A? * Na jakie inne kursy często zapisują się uczniowie, którzy zapisali się na Kurs A? # 2. Przykład współwystępowania - analiza koszyka rynkowego Kroki do realizacji: 1. Utwórz parametr, którego użyjesz do dynamicznej modyfikacji widoku na podstawie wybranego elementu - podkategorii artykułu. 2. Utwórz pola obliczeniowe, które wskażą, które towary są zamawiane razem z elementem wskazywanym przez parametr. 3. Utwórz *set*, aby określić, czy zamówienie zawiera element wybrany w kontrolce parametru. Scenariusz korzysta ze źródła danych **Sample - Superstore** dostarczonego z Tableau Desktop. ## 2.1 Przygotowanie parametru Parametr będzie używany do dynamicznej modyfikacji widoku - wyboru podkategorii produktów w zamówieniu, której współwystępowanie z innymi kategoriami będziemy analizować. W oknie dialogowym *Create parameter* wykonaj następujące czynności: * Nazwij parametr "Zamówienie zawiera". * Jako Typ danych wybierz *String*. * Dla dopuszczalnych wartości wybierz *List*. * W sekcji Lista wartości kliknij*Add form field* -> *Sub-Category*. ## 2.2 Przygotowanie pola obliczeniowego W celu przygotowanie pola obliczeniowego, które będzie wskazywać jakie elementy są zamawiane razem z podkategorią wybraną przez użytkownika (za pośrednictwem pola wyboru parametru) należy: * Przygotuj pole obliczeniowe (*calculeted field*) o nazwie np. "Produkty współwystępujące" z następującym kodem: ``` IF [Sub-Category] <> [Zamówienie zawiera] THEN [Sub-Category] END ``` * Utwórz kolejne pole obliczeniowe, aby zidentyfikować pasujące produkty. Nazwij pole "Dopasowanie produktów" i użyj do definicji pola następującej formuły: ``` IF [Sub-Category] = [Zamówienie zawiera] THEN 1 END ``` ## 2.3 Definicja zestawu (*set*) W polu *Order ID* należy zdefiniować zestaw *Create-->Set*pod nazwą np. "Zamówienie zawiera produkty". Przejdź do karty *Condition*, wybierz *By field*, zbuduj warunek: * Z pierwszej listy rozwijanej wybierz "Dopasowanie produktów". * Z drugiej listy rozwijanej wybierz Suma. * Na następnej liście rozwijanej wybierz >=. * W ostatnim polu tekstowym wpisz 1. ## 2.4 Przygotowanie widoku * Kolumny: **Produkty współwystępujące** * Wiersze: **Order ID** z funkcją agregacji: **Count(Distinct)**. * Filtry: **Zamówienie zawiera produkty**, **Produkty współwystępujące** ![](https://i.imgur.com/aLlITYc.png) # 3. Histogram Histogram to zestawienie danych statystycznych w postaci wykresu powierzchniowego złożonego z przylegających do siebie słupków (prostokątów), których wysokość ilustruje liczebność występowania badanej cechy w populacji lub jej próbie, a podstawy (które spoczywają na osi odciętych) są rozpiętościami przedziałów klasowych. Za pomocą histogramu możliwe jest graficzne przestawienie rozkładu badanej cechy, co w konsekwencji umożliwia lepsze zrozumienie analizowanego zjawiska. Proszę przygotować histogram przedstawiający rozkład cechy "liczba zamawianych produktów" (*quantity*), jak na poniższym rysunku. ![](https://i.imgur.com/aWzT2pr.png)