# Exploratory data analysis [v1] Гущин Александр, DMIA, осень 2019 [TOC] --- 1. Раскапывать интересности в данных :scream_cat: 2. Уметь их наглядно продемонстрировать :heart_eyes_cat: --- Данные до хорошего EDA <!-- ![](https://upload.wikimedia.org/wikipedia/commons/4/46/Hieroglyphs.jpg =500x) --> ![](https://upload.wikimedia.org/wikipedia/commons/2/22/Acta_Eruditorum_-_I_geroglifici%2C_1714_–_BEIC_13384397.jpg =800x) --- Данные после хорошего EDA ![](https://upload.wikimedia.org/wikipedia/commons/thumb/6/65/Comparative_evolution_of_Cuneiform%2C_Egyptian_and_Chinese_characters.jpg/773px-Comparative_evolution_of_Cuneiform%2C_Egyptian_and_Chinese_characters.jpg =300x) --- Мир глазами европейцев в 1459 году <!-- ![](https://upload.wikimedia.org/wikipedia/commons/b/b1/Fra_Mauro_World_Map_Satellite_Comparison.jpg) --> ![](https://upload.wikimedia.org/wikipedia/commons/9/95/Fra_Mauro_World_Map%2C_c.1450.jpg =500x) --- Мир глазами европейцев в 1529 ![](https://upload.wikimedia.org/wikipedia/commons/thumb/7/74/Map_Diego_Ribero_1529.jpg/2880px-Map_Diego_Ribero_1529.jpg) --- Мир глазами европейцев в 1794 ![](https://upload.wikimedia.org/wikipedia/commons/thumb/f/ff/1794_Samuel_Dunn_Wall_Map_of_the_World_in_Hemispheres_-_Geographicus_-_World2-dunn-1794.jpg/1920px-1794_Samuel_Dunn_Wall_Map_of_the_World_in_Hemispheres_-_Geographicus_-_World2-dunn-1794.jpg =600x) --- ## Цели EDA Exploratory Data Analysis 1. Лучше понять задачу 1. Найти закономерности 1. Найти выбросы 1. Найти лики и баги в выгрузке 1. Придумать новые гипотезы и фичи 1. Понять, какие модели предпочтительнее Изучайте предметную область - это интересно и пригодится при решении и других задач. --- ## Способы смотреть на данные 1. Признаки 1. Отдельные признаки 2. Группы признаков 3. Объекты 1. Отдельные объекты 2. Группы объектов 3. Файлы 1. Содержимое файлов 2. Метаданные файлов **Стоит также помнить о таргете** --- ## Отдельные признаки Используйте статистики * среднее * std * медиана, перцентили * многие другие --- Поясняющий слайд про статистики ![](https://upload.wikimedia.org/wikipedia/commons/thumb/1/1a/Boxplot_vs_PDF.svg/1280px-Boxplot_vs_PDF.svg.png =500x) --- Используйте важности признаков и параметры моделей 1. model.coef_ (sklearn.linear_model) 1. model.feature_importance_ (sklearn, xgboost, lightgbm) 1. [SHAP](https://github.com/slundberg/shap) 1. [Permutation values](https://eli5.readthedocs.io/en/latest/) --- Используйте визуализацию 1. Изображая один признак: * histogram * kdeplot * box-plot 1. Сравнивая разные признаки: * scatterplot * violinplot --- Рисовать картинки необязательно ```python # Dataframe df.describe() df.info() df.dtypes # Series df[column].unique() df[column].value_counts() ``` --- ![](https://drive.google.com/uc?export=view&id=1VyRcvU0QI54HFWhjJzLMTHQBA_OA4W77 =600x) --- ![](https://drive.google.com/uc?export=view&id=16KcL0FBHjOecFnjSWmwVlUxn-0FJ2x25 =600x) --- ![](https://drive.google.com/uc?export=view&id=1h23PXaIrxZdl_PYf-Tmupcb9flYZgjJF) --- Вопрос: о чем может сказать равномерное распределение признака? <!-- картинка --> <!-- --- Набор примеров - вайолинплот - номер признака против его статистики - номер признака против его важности - --> --- ## Группы признаков На что смотреть - На интересные завимости между признаками - На группы коррелирующих признаков - На наличие сортировки признаков --- Используйте визуализацию 1. Пары признаков * scatterplot * 2D-densityplot 3. Большие группы признаков * correlation matrix * other F(f1, f2) matrices Попробуйте упорядочить признаки по-другому и нарисовать матрицу корреляций снова <!-- --- Статистика по набору признаков может дать интересный результат (tfidf) --> --- ![](https://drive.google.com/uc?export=view&id=16HZPpuTl3inWqS39usgFJC7izqGj-4Sg =600x) --- ![](https://drive.google.com/uc?export=view&id=1Rtu3ok67THk37xFzaXJxmgA1Wqwm_4gw =600x) --- Матрица корреляций между признаками ![](https://drive.google.com/uc?export=view&id=1wscpWI7OpYtdG9y91-yga97qa8XO4wee) <!-- --- ![](https://drive.google.com/uc?export=view&id=1XSXg16jO50_7dpde1PoZYro-cd3NHn7H =600x) --> <!-- --- пример коррплота пример матрицы с попарными важностями пример из шапа? --> --- ## Группы объектов На что смотреть - Есть ли порядок в расположении объектов? - Связаны ли соседние объекты? - Связаны ли **какие-нибудь** объекты? - Связаны ли объекты из трейна и теста? --- ![](https://drive.google.com/uc?export=view&id=1LG0c2VJKcITlmJhAA5LfvIg3rq_irhQV) <!-- Картинка номер объекта против значения фичи --> --- ![](https://drive.google.com/uc?export=view&id=1zxzLXAFmXiCJ6Ka3pprVCsVpHTSfWlXb) <!-- --- Можно посмотреть внимательнее на 1. diff разных порядков 2. --> --- ## Метаданные файлов Примеры данных: - текстовые документы - картинки - байт-код - и так далее Объекты лежат в разных файликах на диске. --- Метаданные файлов: - название и формат файла - время создания/изменения - создавший пользователь - права на доступ - какая программа записала файл - какой девайс был использован Использовать метаданные не всегда ОК <!-- --- --> <!-- Пример с метаданными --> <!-- --- https://en.wikipedia.org/wiki/Voynich_manuscript --> --- Надо помнить, что базовый EDA можно сделать автоматически - pandas-profiling https://github.com/pandas-profiling/pandas-profiling - Titanic example: https://pandas-profiling.github.io/pandas-profiling/examples/titanic/titanic_report.html И какие-то EDA всегда можно найти на форумах соревнований --- ## Способы смотреть на данные 1. Признаки 1. Отдельные признаки 2. Группы признаков 3. Объекты 1. Отдельные объекты 2. Группы объектов 3. Файлы 1. Содержимое файлов 2. Метаданные файлов **Стоит также помнить о таргете** --- <!-- .slide: data-background="https://upload.wikimedia.org/wikipedia/commons/thumb/f/ff/1794_Samuel_Dunn_Wall_Map_of_the_World_in_Hemispheres_-_Geographicus_-_World2-dunn-1794.jpg/1920px-1794_Samuel_Dunn_Wall_Map_of_the_World_in_Hemispheres_-_Geographicus_-_World2-dunn-1794.jpg" --> <div style="color: #000;"> # EDA </div>
{"metaMigratedAt":"2023-06-15T00:38:55.324Z","metaMigratedFrom":"YAML","title":"Exploratory data analysis","breaks":true,"description":"View the slide with \"Slide Mode\".","slideOptions":"{\"theme\":\"white\",\"transition\":\"slide\"}","contributors":"[{\"id\":\"e0bc91de-98f7-46f8-a3a9-852912833a93\",\"add\":9803,\"del\":3474}]"}
    501 views