# Advanced features --- # Взаимодействия признаков --- ### Категориальные признаки ![](https://i.imgur.com/FBGP937.png =500x) --- ### Категориальные признаки ![](https://i.imgur.com/Ki1jNJd.png) --- ### Числовые признаки ![](https://i.imgur.com/ja3rwfe.png =300x200) Числовые признаки можно * умножать * делить * складывать * вычитать --- Таких признаков можно сделать очень много. Используем * уменьшение размерности * отбор признаков --- ### Числовые + категориальные признаки ![](https://i.imgur.com/oso4fNs.png =500x300) --- Можно считать * статистики (min, max, mean, std, skew, z-score) * количество вхождений * кодирование таргетом --- ### Числовые + категориальные признаки ![](https://i.imgur.com/aKTvIg7.png =500x300) --- ### Признаки decision trees ![](https://i.imgur.com/hqJOWKl.png) --- ### Признаки decision trees ![](https://i.imgur.com/P04EgyQ.png) --- ### KNN Вместо группировки по категориям можно считать статистики по ближайшим соседям * среднний target для ближайших n соседей * среднее расстояние до ближайших n соседей * среднее расстоянние до ближайших n соседей с target == 1 * среднее расстоянние до ближайших n соседей с target == 0 --- ### KNN тонкости * статистики по target считаем только по тестовой выборке * статистики по остальным фичам можно считать по всей выборке * придется писать много кода * долго работает - можно использовать multiprocessing, joblib, etc --- # Матричные разложения --- ### Матричные разложения ![](https://i.imgur.com/BxQNrIn.png) --- ### Матричные разложения ![](https://i.imgur.com/DKjb2N2.png) --- ### Матричные разложения ![](https://i.imgur.com/gBbsCXa.png =450x350) --- ### Матричные разложения * sklearn.decomposition.PCA * sklearn.decomposition.TruncatedSVD * sklearn.decomposition.non_negative_factorization --- ### tSNE ![](https://i.imgur.com/wNrUg6B.png) --- ### tSNE ![](https://i.imgur.com/S0sxPig.png) --- # Использование эмбеддингов --- ### Использование эмбеддингов Тексты * можно взять уже натренированную nn и немного ее доучить * можнно взять эмбеддинги (fasttext, Glove, Word2Vec) и использовать их как фичи в градиентном бустинге --- ### Использование эмбеддингов Можно кодировать категориальные переменные эмбеддингами * при этом можно решать исходную задачу * можно решать вспомогательную задачу --- ### Про эмбеддинги и вспомогательные задачи https://habr.com/ru/post/359136/ --- ### Еще про вспомогательные задачи https://www.kaggle.com/c/avito-demand-prediction ---
{"metaMigratedAt":"2023-06-15T01:05:32.467Z","metaMigratedFrom":"YAML","title":"Advanced features","breaks":true,"description":"View the slide with \"Slide Mode\".","slideOptions":"{\"theme\":\"white\",\"transition\":\"slide\"}","contributors":"[{\"id\":\"6045d9a3-720e-430a-aedb-7786a9a0f1cc\",\"add\":2815,\"del\":144}]"}
    321 views