# Rocky thicket
---
## Предобработка
Первоначально было выдвинуто несколько гипотез касательно
предобработки текста для дальнейшей работы сервиса - это tf-idf, SVD и embedding.
Но выбор пал на уже предобученный embedding.
---
Чистка текста базировалась исключительно на требованиях к тексту,
со стороны "ведущего" загадывающего слова, которые рассказал Александр на первой лекции: оставить
исключительно латинские символы, привести все слова к нижнему регистру,
произвести Лемматизацию - как один из подходова способствующих улучшению
работы модели - спасибо Виктору.
---
Далее... далее был fasttext с различныии конфигурациями, где выходной размер вектора
подбирался, в самом начале, для сравнительно ленивого подхода, но очень медленного -
сделать автокодеровщик.
---
### 1-ая модель (Красивая, медленная, и бесполезная)))
---
### 2-ая модель (Шустрая)
1. Заобученный embedding или 16 гигов опертивки и 3 перезагрузки ноута без возможности двигать мышкой)
2. Посчитанное косинусное растояние для всех возможных пар в рамках получившегося словаря.
3. Для каждого слова был выбран вектор - Top_200 близких к нему
4. Сохранённый словарик
---
### 3-ая модель (SVD embeddings)
1. Обучалось 5 часов на 5 эпох с размером эмбеддинга 64
2. Не взлетело)
---
## Логика загадывания и отгадывания слова
1. очистка от синонимов
2. подавать каждый раз топ 10 слов
---
## Деплой
1. heroku + docker == hello
2. kuber = превознемогая боль
{"metaMigratedAt":"2023-06-15T00:22:41.944Z","metaMigratedFrom":"Content","title":"Rocky thicket","breaks":true,"contributors":"[{\"id\":\"c613fb69-a9c9-4ff2-9d85-e283f7abe219\",\"add\":4430,\"del\":2976}]"}