Rocky thicket - HackMD

# Rocky thicket --- ## Предобработка Первоначально было выдвинуто несколько гипотез касательно предобработки текста для дальнейшей работы сервиса - это tf-idf, SVD и embedding. Но выбор пал на уже предобученный embedding. --- Чистка текста базировалась исключительно на требованиях к тексту, со стороны "ведущего" загадывающего слова, которые рассказал Александр на первой лекции: оставить исключительно латинские символы, привести все слова к нижнему регистру, произвести Лемматизацию - как один из подходова способствующих улучшению работы модели - спасибо Виктору. --- Далее... далее был fasttext с различныии конфигурациями, где выходной размер вектора подбирался, в самом начале, для сравнительно ленивого подхода, но очень медленного - сделать автокодеровщик. --- ### 1-ая модель (Красивая, медленная, и бесполезная))) --- ### 2-ая модель (Шустрая) 1. Заобученный embedding или 16 гигов опертивки и 3 перезагрузки ноута без возможности двигать мышкой) 2. Посчитанное косинусное растояние для всех возможных пар в рамках получившегося словаря. 3. Для каждого слова был выбран вектор - Top_200 близких к нему 4. Сохранённый словарик --- ### 3-ая модель (SVD embeddings) 1. Обучалось 5 часов на 5 эпох с размером эмбеддинга 64 2. Не взлетело) --- ## Логика загадывания и отгадывания слова 1. очистка от синонимов 2. подавать каждый раз топ 10 слов --- ## Деплой 1. heroku + docker == hello 2. kuber = превознемогая боль