# Команда .*lina ## Alina & Polina <style> .reveal { font-size: 24px; } .reveal p { text-align: left; } .reveal section img { background:none; border:none; box-shadow:none; } .reveal .polina { border:10; } </style> <!-- Каждая команда должна подготовить рассказ о своем решении на 3-5 минут. Пример создания слайдов https://hackmd.io/s/slide-example --> [TOC] --- ## Предобработка текстов 1. Удаление шапки и блока с подписью, содержащего e-mail <!--- Какие методы предобработки текста вы использовали? Почему? - Что дало хороший результат? Что не сработало? - Что вы хотели использовать, но не смогли/не успели? --> <!--- > organization: penn state university from: john a. johnson <j5j@psuvm.psu.edu> subject: re: after 2000 years, can we say that christian morality is <1r1ko8$6b1@horus.ap.mchp.sni.de> <sandvik-200493232227@sandvik-kent.apple.com> <1r39kh$itp@horus.ap.mchp.sni.de> lines: 63 > --> organization: penn state university from: john a. johnson <j5j@psuvm.psu.edu> subject: re: after 2000 years, can we say that christian morality is <1r1ko8$6b1@horus.ap.mchp.sni.de> <sandvik-200493232227@sandvik-kent.apple.com> <1r39kh$itp@horus.ap.mchp.sni.de> lines: 63 <some text> -- | dale leonard | judy's stamps (misc. topical stamps. from dogs..| | dleonard@wixer.cactus.org| to cats to baseball and many many other subjects| | austin, tx 78727 | for stamp information call tony leonard at......| | (512)834-8770 (my number)| (512) 837-0022 this is a business only number!!!| --- ## Последовательная предобработка текста 2. Удаляем слова, начинающиеся с букв, но содержащие цифры и несколько знаков пунктуации 3. Очистка текста от e-mail 4. Разбиение текста на токены не по пробельным символам, а по всем знакам пуктуации 5. Лемматизация слов с помощтю Wordnet 6. Удаление стоп-слов (Wordnet+несколько собственных), за исключением популярных глаголов из теста: do, have, can 7. Удаление слов, длиной 1 и 2 8. Удаление слов только из гласных/согласных, слов с 4-мя гласными подряд и 5-ю согласными подряд 9. Удаление редких слов <!--- Какие методы предобработки текста вы использовали? Почему? - Что дало хороший результат? Что не сработало? - Что вы хотели использовать, но не смогли/не успели? --> --- ## Обучение эмбеддингов - Использовали библиотеку fasttext - Tuning параметров: - model: 'cbow', 'skipgram' - lr: 0.01, 0.05, 0.1, 0.25 - ws: 5, 7, 9 - wordNgrams: 1, 2, 3, 4 - dim: 100 - epoch: 5, 10, 15, 25 - Best params: model='skipgram', lr=0.1, ws=7, wordNgrams=3, epoch=25 - Не успели попробовать: - другую размерность эмбеддинга <!--- - Какие подходы к обучению эмбеддингов вы применяли? - Какие библиотеки вы использовали? - Как подбирали параметры для обучения? - Как сравнивали разные эмбеддинги друг с другом? - Что дало лучший результат? Что не сработало и, как вам кажется, почему? - Что хотели попробовать, но не смогли/не успели? --> --- ## Логика загадывания и отгадывания слова - Она у нас одна - Для слова word выдаем список слов, которые не содержат word как слово - Пробовали удалять слова, близкие по расстоянию Левенштейна. Но не проходило по timeout - Хотели, но не успели протестировать: - разные модели на отгадывание и загадывание слов - более сложная фильтрация списка выдаваемых слов <!--- - Какую логику загадывания слова вы реализовали? - Какие идеи вы попробовали? Что оказалось удачным решением, что нет? - Как вы оценивали эффект от идей? - Какие идеи у вас были? Что бы вы ещё хотели попробовать? --> <!--- ## Логика отгадывания слова <!--- - Какую логику отгадывания слова вы реализовали? - Какие идеи вы попробовали? Что оказалось удачным решением, что нет? - Как вы оценивали эффект от идей? - Какие идеи у вас были? Что бы вы ещё хотели попробовать? --> --- ## Валидация созданного решения 1. Игра эмбеддингов "друг-против-друга" 2. Парсинг логов тестовых + соревнование в угадывании ![](https://i.imgur.com/ORByuDU.jpg =400x) 4. Метод научного эмпиризма --- ## Деплой сервиса с моделью <p style="text-align: center"> <img class="polina" src="https://miro.medium.com/max/1600/1*_saMmI_5Kse6rqZPkiekfg.png" alt="drawing" frameborder="0" width=400/> <p/> Сервис размещен на Google Cloud. <+>: - относительная простота размещения сервиса с нуля - устойчивая надежная работа при проведении тестирований - удобный интерфейс <->: - работа со статичными ссылками - накатка изменений c70a3fc3236e: Pushing [===============================> ] 133 MB/914.4 MB c70a3fc3236e: Retrying <!-- ## Деплой сервиса с моделью - Какой вариант деплоя сервиса вы выбрали? - С какими сложностями вы столкнулись? - Какие полезные выводы можно сделать, чтобы запомнить их на будущее? -->
{"metaMigratedAt":"2023-06-15T02:32:21.421Z","metaMigratedFrom":"YAML","title":"Рассказ о решении соревнования по игре в шляпу","breaks":true,"description":"View the slide with \"Slide Mode\".","slideOptions":"{\"theme\":\"white\",\"transition\":\"slide\"}","contributors":"[{\"id\":\"95886fbc-9897-4194-aa29-c11944d7ee46\",\"add\":9000,\"del\":4016}]"}
    198 views