# Команда .*lina
## Alina & Polina
<style>
.reveal {
font-size: 24px;
}
.reveal p {
text-align: left;
}
.reveal section img {
background:none;
border:none;
box-shadow:none;
}
.reveal .polina {
border:10;
}
</style>
<!--
Каждая команда должна подготовить рассказ о своем решении на 3-5 минут. Пример создания слайдов https://hackmd.io/s/slide-example
-->
[TOC]
---
## Предобработка текстов
1. Удаление шапки и блока с подписью, содержащего e-mail
<!--- Какие методы предобработки текста вы использовали? Почему?
- Что дало хороший результат? Что не сработало?
- Что вы хотели использовать, но не смогли/не успели?
-->
<!---
> organization: penn state university
from: john a. johnson <j5j@psuvm.psu.edu>
subject: re: after 2000 years, can we say that christian morality is
<1r1ko8$6b1@horus.ap.mchp.sni.de>
<sandvik-200493232227@sandvik-kent.apple.com>
<1r39kh$itp@horus.ap.mchp.sni.de>
lines: 63
>
-->
organization: penn state university
from: john a. johnson <j5j@psuvm.psu.edu>
subject: re: after 2000 years, can we say that christian morality is
<1r1ko8$6b1@horus.ap.mchp.sni.de>
<sandvik-200493232227@sandvik-kent.apple.com>
<1r39kh$itp@horus.ap.mchp.sni.de>
lines: 63
<some text>
--
| dale leonard | judy's stamps (misc. topical stamps. from dogs..|
| dleonard@wixer.cactus.org| to cats to baseball and many many other subjects|
| austin, tx 78727 | for stamp information call tony leonard at......|
| (512)834-8770 (my number)| (512) 837-0022 this is a business only number!!!|
---
## Последовательная предобработка текста
2. Удаляем слова, начинающиеся с букв, но содержащие цифры и несколько знаков пунктуации
3. Очистка текста от e-mail
4. Разбиение текста на токены не по пробельным символам, а по всем знакам пуктуации
5. Лемматизация слов с помощтю Wordnet
6. Удаление стоп-слов (Wordnet+несколько собственных), за исключением популярных глаголов из теста: do, have, can
7. Удаление слов, длиной 1 и 2
8. Удаление слов только из гласных/согласных, слов с 4-мя гласными подряд и 5-ю согласными подряд
9. Удаление редких слов
<!--- Какие методы предобработки текста вы использовали? Почему?
- Что дало хороший результат? Что не сработало?
- Что вы хотели использовать, но не смогли/не успели?
-->
---
## Обучение эмбеддингов
- Использовали библиотеку fasttext
- Tuning параметров:
- model: 'cbow', 'skipgram'
- lr: 0.01, 0.05, 0.1, 0.25
- ws: 5, 7, 9
- wordNgrams: 1, 2, 3, 4
- dim: 100
- epoch: 5, 10, 15, 25
- Best params: model='skipgram', lr=0.1, ws=7, wordNgrams=3, epoch=25
- Не успели попробовать:
- другую размерность эмбеддинга
<!---
- Какие подходы к обучению эмбеддингов вы применяли?
- Какие библиотеки вы использовали?
- Как подбирали параметры для обучения?
- Как сравнивали разные эмбеддинги друг с другом?
- Что дало лучший результат? Что не сработало и, как вам кажется, почему?
- Что хотели попробовать, но не смогли/не успели?
-->
---
## Логика загадывания и отгадывания слова
- Она у нас одна
- Для слова word выдаем список слов, которые не содержат word как слово
- Пробовали удалять слова, близкие по расстоянию Левенштейна. Но не проходило по timeout
- Хотели, но не успели протестировать:
- разные модели на отгадывание и загадывание слов
- более сложная фильтрация списка выдаваемых слов
<!--- - Какую логику загадывания слова вы реализовали?
- Какие идеи вы попробовали? Что оказалось удачным решением, что нет?
- Как вы оценивали эффект от идей?
- Какие идеи у вас были? Что бы вы ещё хотели попробовать?
-->
<!--- ## Логика отгадывания слова
<!--- - Какую логику отгадывания слова вы реализовали?
- Какие идеи вы попробовали? Что оказалось удачным решением, что нет?
- Как вы оценивали эффект от идей?
- Какие идеи у вас были? Что бы вы ещё хотели попробовать?
-->
---
## Валидация созданного решения
1. Игра эмбеддингов "друг-против-друга"
2. Парсинг логов тестовых + соревнование в угадывании

4. Метод научного эмпиризма
---
## Деплой сервиса с моделью
<p style="text-align: center">
<img class="polina" src="https://miro.medium.com/max/1600/1*_saMmI_5Kse6rqZPkiekfg.png" alt="drawing"
frameborder="0"
width=400/>
<p/>
Сервис размещен на Google Cloud.
<+>:
- относительная простота размещения сервиса с нуля
- устойчивая надежная работа при проведении тестирований
- удобный интерфейс
<->:
- работа со статичными ссылками
- накатка изменений
c70a3fc3236e: Pushing [===============================> ] 133 MB/914.4 MB
c70a3fc3236e: Retrying
<!-- ## Деплой сервиса с моделью
- Какой вариант деплоя сервиса вы выбрали?
- С какими сложностями вы столкнулись?
- Какие полезные выводы можно сделать, чтобы запомнить их на будущее?
-->
{"metaMigratedAt":"2023-06-15T02:32:21.421Z","metaMigratedFrom":"YAML","title":"Рассказ о решении соревнования по игре в шляпу","breaks":true,"description":"View the slide with \"Slide Mode\".","slideOptions":"{\"theme\":\"white\",\"transition\":\"slide\"}","contributors":"[{\"id\":\"95886fbc-9897-4194-aa29-c11944d7ee46\",\"add\":9000,\"del\":4016}]"}