# Работа по расшифровке аудиофайлов
Приветствуем и благодарим за то, что присоединились к работе с нами!
Наша задача – расшифровать (разметить) короткие аудио фрагменты, которые подходят под критерии, описанные ниже. Нам важно не только количество, но и качество, поэтому, пожалуйста, прочитайте **ОЧЕНЬ ВНИМАТЕЛЬНО** данную инструкцию несколько раз.
Пока работаете, рекомендуем держать её всегда открытой, как шпаргалку.
<hr>
Мы будем работать с аудиозаписями разных знаменитостей. Например, если в названии задачи есть имя "Собчак", значит нам нужен голос только Ксении Собчак, если "Дудь" - только голос Юрия Дудя и никого другого.
Если вы не знаете, как звучит голос доступного спикера, посмотрите/послушайте несколько интервью на YouTube с этой знаменитостью, чтобы уметь различать её/его голос.
---
## Знакомимся с сервисом для разметки
Специально для работы мы создали сервис. Попасть на него можно по ссылке: https://robotvera.ru. Логин и пароль вышлют Наталья или Елизавета в личных сообщениях.
Открывайте его только на ПК (на телефоне или планшете он не будет корректно работать) с помощью браузера Google Chrome. Если не установлен этот браузер, скачайте его здесь: https://www.google.com/intl/ru_ru/chrome/.
---
После регистрации вы увидите страницу выбора спикеров:

<br>
Вы видите задания **двух типов**:
| Задание | Что означает |
| -------- | -------- | -------- |
| *CROP: Фамилия_спикера* | Задания, начинающиеся c *CROP* - это задания, где нужно ТОЛЬКО выбирать (вырезать) фрагмент записи. В этом задании НЕ нужно редактировать текст. |
| *TEXT: Фамилия_спикера* | Задания, начинающиеся c *TEXT* - это задания, где нужно записывать текст, озвученный спикером на выбранном фрагменте. |
<br>
Нажав на название задания, вам откроется страница разметки. Разберёмся с ней:

<br>
| Номер элемента |Что это |
| -------- | -------- |
| **1** | Звуковая волна, отображающая аудиодорожку с секундной шкалой. |
| **2** | Синий участок - это выбранный (вырезанный) нами качественный фрагмент. |
| **3** | Два бегунка, которые позволяют выбрать фрагмент аудио дорожки. |
| **4** | Поле, куда мы вписываем текст, произносимый на выбраном (синем) фрагменте. Не используется в заданиях первого типа CROP. |
| **5** | Кнопка проигрыша/стопа всей дорожки сначала или с момента, на котором вы остановились. |
| **6** | Кнопка проигрыша сначала/стопа только выбранного (синего) фрагмента. |
| **7** | Кнопка проигрыша первой секунды выбранного (синего) фрагмента. |
| **8** | Кнопка проигрыша последней секунды выбранного (синего) фрагмента. |
| **9** | Кнопка пропуска данной дорожки. Используйте, если сомневаетесь в том, что делать с этой дорожкой (тот ли этот спикер, как обрезать и т. д.) Старайтесь, не злоупотреблять этой кнопкой. |
| **10** | Кнопка "Принять" – нажимайте её, чтобы отправить размеченную аудиодорожку в нашу систему на проверку. |
| **11** | Кнопка "Отклонить" – нажимайте её, если аудиодорожка не подходит: на записи нет нужного нам спикера, одни помехи, нет куска, который можно вырезать и т. д. |
| **12** | Кнопки регулирования зума аудиодорожки для удобства вырезки нужного фрагмента. |
| **13** | Регуляторы скорости воспроизведения для помощи в прослушивании. |
| **14** | Раздел, где вы можете посмотреть вашу персональную статистику по текущему заданию. |
| **15** | Счётчик, показывающий сколько вы заработали. |
| **16** | ID или уникальный номер каждой отдельной аудиодорожки. Если у вас есть какой-то вопрос, сомнения по записи, вы можете скопировать данный ID, отправить его Наталье и описать проблему. |
---
# Задания первого типа CROP
Всегда начинаем работу с заданий типа *CROP: Фамилия_спикера.*
Как уже было описано выше, цель этого задания – выбрать хороший, качественный фрагмент записи. Текст в этих заданиях **НЕ** вписываем.
<br>
**Что такое хороший, качественный фрагмент?**
Это часть аудиозаписи, которая соответствует следующим критериям:
* Говорит только нужный нам спикер, фамилией которого названо задание.
* Это какая-либо фраза или какое-то логически завершенное предложение (или несколько).
* Спикер говорит в обычном режиме: не кричит, не шепчет, не пародирует речь другого, нет звуков-паразитов (ээ, ааа) и т. д.
* Никто не перебивает спикера, нет посторонних шумов, смешков, кашля и т. д.
* Нет длинных пауз в речи спикера (более 1 - 1,5 секунд).
<br>
**Примеры плохих дорожек, такие нам не подходят:**
Начинается не с начала и со звука “эээ”, по интонации предложение не заканчивается:
<audio controls="controls" src="https://robotvera.ru/media/sobchak_bad_1.mp3"><br>
</audio>
Появляется второй голос, а еще Собчак начинает “кричать” и сильно искажать свой голос:
<audio controls="controls" src="https://robotvera.ru/media/sobchak_bad_2.mp3"><br>
</audio>
Начинается не с начала по интонации, посторонние звуки, логические не заканчивается:
<audio controls="controls" src="https://robotvera.ru/media/sobchak_bad_3.mp3"><br>
</audio>
<br>
**Примеры отличных вырезанных фрагментов, то что надо!**
<audio controls="controls" src="https://robotvera.ru/media/sobchak_good_5.mp3">
</audio>
</br>
<audio controls="controls" src="https://robotvera.ru/media/sobchak_good_4.mp3">
</audio>
<br>
<audio controls="controls" src="https://robotvera.ru/media/sobchak_good_3.mp3">
</audio>
<hr>
**Как вырезать фрагмент?**
1. Нажмите кнопку "Проиграть всю дорожку" (5), прослушайте её и найдите хороший, качественный сегмент, который подходит под критерии, описанные выше.
2. На дорожке с шкалой (1) двигайте бегунки (3) так, чтобы захватить нужный нам фрагмент.
3. Для точного попадания используйте кнопки зума (12).
4. Убедитесь, что фрагмент подходит, проиграв его (6).
5. Нажмите кнопку "Принять" (10).
**Обязательно** посмотрите видео инструкцию, как нужно работать с обрезкой фрагментов:
<iframe width="560" height="315" src="https://www.youtube.com/embed/mNnCun6vjlA" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen>
</iframe>
<br>
<hr>
**Важно!**
* Мы стараемся искать как можно более длинные и качественные фрагменты. Идеально длительностью 7 – 10 секунд. Иногда, если не получается найти достаточно длинный участок, можно вырезать короткий, но не перебарщивать с этим.
* Предложение должно начинаться и заканчиваться по интонации. Опять же, это не всегда возможно, но к этому нужно стремиться.
* Если на всем выдаваемом аудио не находится ни одного подходящего участка – смело отклоняем кнопкой "Отклонить" (11).
* В этом задании НЕ обращаем внимание на текст, а только вырезаем аудио дорожку.
<br>
---
# Задания второго типа TEXT
В заданиях типа *TEXT: Фамилия_спикера* мы записываем текст ТОЛЬКО **выбранного (вырезанного) синего фрагмента**.
1. Чтобы прослушать текст только вырезанного фрагмента, нажмите кнопку "Проиграть сегмент" (6).
1. В поле (4) записываем текст, который спикер произносит на воспроизведенном фрагменте.
2. После этого нажимаем кнопку "Принять" (10).
---
Текст мы записываем по правилам, которые не совсем соответствуют нормам русского языка. Например, мы НЕ используем кавычки, тире, двоеточия, а **используем ТОЛЬКО следующие символы**:
| Символ |Когда и как используем |
| -------- | -------- |
| `,` (запятая) | Игнорируем обычные правила русского языка и ставим запятую, *только если* персонаж делает небольшую паузу между словами ~300мс (данная величина может меняться в зависимости от скорости самого спикера) или если персонаж *меняет интонацию* и хочется это как-то отметить. <br> <br>Ставим запятую без пробела сразу после слова, а после запятой используем пробел (`<первое_слово>, <второе_слово>`).|
| `.` (точка) | Служит для выделения конца предложения. Ставим только в том случае, если интонация уходит вниз. Важно ещё просто ставить точку в конце предложения (после последнего слова в тексте), если по интонации оно закончилось.<br><br> Разбор примеров, как и где ставить точки и запятые в дополнительной инструкции[ по ссылке.](https://hackmd.io/@sBZ0kSspTpmo7g6fnMzHPA/B1QIczkYS)|
| `!` (восклицательный знак) | Служит для окончания восклицательных предложений и фраз, заканчиваем их этим знаком, если персонаж говорит с напором.|
| `?` (вопросительный знак) | Служит для окончания предложений и фраз c вопросом (можно ставить как внутри предложения, так и в самом конце в зависимости от интонации).|
| `+` (плюс)| Служит для выделения ударения в слове. Используем если слово можно произнести с разным ударением (`зАмок` и `замОк`) или спикер нарочно поставил ударение неправильно. Перед ударной гласной добавляем символ `+` без пробелов (`з+амок`).|
| `*` (звёздочка) | Служит для растягивания звуков. Применима как к гласным, так и согласным. Используем без пробелов после нужной буквы (`эээ` -> `э*` или `Таак` -> `Та*к` или `ммм` -> `м*`)|
<br>
**Есть ещё несколько важных особенностей:**
| | |
| -------- | -------- |
| Пишем **`ё`**, где необходимо | Это очень важно, и про это правило легко забыть. Поэтому произносите про себя текст за спикером и перепроверяйте текст перед отправкой в систему.<br><br>Везде, где слышится звук "ё", нужно писать `ё`, даже если обычно мы так не пишем. Например, `ещё`, `на счёт`, `прочёл`, `ёжик`, `ребёнок`, `зачёт`, `привлечём`, `удалённый`, `всё что тебя касается` и т. д.|
| Только русские буквы | Если персонаж говорит английское слово, то мы его пишем на русском, например, вместо `«House of the Rising Sun»` пишем `«Хаус оф зэ райзинг сан» `(пишем, как слышится, а не по правилам транслитерации).|
| Числа и цифры пишем словами | Например, вместо `«1 доллар»` — `«один доллар»`, вместо `«Он родился в 1990»` — `«Он родился в тысяча девятьсот девяностом»`. Т.е. ровно так, как это звучит на аудио.|
| Раскрываем аббревиатуры | Сокращения типа и `т.д.`, `ФСБ` или `МТС` раскрываем и пишем в виде `«и тэ дэ»`,`«эф эс бэ»` или `«эм тэ эс»`. Т.е. так как они произносятся.|
| Непонятное как слышим, так и пишем | Если не получается понять смысл произносимого слова, нужно написать его буквами в том виде, в каком оно слышится. Условно, если прочесть эти буквы, то будет что-то похожее на то, что произносит персонаж.|
| Используем дефисы в словах| Мы не используем тире между словами, но используем дефисы в словах, как этого требуют правила русского языка. Например, `как-то`, `из-за`, `юго-запад`, `жар-птица` и т. д.|
---
**Еще два важных момента:**
1. В этом задании обычно не нужно менять фрагмент (двигать бегунки). Но, если вы слышите, что произносимое последнее слово чуть-чуть проглатывается в конце, тогда **обязательно** нужно с помощью бегунка немного скорректировать окончание, чтобы слово было слышно полностью. <br>Аналогично и про начало, если слышно, что можно скорректировать самое первое слово – нужно тоже подвинуть бегунок.<br> Ориентироваться нужно именно на произносимый и слышимый звук, при нажатии проиграть черная полоска будет забегать за конец выделенного сегмента, но это не страшно, так и должно быть, главное, чтобы звук был правильный.
2. Пожалуйста, не нужно придумывать и добавлять слова, которые спикер не говорил. Например, если спикер сказал `"ему говорю добрый а он молчит"`, **не** нужно писать `"ему говорю добрый вечер а он молчит"`.<br> Аналогично следите, чтобы из текстовой расшифровки не были выкинуты произнесенные слова (`"ему говорю добрый а он молчит"` **не** должно превращаться `"ему говорю а он молчит"`).
---
**Примеры, как это должно выглядеть:**
<audio controls="controls" src="https://robotvera.ru/media/sobchak_good_5.mp3">
</audio>
*Расшифровка:*
а давайте спросим сегодня есть ли ощущение надежды?
<br>
<audio controls="controls" src="https://robotvera.ru/media/sobchak_good_4.mp3">
</audio>
*Расшифровка:*
простите травят в собственной стране только потому что она выступает в россии.
<br>
<audio controls="controls" src="https://robotvera.ru/media/sobchak_good_3.mp3">
</audio>
*Расшифровка:*
результаты которого он признал. Он не хватался и не цеплялся за власть.
---
# Что делать, если непонятно, что делать?
* Если у вас вопрос общего характера или что-то не работает, пишите в нашу [группу в Телеграме](https://t.me/joinchat/BW98L1hJq5so8UvPZ5dkxw). Обычно на первом этапе проблемы у всех одинаковые, поэтому будет полезно разобрать их всем вместе.
* Если у вас вопрос по какой-то конкретной дорожке, скопируйте ID дорожки (16) и отправьте его [Наталье](https://t.me/NataliaRVS) в личные сообщения вместе с описанием проблемы. Если Наталья не отвечает долгое время, пропустите дорожку, нажав кнопку "Пропустить" (9), и переходите к следующей.
* Если у вас вопрос по оплате, пожалуйста, пишите в личные сообщения Наталье. Никогда не пишите свои персональные данные в общий чат.