# ТЗ набор данных для обучения ## Данные Фагмент аудиофайла может содержать полные или не полные предложения, включая пунктуацию. см. пример metadata.csv Желательно иметь следующие статистические распределения: **Аудио:** Максимальная длина 10 секунд. Средняя длина 6,5 секунд. **Строка:** Максимальная длина 187 символов. Минимальная длина 12 Средняя длина 100 Каждый аудиофайл представляет собой одноканальный 16-битный PCM WAV с частотой дискретизации 44100 Гц. (обсуждаемо) Пример metadata.csv(картинка кликабельна) [![кликабельно](https://i.imgur.com/snl32zH.png)](https://i.imgur.com/snl32zH.png) Пример распределения длин аудио фрагментов, условно идеального датасета: ![](https://i.imgur.com/TLLzVYH.png) ## Формат метаданных Метаданные находятся в metadata.csv (см. пример выше). Этот файл состоит из одной записи в строке: ID: имя соответствующего файла .wav Транскрипция: слова, сказанные читателем (UTF-8) ## Структура файлов ├── en_UK/ │ └── by_voice/ │      └── female/ │            └──surname/ │                └──wavs/ │                └──metadata.csv │            └──surname/ │                └──wavs/ │                └──metadata.csv │      └── male/ │            └──surname/ │                └──wavs/ │                └──metadata.csv ├── ru_RU/ │ └── by_voice/ │      └── female/ │            └──surname/ │                └──wavs/ │                └──metadata.csv │      └── male/ │            └──surname/ │                └──wavs/ │                └──metadata.csv