# ТЗ набор данных для обучения
## Данные
Фагмент аудиофайла может содержать полные или не полные предложения, включая пунктуацию. см. пример metadata.csv
Желательно иметь следующие статистические распределения:
**Аудио:**
Максимальная длина 10 секунд.
Средняя длина 6,5 секунд.
**Строка:**
Максимальная длина 187 символов.
Минимальная длина 12
Средняя длина 100
Каждый аудиофайл представляет собой одноканальный 16-битный PCM WAV с частотой дискретизации 44100 Гц. (обсуждаемо)
Пример metadata.csv(картинка кликабельна)
[](https://i.imgur.com/snl32zH.png)
Пример распределения длин аудио фрагментов, условно идеального датасета:

## Формат метаданных
Метаданные находятся в metadata.csv (см. пример выше). Этот файл состоит из одной записи в строке:
ID: имя соответствующего файла .wav
Транскрипция: слова, сказанные читателем (UTF-8)
## Структура файлов
├── en_UK/
│ └── by_voice/
│ └── female/
│ └──surname/
│ └──wavs/
│ └──metadata.csv
│ └──surname/
│ └──wavs/
│ └──metadata.csv
│ └── male/
│ └──surname/
│ └──wavs/
│ └──metadata.csv
├── ru_RU/
│ └── by_voice/
│ └── female/
│ └──surname/
│ └──wavs/
│ └──metadata.csv
│ └── male/
│ └──surname/
│ └──wavs/
│ └──metadata.csv