Статья от insight face, скорее про оптимизацию обучения больших данных (up to 10 millions ids)
Вклад статьи разбит на 3 составляющие:
1. Оптимизация обучения в случае MultiGPU
Например, у нас есть 10 видеокарт и 10 миллионов ID, самый bottleneck - голова, которая имеет огромный размер 10kk X facen_size, они предлагают ее равно разделить на количество видеокарт: то есть на каждой будет по 1 миллиону id, алгоритм вычисления на одной видеокарте будет следующим:
Highlight: считаем сумму своих 1 млн на видюхе и синхронайзим между видюхами только суммы
2. Нам не нужные все негативы при подсчете софтмакса