Набор ImageNet / ResNet-50 – один из самых популярных для сравнительной оценки техник распределенного глубокого обучения. Ещё в прошлом году очень хорошим результатом считалось завершение обучения DNN на этом наборе менее чем за сутки. Обычно для этого применялась грубая сила, и для достижения более высокой скорости просто ставили больше ускорителей Nvidia Tesla.
Однако по мере увеличения их количества стало очевидно, что скорость обучения растёт непропорционально числу GPU, а с какого-то момента дальнейшее масштабирование создаёт больше проблем, чем решает. В частности, слишком сильное распараллеливание увеличивает потери времени на синхронизацию между GPU и снижает точность конвергенции. Наиболее сильно это заметно при мини-пакетном обучении.
В поисках решения этой проблемы команды экспертов по всему миру стремились оптимизировать архитектуру кластеров и алгоритмы пакетной обработки для распределенного глубокого обучения.
Совсем недавно команда разработчиков из Гонконга установила рекорд: с использованием ResNet-50 обучение DNN было завершено за 396 секунд при использовании 2048 ускорителей Tesla P40. Точность распознавания сети составила 75,8%.
Однако этот рекорд продержался недолго, и теперь в Sony смогли улучшить результат до 224 секунд с использованием 2176 Tesla V100, добившись точности распознавания 75,03%.
Для достижения такой феноменальной эффективности японские специалисты оптимизировали протокол передачи данных, объединив небольшие пакеты. Кроме того, в Sony использовали высокоскоростную сеть Infiniband EDR x2 с топологией 2D-Torus (двумерный тор), состоящую из горизонтальных и вертикальных подсетей типа «кольцо». При использовании 1088 Tesla V100 эффективность распараллеливания составила 91,62% – это ещё один рекорд.
Источник: ImageNet/ResNet-50 Training in 224 Seconds / Hiroaki Mikami et al.