Sony установила рекорд скорости обучения AI

В компании Sony ускорили процесс обучения глубоких нейронных сетей (DNN) без существенных потерь точности. Они использовали новый протокол передачи данных и собственную топологию сети в кластере графических ускорителей. В тесте с базой изображений ImageNet и алгоритме их распознавания ResNet-50 было продемонстрировано увеличение эффективности на 43,4%.

Набор ImageNet / ResNet-50 – один из самых популярных для сравнительной оценки техник распределенного глубокого обучения. Ещё в прошлом году очень хорошим результатом считалось завершение обучения DNN на этом наборе менее чем за сутки. Обычно для этого применялась грубая сила, и для достижения более высокой скорости просто ставили больше ускорителей Nvidia Tesla.

Однако по мере увеличения их количества стало очевидно, что скорость обучения растёт непропорционально числу GPU, а с какого-то момента дальнейшее масштабирование создаёт больше проблем, чем решает. В частности, слишком сильное распараллеливание увеличивает потери времени на синхронизацию между GPU и снижает точность конвергенции. Наиболее сильно это заметно при мини-пакетном обучении.

Сравнительные результаты обучения DNN

В поисках решения этой проблемы команды экспертов по всему миру стремились оптимизировать архитектуру кластеров и алгоритмы пакетной обработки для распределенного глубокого обучения.

Совсем недавно команда разработчиков из Гонконга установила рекорд: с использованием ResNet-50 обучение DNN было завершено за 396 секунд при использовании 2048 ускорителей Tesla P40. Точность распознавания сети составила 75,8%.

Однако этот рекорд продержался недолго, и теперь в Sony смогли улучшить результат до 224 секунд с использованием 2176 Tesla V100, добившись точности распознавания 75,03%.

Для достижения такой феноменальной эффективности японские специалисты оптимизировали протокол передачи данных, объединив небольшие пакеты. Кроме того, в Sony использовали высокоскоростную сеть Infiniband EDR x2 с топологией 2D-Torus (двумерный тор), состоящую из горизонтальных и вертикальных подсетей типа «кольцо». При использовании 1088 Tesla V100 эффективность распараллеливания составила 91,62% – это ещё один рекорд.

Источник: ImageNet/ResNet-50 Training in 224 Seconds / Hiroaki Mikami et al.

Загрузка ...
The Robot
Adblock
detector