Михаил Лукин
Компания: Судо
Оптимизация производительности кода — главная задача GPU-программиста. Мы рассмотрим применение методов переупорядочивания инструкций для ускорения compute-bound задач на CUDA.
Рассмотрим методы и алгоритмы переупорядочивания инструкций в компиляторах, попробуем это сделать самостоятельно на ассемблере, а еще попробуем добиться от компилятора более качественного переупорядочивания, не привлекая внимания санитаров без ассемблерных вставок.
Для таких манипуляций нам потребуется качественный бенчмарк, поэтому обсудим и темы увеличения точности бенчмарков.
Цель доклада — выжать из устройства еще немного производительности, когда все алгоритмические и «стандартные» оптимизации уже применены, и в ход идут разные ухищрения.
Компания: Судо