Доклад

Code reordering для compute-bound задач на примере CUDA: ограничения и обходные пути

  • На русском языке

Оптимизация производительности кода — главная задача GPU-программиста. Мы рассмотрим применение методов переупорядочивания инструкций для ускорения compute-bound задач на CUDA.

Рассмотрим методы и алгоритмы переупорядочивания инструкций в компиляторах, попробуем это сделать самостоятельно на ассемблере, а еще попробуем добиться от компилятора более качественного переупорядочивания, не привлекая внимания санитаров без ассемблерных вставок. 

Для таких манипуляций нам потребуется качественный бенчмарк, поэтому обсудим и темы увеличения точности бенчмарков.

Цель доклада — выжать из устройства еще немного производительности, когда все алгоритмические и «стандартные» оптимизации уже применены, и в ход идут разные ухищрения.

Спикеры

Доклады