Доклад

Эффективный запуск compute-шейдеров в Adept

Хотите запускать ML-модели не только на серверных GPU с CUDA, но и на мобильных чипах, встраиваемых SoC или даже интегрированной графике? Vulkan — не только про рендеринг: его compute pipeline может стать универсальным бэкендом для переносимых вычислений.

Поделюсь опытом создания эффективной среды выполнения compute-шейдеров в рамках open-source-проекта Adept — платформы для обучения и инференса нейросетей на Vulkan.

Расскажу, как устроено кеширование шейдеров, почему важно минимизировать «инфраструктурные» вызовы, как правильно работать с барьерами и отслеживать состояние буферов, чтобы не терять производительность. Объясню, чем Vulkan Compute принципиально отличается от CUDA/OpenCL и какие подводные камни ждут разработчика. Покажу реальные результаты сравнения производительности с PyTorch/CUDA на базовых задачах.

Доклад будет полезен GPU-разработчикам, ML-инженерам и всем, кто интересуется portable high-performance вычислениями за пределами экосистемы NVIDIA.

Доклады