
Кирилл Колодяжный
YADRO
Хотите запускать ML-модели не только на серверных GPU с CUDA, но и на мобильных чипах, встраиваемых SoC или даже интегрированной графике? Vulkan — не только про рендеринг: его compute pipeline может стать универсальным бэкендом для переносимых вычислений.
Поделюсь опытом создания эффективной среды выполнения compute-шейдеров в рамках open-source-проекта Adept — платформы для обучения и инференса нейросетей на Vulkan.
Расскажу, как устроено кеширование шейдеров, почему важно минимизировать «инфраструктурные» вызовы, как правильно работать с барьерами и отслеживать состояние буферов, чтобы не терять производительность. Объясню, чем Vulkan Compute принципиально отличается от CUDA/OpenCL и какие подводные камни ждут разработчика. Покажу реальные результаты сравнения производительности с PyTorch/CUDA на базовых задачах.
Доклад будет полезен GPU-разработчикам, ML-инженерам и всем, кто интересуется portable high-performance вычислениями за пределами экосистемы NVIDIA.

YADRO